技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于互信息的多模态情感识别方法及系统  >  正文

一种基于互信息的多模态情感识别方法及系统

  • 国知局
  • 2024-08-05 12:08:20

本发明属于多模态情感识别,涉及一种基于互信息的多模态情感识别方法及系统。

背景技术:

1、情感识别技术通过分析人的面部表情、语音语调、身体语言等非言语信息,以及通过文本分析来识别和理解人类的情感。随着信息技术的不断进步,互联网上的数据量呈现爆炸式增长,这些数据以多模态的形式存在,包括文本、音频、图像等多模态形态。多模态情感识别技术通过充分发挥多模态数据的互补优势,并有效融合这些数据,可以显著提升情感识别的准确性,从而提供更自然、更智能的人机交互体验。

2、多模态情感识别领域的研究重点在于如何从不同模态中提取全面而准确的多模态特征表示。目前大多数多模态特征表示学习方法现主要集中在通过将不同的模态嵌入到同一个特征空间中来学习共同的表达。然而,不同模态不仅仅具有共同的信息,也存在每个模态自身所特有的信息。在多模态特征表示学习过程中只学习共同特征则会把每个模态所独立的、特有的信息给削弱或者去掉,造成巨大的信息损失。同时,多模态融合过程中生成的高维度多模态表示向量中含有的噪声和冗余信息会造成过拟合。因此,如何充分挖掘模态间的互补信息和共有信息,并滤除模态中包含的噪声信息,从而获取一个充分简洁的多模态特征表示成为目前亟待解决的技术问题。

3、现有的多模态情感识别技术虽能提升识别准确性,但过于强调共同特征的表达,忽视模态特有信息,导致信息损失和精度下降。同时,高维度融合向量中的噪声和冗余信息增加了复杂度,可能引发过拟合,降低了识别稳定性。

技术实现思路

1、本发明要解决的技术问题是:如何利用互信息剔除冗余信息、提取共有信息,并挖掘不同模态的特有信息,以提高多模态情感识别精度。

2、为解决上述技术问题,本发明是采用下述技术方案实现的。

3、本发明提供一种基于互信息的多模态情感识别方法,包括:

4、获取视频数据和音频数据;

5、根据所述视频数据和音频数据以及已经训练好的多模态情感识别模型,获得情感分类结果;

6、其中,所述多模态情感识别模型的训练方法包括:

7、定义总体损失函数,基于得到的总体损失,训练多模态情感识别模型;

8、所述总体损失函数由单模态特有信息学习损失函数、模态间的共同信息学习损失函数、多模态融合特征最小充分表示损失函数、情感识别分类损失函数组成;

9、所述单模态特有信息学习损失函数,包括音频单模态特有信息学习损失函数和视频单模态特有信息学习损失函数,用于学习不同模态的特有信息并过滤各个模态中的噪声冗余信息;

10、所述模态间的共同信息学习损失函数,用于学习模态间的共有信息;

11、所述多模态融合特征最小充分表示损失函数,用于提取与情感识别任务最相关的信息,过滤融合特征中的噪声冗余信息,获得多模态融合特征最小充分表示;

12、所述情感识别分类损失函数,用于获得最终的情感分类结果。

13、进一步地,所述总体损失函数,表示为:

14、;

15、式中, l a表示音频单模态特有信息学习损失函数, l v表示视频单模态特有信息学习损失函数, l a+ l v表示单模态特有信息学习损失函数, l a,v表示模态间的共有信息学习损失函数, l f表示多模态融合特征最小充分表示损失函数, l task表示情感识别分类损失函数;

16、所述音频单模态特有信息学习损失函数,表示为:

17、;

18、式中, l a表示音频单模态特有信息学习损失函数, z a表示音频模态特征的最小充分表示, y a表示音频模态的真实标签, x a表示初始音频单模态特征, β表示拉格朗日乘子, i(;)表示两个特征向量之间的互信息;

19、所述视频单模态特有信息学习损失函数,表示为:

20、;

21、式中, l v表示视频单模态特有信息学习损失函数, z v表示视频模态特征的最小充分表示, y v表示视频模态的真实标签, x v表示初始视频单模态特征, β表示拉格朗日乘子, i(;)表示两个特征向量之间的互信息;

22、所述模态间的共同信息学习损失函数,表示为:

23、;

24、式中, l a,v表示模态间的共有信息学习损失函数, z v表示视频模态特征的最小充分表示, z a表示音频模态特征的最小充分表示, i(;)表示两个特征向量之间的互信息;

25、所述多模态融合特征最小充分表示损失函数,表示为:

26、;

27、式中, l f表示多模态融合特征最小充分表示学习损失函数, x f表示初始多模态融合特征, y f表示样本真实标签, β表示拉格朗日乘子, i(;)表示两个特征向量之间的互信息;

28、所述情感识别分类损失函数,表示为:

29、;

30、式中, l task表示情感识别分类损失函数,crossentropy表示交叉熵损失函数, y pred表示预测值, y表示真实标签。

31、进一步地,所述多模态情感识别模型的训练方法还包括:

32、将初始视频单模态特征,初始音频单模态特征,分别输入到多层感知机,得到单模态特征;

33、基于信息瓶颈理论,定义所述单模态特有信息学习损失函数,利用互信息学习所述单模态特征各自特有的信息并过滤音频模态和视频模态中的噪声冗余信息,获得视频模态特征的最小充分表示和音频模态特征的最小充分表示。

34、进一步地,根据所述单模态特有信息学习损失函数,基于信息瓶颈理论,利用互信息学习所述学习单模态特征各自特有的信息并过滤音频模态和视频模态中的噪声冗余信息,获得视频模态特征的最小充分表示和音频模态特征的最小充分表示,包括:

35、利用互信息上界估计club最小化初始单模态特征表示和单模态特征之间的互信息,进行压缩冗余信息;互信息上界计算公式,表示为:

36、;

37、式中, z m表示单模态特征, x m表示初始单模态特征表示, iclub(;)表示互信息上界中两个特征向量之间的互信息, n表示样本批量大小,表示从真实样本中采样的神经网络参数,表示正样本变分分布,表示负样本变分分布,表示第 i个样本最终单模态特征,表示第 i个样本初始单模态特征,表示第 j个样本初始单模态特征,表示变分分布的对数函数;

38、利用互信息下界估计mine最大化单模态特征和模态真实标签值之间的互信息,获得视频模态特征的最小充分表示和音频模态特征的最小充分表示;互信息下界计算公式,表示为:

39、;

40、式中, z m表示单模态特征, y m表示真实标签, imine(;)表示互信息下界中两个特征向量之间的互信息, n表示样本批量大小,表示从真实样本中采样的网络参数为的神经网络,表示联合分布期望值,表示边缘分布乘积期望值, sup表示上确界,表示网络参数所有可能的参数空间,e表示自然底数,log表示对数函数。

41、进一步地,所述多模态情感识别模型的训练方法还包括:将视频模态特征的最小充分表示和音频模态特征的最小充分表示进行拼接,得到初始多模态融合特征。

42、进一步地,所述多模态情感识别模型的训练方法还包括:基于信息瓶颈理论,定义所述多模态融合特征最小充分表示损失函数,约束多模态融合特征的最小充分表示的学习,获得多模态融合特征最小充分表示。

43、进一步地,基于信息瓶颈理论,定义所述多模态融合特征最小充分表示损失函数,约束多模态融合特征的最小充分表示的学习,获得多模态融合特征最小充分表示,包括:

44、利用互信息上界估计club最小化初始多模态融合特征和多模态融合特征最小充分表示之间的互信息,压缩冗余信息,并滤除多模态融合过程中携带的噪声;

45、利用互信息下界估计mine最大化初始多模态融合特征和样本真实标签之间的互信息,得到多模态融合特征最小充分表示。

46、进一步地,所述多模态情感识别模型的训练方法还包括:根据所述情感识别分类损失函数,将所述多模态融合特征最小充分表示送入线性分类器进行分类得到预测值,作为情感分类结果。

47、本发明还提供了一种基于互信息的多模态情感识别系统,包括以下模块:

48、数据集获取模块,用于获取视频数据和音频数据;

49、情感结果分析模块,用于根据所述视频数据和音频数据以及已经训练好的多模态情感识别模型,获得情感分类结果;

50、其中,所述多模态情感识别模型的训练方法包括:

51、定义总体损失函数,基于得到的总体损失,训练多模态情感识别模型;

52、所述总体损失函数由单模态特有信息学习损失函数、模态间的共同信息学习损失函数、多模态融合特征最小充分表示损失函数、情感识别分类损失函数组成;

53、所述单模态特有信息学习损失函数,包括音频单模态特有信息学习损失函数和视频单模态特有信息学习损失函数,用于学习不同模态的特有信息并过滤各个模态中的噪声冗余信息;

54、所述模态间的共同信息学习损失函数,用于学习模态间的共有信息;

55、所述多模态融合特征最小充分表示损失函数,用于提取与情感识别任务最相关的信息,过滤融合特征中的噪声冗余信息,获得多模态融合特征最小充分表示;

56、所述情感识别分类损失函数,用于获得最终的情感分类结果。

57、与现有技术相比,本发明所达到的有益效果:

58、本发明提出的一种基于互信息的多模态情感识别方法,能够利用互信息剔除单模态特征中冗余信息,提取与任务相关的信息,充分挖掘单模态的特有信息,提高单模态表征学习过程中模态间的互补性,同时还能够利用互信息提取模态之间的共有信息,减小模态间的差异,最大化模态间的一致性,能够利用互信息提取多模态融合特征最小充分表示。

59、本发明提出的一种基于互信息的多模态情感识别方法,还能在兼容共有和特有信息的同时,滤除多模态融合特征最小充分表示在经过融合网络后携带的噪声信息,以达到学习一种多模态简洁表示,降低过拟合风险的目的,本发明提出的一种基于互信息的多模态情感识别方法还可以灵活地嵌入各种多模态融合模型中,具有较强的适用性。

本文地址:https://www.jishuxx.com/zhuanli/20240802/261243.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。