技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于组伪标签学习的半监督多模态情感识别方法及系统  >  正文

基于组伪标签学习的半监督多模态情感识别方法及系统

  • 国知局
  • 2024-08-22 14:58:02

本发明涉及多模态情感识别,具体涉及一种基于组伪标签学习的半监督多模态情感识别方法及系统。

背景技术:

1、多模态情感识别是计算机视觉领域具有重要研究意义的课题,旨在从多模态数据(包括音频、视频和文本)中识别情感,目前基于深度学习的情感识别模型需要海量的数据用于训练,而现实场景中,由于大量的多模态数据都属于无标签数据,因此基于以往的全监督学习无法充分利用这些无标签数据,导致大量的潜在信息被浪费,无法提升模型的性能。

2、目前,为解决上述问题,已有相关研究者提出将半监督学习应用于多模态情感识别领域,其中,半监督学习通过整合标注和未标注数据的信息,以此提高模型的性能、降低数据标注成本。因此,半监督学习的应用在一定程度上能够解决传统全监督学习面临的数据标注成本高昂和潜在信息浪费的问题。

3、在半监督学习的应用基础上,为了充分利用无标签数据的知识,近年来研究人员引入了伪标签生成方法。这类方法广泛采用平均教师模型,这一模型具体是通过教师模型对无标签数据生成伪标签指导学生模型的学习,使无标签数据得到充分利用。虽然基于平均教师的半监督学习已经取得了一定的进展,但将其直接应用于半监督多模态情感识别任务仍然面临挑战。这主要是因为多模态数据包含来自不同模态(如音频、视频和文本)的信息,这些模态之间存在显著差异。这种模态间的差异使得平均教师模型在为这些数据生成统一的伪标签时容易引入噪声,导致生成的伪标签预测不准确,进而影响最终的情感预测准确度。

技术实现思路

1、为了解决在生成统一的伪标签时容易引入噪声,导致生成的伪标签预测不准确的技术问题,本发明的目的在于提供一种基于组伪标签学习的半监督多模态情感识别方法及系统,所采用的技术方案具体如下:

2、第一方面,本技术公开的一种基于组伪标签学习的半监督多模态情感识别方法,所述方法包括:

3、s1、获取有标签训练数据,并基于所述有标签训练数据训练学生模型,得到训练好的第一学生模型;

4、s2、获取无标签数据,并将所述无标签数据输入到教师模型和学生模型中进行训练,训练过程中,所述教师模型加载所述第一学生模型的模型参数,并对所述无标签数据进行预测生成第一预测数据、以及对应的预测伪标签,所述学生模型基于所述预测伪标签进行预测生成第二预测数据,基于所述第一、二预测数据进行一致性学习,以提高教师模型和学生模型的预测相似性,其中,所述预测伪标签基于每个模态下的多模态伪标签和单模态伪标签之间的一致性损失加以约束所确定;

5、s3、训练结束后,输出目标学生模型,并基于所述目标学生模型进行多模态情感识别,得到相应的识别结果。

6、进一步的,步骤s1中,所述学生模型以多模态情感识别网络aeql中的情感分类损失为基础,通过下述公式进行情感识别损失的构建:

7、

8、其中,l表示有标签数据,yl表示有标签数据对应的标签,表示给定有标签训练数据l通过学生模型s得到的预测结果,基于分类任务中引入的交叉熵损失、以及回归任务中引入的均方误差构建所得。

9、进一步的,步骤s2中,所述每个模态下的多模态伪标签和单模态伪标签之间的一致性损失基于绝对误差损失构建所得,其中,在得到每个模态下的多模态伪标签和单模态伪标签之间的一致性损失之后,将所得的各个损失进行求和,得到用于用于对生成的组伪标签进行约束和修正,以缩小无标签数据中多模态情感表征和单模态情感表征分布的模态组伪标签校正损失。

10、进一步的,步骤s2中,训练过程中,所述多模态伪标签和单模态伪标签通过以下步骤处理得到:

11、将所述无标签数据输入到教师模型中,得到对应的输出特征f、sa、sv和st,其中,f表示经由教师模型输出的多模态情感分类特征,sa、sv和st分别表示输出的代表音频、视频和文本的私有特征;

12、将得到的输出特征f、sa、sv和st分别输入到全连接层fc,得到教师模型的多模态预测pm和单模态预测pa、pv、pt;

13、基于softmax操作对生成的多模态预测pm、以及各个单模态预测pa、pv、pt进行处理,得到多模态伪标签、以及对应音频、视频和文本的单模态伪标签。

14、进一步的,步骤s2中,所述学生模型基于所述预测伪标签进行预测生成第二预测数据,基于所述第一、二预测数据进行一致性学习,包括:

15、将所述预测伪标签输入到学生模型中,输出对应的多模态特征f′和多个单模态特征s′a、s′v和s′t;

16、基于得到的四个输出特征,通过全连接层分别得到学生模型输出的第二预测数据,其中,所述第二预测数据包括多模态预测p′m和单模态预测p′a,p′v和p′t;

17、获取经由教师模型输出的第一预测数据,并基于所述第一预测数据和所述第二预测数据通过绝对误差损失l1(y,y′)进行一致性学习。

18、进一步的,步骤s2中,为提高生成的多模态伪标签的准确性,所述方法还包括:

19、通过对比学习,将相同伪标签对应的特征作为正样本拉近,将不同伪标签对应的特征作为负样本拉远,从而使得特征生成的组伪标签之间更加的一致和准确。

20、第二方面,本技术公开的一种基于组伪标签学习的半监督多模态情感识别系统,该系统包括有标签数据训练模块、无标签数据训练模块以及多模态情感识别模块,其中:

21、所述有标签数据训练模块,用于获取有标签训练数据,并基于所述有标签训练数据训练学生模型,得到训练好的第一学生模型;

22、所述无标签数据训练模块,用于获取无标签数据,并将所述无标签数据输入到教师模型和学生模型中进行训练,训练过程中,所述教师模型加载所述第一学生模型的模型参数,并对所述无标签数据进行预测生成第一预测数据、以及对应的预测伪标签,所述学生模型基于所述预测伪标签进行预测生成第二预测数据,基于所述第一、二预测数据进行一致性学习,以提高教师模型和学生模型的预测相似性,其中,所述预测伪标签基于每个模态下的多模态伪标签和单模态伪标签之间的一致性损失加以约束所确定;

23、所述多模态情感识别模块,用于训练结束后,输出目标学生模型,并基于所述目标学生模型进行多模态情感识别,得到相应的识别结果。

24、进一步的,所述有标签数据训练模块还用于通过下述公式进行学生模型的情感识别损失的构建:

25、

26、其中,l表示有标签数据,yl表示有标签数据对应的标签,表示给定有标签训练数据l通过学生模型s得到的预测结果,基于分类任务中引入的交叉熵损失、以及回归任务中引入的均方误差构建所得。

27、进一步的,所述无标签数据训练模块还用于基于绝对误差损失构建所述每个模态下的多模态伪标签和单模态伪标签之间的一致性损失,其中,在得到每个模态下的多模态伪标签和单模态伪标签之间的一致性损失之后,将所得的各个损失进行求和,得到用于用于对生成的组伪标签进行约束和修正,以缩小无标签数据中多模态情感表征和单模态情感表征分布的模态组伪标签校正损失。

28、进一步的,所述无标签数据训练模块还用于将所述无标签数据输入到教师模型中,得到对应的输出特征f、sa、sv和st,其中,f表示经由教师模型输出的多模态情感分类特征,sa、sv和st分别表示输出的代表音频、视频和文本的私有特征;将得到的输出特征f、sa、sv和st分别输入到全连接层fc,得到教师模型的多模态预测pm和单模态预测pa、pv、pt;基于softmax操作对生成的多模态预测pm、以及各个单模态预测pa、pv、pt进行处理,得到多模态伪标签、以及对应音频、视频和文本的单模态伪标签。

29、本发明具有如下有益效果:

30、1、通过引入无标签数据,并基于教师模型和学生模型的一致性学习,使得能够充分利用无标签数据中的潜在信息,从而提升模型的性能。其中,预测伪标签的生成也考虑了每个模态下的多模态伪标签和单模态伪标签之间的一致性损失,这有助于增强模型在多模态数据上的识别能力;

31、2、引入了模态组伪标签代替传统平均教师模型生成的单一伪标签,包括多模态伪标签和单模态伪标签,充分考虑了每种模态对情感识别的独特贡献,旨在减少不同模态之间的情感差距。利用模态私有特征产生的单模态伪标签来纠正和促进多模态伪标签的预测分布,从而提高其预测精度。

本文地址:https://www.jishuxx.com/zhuanli/20240822/280613.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。