多模态情感识别模型训练方法、多模态情感识别方法及设备
- 国知局
- 2024-08-19 14:22:10
本技术涉及人工智能和多模态情感识别,尤其涉及多模态情感识别模型训练方法、多模态情感识别方法及设备。
背景技术:
1、情感识别是人机交互中重要的组成部分。为了提高人机交互的体验,情感识别系统必须要充分利用可以获得到的每个模态的信息,例如语音、文本和视觉模态等,去提高系统的情感识别能力。因此,如何高效的利用和融合模态间的信息形成互补特征用于多模态情感识别变的至关重要。
2、当前的多模态情感识别方案的一般方法为:首先,提取每一个模态的特征表征;其次每个模态有一个分支网络用于拟合单一模态的特征;再次使用多模态融合模块融合多个分支网络的输出实现多模态信息融合;最后,利用分类器实现多模态情感识别。
3、然而,虽然目前的多模态情感识别工作多注重模态间信息的有效融合,但无法利用不同模态之间的互补性信息,从而会影响多模态情感识别模型整体的性能和泛化能力。其次,多模态情感融合过程中,有的模态表征能力强,在训练过程中对于简单易识别的样本,只利用这个单一模态就能准确识别其的情感,这样易导致模型学习模态间信息不充分,在预测复杂样本时容易误识别。
技术实现思路
1、鉴于此,本技术实施例提供了多模态情感识别模型训练方法、多模态情感识别方法及设备,以消除或改善现有技术中存在的一个或更多个缺陷。
2、本技术的一个方面提供了一种多模态情感识别模型训练方法,包括:
3、基于对比学习方式对多个情感识别对象各自对应的第一模态特征和第二模态特征进行情感信息对齐处理,其中,所述第一模态特征和第二模态特征属于不同的模态类型且均设有情感标签;
4、采用难分样本挖掘方式和交叉注意力机制分别获取各个所述第一模态特征和各个所述第二模态特征各自对应的二分类训练融合特征数据,并基于所述交叉注意力机制分别获取各个所述第一模态特征和各个所述第二模态特征对应的四分类训练融合特征数据;
5、以各个所述第一模态特征各自对应的二分类训练融合特征数据作为第一二分类器的输入数据,以各个所述第二模态特征各自对应的二分类训练融合特征数据作为第二二分类器的输入数据,并以各个所述第一模态特征和各个所述第二模态特征各自对应的四分类训练融合特征数据作为四分类器的输入数据,对所述第一二分类器、所述第二二分类器和所述四分类器进行多任务联合训练,以使所述第一二分类器和所述第二二分类器分别用于识别各个所述第一模态特征和各个所述第二模态特征各自对应的二分类训练融合特征数据是否匹配对应的情感标签,并将所述四分类器训练为用于识别各个所述情感识别对象各自所属的情感类别的多模态情感识别模型。
6、在本技术的一些实施例中,在所述基于对比学习方式对多个情感识别对象各自对应的第一模态特征和第二模态特征进行情感信息对齐处理之前,还包括:
7、获取一初始情感识别对象的分别设有情感标签的第一模态数据和第二模态数据,所述第一模态数据和第二模态数据属于不同的模态类型,所述模态类型包括:语音模态、视频模态、文字模态和生理信号模态;
8、对所述初始情感识别对象对应的所述第一模态数据和第二模态数据分别进行预处理,以得到该初始情感识别对象对应的目标第一模态样本和目标第二模态样本;
9、在除所述初始情感识别对象之外的其他各个情感识别对象各自对应的第一模态样本中,选取与所述目标第一模态样本的情感标签相同的多个第一模态样本以作为第一模态的正样本,并选取与所述目标第一模态样本的情感标签不同的多个第一模态样本以作为第一模态的负样本,进而组成由所述目标第一模态样本、第一模态的正样本和第一模态的负样本构成的训练样本集;
10、将所述训练样本集的各个所述情感识别对象各自对应的第二模态样本也加入该训练样本集中;
11、对所述训练样本集中的各个情感识别对象各自对应的第一模态样本和第二模态样本分别进行特征提取,以得到所述训练样本集中的各个所述第一模态样本各自对应的第一模态特征以及各个所述第二模态样本各自对应的第二模态特征。
12、在本技术的一些实施例中,所述对所述训练样本集中的各个情感识别对象各自对应的第一模态样本和第二模态样本分别进行特征提取,以得到所述训练样本集中的各个所述第一模态样本各自对应的第一模态特征以及各个所述第二模态样本各自对应的第二模态特征,包括:
13、将所述训练样本集中的各个所述第一模态样本分别输入预设的第一模态预训练模型,以使该第一模态预训练模型分别输出各个所述第一模态样本各自对应的第一模态特征;
14、将所述训练样本集中的各个所述第二模态样本分别输入预设的第二模态预训练模型,以使该第二模态预训练模型分别输出各个所述第二模态样本各自对应的第二模态特征。
15、在本技术的一些实施例中,所述基于对比学习方式对多个情感识别对象各自对应的第一模态特征和第二模态特征进行情感信息对齐处理,包括:
16、对各个情感识别对象各自对应的第一模态特征和第二模态特征按照时间维度进行平均池化,以得到各个所述第一模态特征各自对应的第一模态特征向量以及各个所述第二模态特征各自对应的第二模态特征向量;
17、针对由各个所述第一模态特征向量构成的第一模态向量集合以及由各个所述第二模态特征向量构成的第二模态向量集合,获取第一模态关于第二模态的情感相似度,以及第二模态关于第一模态的情感相似度;
18、构建由1和0组成的针对各个情感识别对象的情感标签矩阵,其中,1表示其在所述情感标签矩阵中的位置对应的情感识别对象的第一模态特征和第二模态特征之间的情感标签相同;0表示其在矩阵中位置对应的情感识别对象的第一模态特征和第二模态特征之间的情感标签不同;
19、基于所述情感标签矩阵、所述第一模态关于第二模态的情感相似度和所述第二模态关于第一模态的情感相似度,采用预设的对比学习损失函数对各个所述情感识别对象各自对应的第一模态特征和第二模态特征进行情感信息对齐处理。
20、在本技术的一些实施例中,所述采用难分样本挖掘方式和交叉注意力机制分别获取各个所述第一模态特征和各个所述第二模态特征各自对应的二分类训练融合特征数据,并基于所述交叉注意力机制分别获取各个所述第一模态特征和各个所述第二模态特征对应的四分类训练融合特征数据,包括:
21、基于所述情感标签矩阵,采用难分样本挖掘方式构建各个所述第一模态特征各自对应的通过难分样本挖掘的第一特征以及所述第二模态特征各自对应的通过难分样本挖掘的第二特征,并根据所述第一模态特征、通过难分样本挖掘的第一特征、第二模态特征和通过难分样本挖掘的第二特征,生成用于第一交叉注意力机制融合模块的第一输入特征以及用于第二交叉注意力机制融合模块的第二输入特征;
22、将各个所述第一输入特征输入预设的第一交叉注意力机制融合模块,以使该第一交叉注意力机制融合模块分别输出各个第一输入特征各自对应的第一模态关于第二模态的融合特征,并对各个所述第一模态关于第二模态的融合特征按照时间维度进行平均池化,得到各个所述第一模态关于第二模态的融合特征向量,以作为各个所述第一模态特征各自对应的二分类训练融合特征数据;
23、将各个所述第二输入特征输入预设的第二交叉注意力机制融合模块,以使该第二交叉注意力机制融合模块分别输出各个第二输入特征各自对应的第二模态关于第一模态的融合特征,并对各个所述第二模态关于第一模态的融合特征按照时间维度进行平均池化,得到各个所述第二模态关于第一模态的融合特征向量,以作为各个所述第二模态特征各自对应的二分类训练融合特征数据;
24、将各个所述第一模态特征和各个所述第二模态特征输入所述第一交叉注意力机制融合模块,以使该第一交叉注意力机制融合模块分别输出各个第一输入特征各自对应的第一模态融合第二模态的特征;
25、以及,将各个所述第一模态特征和各个所述第二模态特征输入所述第二交叉注意力机制融合模块,以使该第二交叉注意力机制融合模块分别输出各个第二输入特征各自对应的第二模态融合第一模态的特征;
26、对各个所述第一模态融合第二模态的特征和各个所述第二模态融合第一模态的特征进行拼接,得到对应的四分类训练融合特征数据。
27、在本技术的一些实施例中,对所述第一二分类器、所述第二二分类器和所述四分类器进行多任务联合训练的目标损失函数由所述对比学习方式对应的对比学习损失函数、所述第一二分类器和所述第二二分类器对应的情感标签匹配损失函数以及所述四分类器对应的四分类损失函数构成。
28、在本技术的一些实施例中,所述第一二分类器、所述第二二分类器以及所述四分类器均由依次连接的一个全连接层和一个激活函数层构成。
29、本技术的另一个方面提供了一种多模态情感识别方法,包括:
30、获取目标情感识别对象所属不同模态类型的第一模态数据和第二模态数据,所述第一模态数据和第二模态数据属于不同的模态类型,所述模态类型包括:语音模态、视频模态、文字模态和生理信号模态;
31、对所述第一模态数据和第二模态数据分别进行特征提取,以得到所述第一模态数据对应的第一目标模态特征以及所述第二模态数据对应的第二目标模态特征;
32、将所述第一目标模态特征和所述第二目标模态特征输入预设的多模态情感识别模型,以基于该多模态情感识别模型的输出的情感识别结果数据确定所述初始情感识别对象的情感类型,其中,所述多模态情感识别模型预先基于所述多模态情感识别模型训练方法训练得到。
33、本技术的第三个方面提供了一种多模态情感识别模型训练装置,包括:
34、对比学习模块,用于基于对比学习方式对多个情感识别对象各自对应的第一模态特征和第二模态特征进行情感信息对齐处理,其中,所述第一模态特征和第二模态特征属于不同的模态类型且均设有情感标签;
35、特征融合模块,用于采用难分样本挖掘方式和交叉注意力机制分别获取各个所述第一模态特征和各个所述第二模态特征各自对应的二分类训练融合特征数据,并基于所述交叉注意力机制分别获取各个所述第一模态特征和各个所述第二模态特征对应的四分类训练融合特征数据;
36、多任务联合训练模块,用于以各个所述第一模态特征各自对应的二分类训练融合特征数据作为第一二分类器的输入数据,以各个所述第二模态特征各自对应的二分类训练融合特征数据作为第二二分类器的输入数据,并以各个所述第一模态特征和各个所述第二模态特征各自对应的四分类训练融合特征数据作为四分类器的输入数据,对所述第一二分类器、所述第二二分类器和所述四分类器进行多任务联合训练,以使所述第一二分类器和所述第二二分类器分别用于识别各个所述第一模态特征和各个所述第二模态特征各自对应的二分类训练融合特征数据是否匹配对应的情感标签,并将所述四分类器训练为用于识别各个所述情感识别对象各自所属的情感类别的多模态情感识别模型。
37、本技术的第四个方面提供了一种多模态情感识别装置,包括:
38、数据获取模块,用于获取目标情感识别对象所属不同模态类型的第一模态数据和第二模态数据,所述第一模态数据和第二模态数据属于不同的模态类型,所述模态类型包括:语音模态、视频模态、文字模态和生理信号模态;
39、特征提取模块,用于对所述第一模态数据和第二模态数据分别进行特征提取,以得到所述第一模态数据对应的第一目标模态特征以及所述第二模态数据对应的第二目标模态特征;
40、情感识别模块,用于将所述第一目标模态特征和所述第二目标模态特征输入预设的多模态情感识别模型,以基于该多模态情感识别模型的输出的情感识别结果数据确定目标情感识别对象的情感类型,其中,所述多模态情感识别模型预先基于所述多模态情感识别模型训练方法训练得到。
41、本技术的第五个方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的多模态情感识别模型训练方法,和/或,实现所述的多模态情感识别方法。
42、本技术的第六个方面提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的多模态情感识别模型训练方法,和/或,实现所述的多模态情感识别方法。
43、本技术的第七个方面提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现所述的多模态情感识别模型训练方法,和/或,实现所述的多模态情感识别方法。
44、本技术提供的多模态情感识别模型训练方法,基于对比学习方式对多个情感识别对象各自对应的第一模态特征和第二模态特征进行情感信息对齐处理,其中,所述第一模态特征和第二模态特征属于不同的模态类型且均设有情感标签;采用难分样本挖掘方式和交叉注意力机制分别获取各个所述第一模态特征和各个所述第二模态特征各自对应的二分类训练融合特征数据,并基于所述交叉注意力机制分别获取各个所述第一模态特征和各个所述第二模态特征对应的四分类训练融合特征数据;以各个所述第一模态特征各自对应的二分类训练融合特征数据作为第一二分类器的输入数据,以各个所述第二模态特征各自对应的二分类训练融合特征数据作为第二二分类器的输入数据,并以各个所述第一模态特征和各个所述第二模态特征各自对应的四分类训练融合特征数据作为四分类器的输入数据,对所述第一二分类器、所述第二二分类器和所述四分类器进行多任务联合训练,以使所述第一二分类器和所述第二二分类器分别用于识别各个所述第一模态特征和各个所述第二模态特征各自对应的二分类训练融合特征数据是否匹配对应的情感标签,并将所述四分类器训练为用于识别各个所述情感识别对象各自所属的情感类别的多模态情感识别模型,本技术通过对比学习方式进行模态信息对齐,能够确保不同模态之间的数据具有一致的表示形式和语义含义,为后续的模态融合和多任务学习提供基础,这样可以使得模型能够更好地利用不同模态之间的互补性信息,从而提高整体的性能和泛化能力。还提出一种模态间情感标签匹配任务,能够缓解训练过程中不同模态在对于情感识别任务贡献度不同的问题,能够辅助多模态信息融合提高情感识别的正确率和鲁棒性。
45、本技术的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本技术的实践而获知。本技术的目的和其它优点可以通过在说明书以及附图中具体指出的结构实现到并获得。
46、本领域技术人员将会理解的是,能够用本技术实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本技术能够实现的上述和其他目的。
本文地址:https://www.jishuxx.com/zhuanli/20240819/274925.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。