技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于相对熵对齐融合的多模态语音情感识别方法 > 正文

基于相对熵对齐融合的多模态语音情感识别方法

国知局
2024-06-21 11:34:00

本发明属于情感识别，具体涉及一种基于相对熵对齐融合的多模态语音情感识别方法。

背景技术：

1、情感在现实生活中的人际交往中发挥着至关重要的作用，在过去的几十年里，情感的计算已经成为一个重要的研究领域。人类的情绪可以通过面部表情、身体姿势、书面信息、语调等来识别。在人机交互系统中，人们的语言往往包含多种情绪，准确区分他们的情绪在许多应用中起着至关重要的作用。例如，语音情感识别(ser)可以帮助治疗患者并提高他们的情感沟通技能。

2、目前，大多数关于ser的研究主要依赖于单模态。但仅通过语音分析来捕获隐含的语义信息往往产生有限的准确性，从而导致情感的错误分类。最新研究证明，多模态方法优于单模态方法，它通过利用来自多个模态的情感信息显著提高模型情感识别的性能。现阶段基于深度学习的多模态语音情感识别主要分为两种：一种是决策层融合，将声学和文本信息单独建模，并且不同模态间不共享参数，然后将表示不同模态的情感特征向量在最终分类层进行融合。另一种是模型层融合，它考虑模态间信息的交互作用，通常在建模过程中不同模态间互相引入额外的信息从而有效地利用声学和文本模态之间的相互作用来获得互补的情感表征。

3、对于决策层融合，大多数研究通常使用cnn,lstm,rnn等深度学习模型分别对文本和语音特征建模，然后将不同模态的特征进行级联或注意力机制进行融合后进行分类。但决策层融合往往忽略了两种模态之间的交互，并没有将模态之间信息互补的优势放大化。

4、对于模型层融合，现阶段一种流行的方法则是将文本和声学特征在建模过程中进行信息交互，由此补充各模态的情感信息，进而提升情绪识别效率。有研究通过注意力机制证明了跨模态的建模相较于多模态分布建模能获得巨大的性能提升，具体的，将声学特征或文本特征当作query和key，value则由另外一种模态线性映射得到，然后进行多头缩放点乘注意力(multihead scaled dot product attention)计算得到交互后的两种模态表示。另一个类似的跨模态研究是将文本所对应的语音进行切割，通过在两个模态上使用相同的时间步长以实现模态对齐，并采用跨注意力的方法融合信号对齐后的序列特征。然而，通过手动的方式很难界定语音帧长和文本长度的对应关系，从而无法做到语意上的一致。

技术实现思路

1、为解决上述技术问题，本发明提出一种基于相对熵对齐融合的多模态语音情感识别方法，包括：

2、建立多模态语音情感识别模型，并对建立的多模态语音情感识别模型进行训练，将训练完成后的多模态语音情感识别模型用于语音情感识别；

3、所述对建立的多模态语音情感识别模型进行训练，包括：

4、s1：获取语音数据，所述语音数据包括音频数据和音频数据对应的文本数据；

5、s2：基于音频数据分别通过基于小波包变换提取声学特征参数和预训练的wavlm-base+模型进行语音特征提取，得到wpt-log-mel声学特征a1和声学特征a2；

6、s3：基于文本数据使用预训练的minilm模型进行潜在信息学习，得到文本特征et；

7、s4：使用多层感知器mlp将声学特征a2和文本特征et映射到相同的空间，并探索文本和语音之间的细粒度相关性和相互作用，得到对齐后的语音表示和文本表示

8、s5：对语音表示和文本表示通过线性层变换维度后并进行平均化，得到两种模态的语音表示和文本表示通过kl散度监督语音表示和文本表示的对齐程度，确保这两个模态表示向量映射到公共特征空间，实现进一步特征对齐；

9、s6：将wpt-log-mel声学特征a1与对齐后的语音表示进行多头注意力机制进行融合，得到多级语音特征s；

10、s7：将文本表示通过mlp变换维度至与多级语音特征s的维度相同，得到t’；

11、s8：将多级语音特征s与文本表示t’进行不同模态之间的情感信息深度交互，得到情绪特征f，将情绪特征f通过一个平均池化层，然后使用一个全连接层和softmax层进行情绪分类预测，得到情感预测结果；

12、s9：通过用于多模态对齐的kl散度和情感预测结果建立联合损失函数，当联合损失函数的损失最小时，完成多模态语音情感识别模型的训练。

13、本发明的有益效果：

14、本发明从提取多模态情感表示特征和模态间的交互两方面着手，弥补单模态在嘈杂环境下的情绪识别能力会大幅下降的问题；

15、本发明通过基于mlp的注意力机制强化两种模态之间细粒度的关联，并通过kld将两个不同模态的特征向量映射到同一特征空间中，使文本特征与语音特征在特征空间中的分布一致，从而在一定程度上减少模态之间的冲突问题，实现进一步的特征对齐，利用maf促进模态交互，充分利用互补的多模态信息，显着提高模型的识别精度。

技术特征：

1.一种基于相对熵对齐融合的多模态语音情感识别方法，其特征在于，包括：

2.根据权利要求1所述的一种基于相对熵对齐融合的多模态语音情感识别方法，其特征在于，基于小波包变换提取声学特征参数，得到wpt-log-mel声学特征a1，包括：

3.根据权利要求1所述的一种基于相对熵对齐融合的多模态语音情感识别方法，其特征在于，通过预训练的wavlm-base+模型进行语音特征提取，得到声学特征a2，包括：

4.根据权利要求1所述的一种基于相对熵对齐融合的多模态语音情感识别方法，其特征在于，基于文本数据使用预训练的minilm模型进行潜在信息学习，得到文本特征et，包括：

5.根据权利要求1所述的一种基于相对熵对齐融合的多模态语音情感识别方法，其特征在于，使用多层感知器mlp将wavlm-base+声学特征a2和文本特征et映射到相同的空间，包括：

6.根据权利要求1所述的一种基于相对熵对齐融合的多模态语音情感识别方法，其特征在于，探索文本和语音之间的细粒度相关性和相互作用，得到对齐后的语音表示和文本表示包括：

7.根据权利要求1所述的一种基于相对熵对齐融合的多模态语音情感识别方法，其特征在于，通过kl散度将两种模态的语音表示和文本表示映射到公共特征空间，进行进一步特征对齐，包括：

8.根据权利要求1所述的一种基于相对熵对齐融合的多模态语音情感识别方法，其特征在于，将wpt-log-mel特征a1与语音表示进行多头注意力机制进行融合，得到多级语音特征s，包括：

9.根据权利要求1所述的一种基于相对熵对齐融合的多模态语音情感识别方法，其特征在于，将多级语音特征s与文本表示t’进行不同模态之间的情感信息深度交互，得到情绪特征f，将情绪特征f通过一个平均池化层，然后使用一个全连接层和softmax层进行情绪分类预测，得到情感预测结果，包括：

10.根据权利要求1所述的一种基于相对熵对齐融合的多模态语音情感识别方法，其特征在于，通过用于多模态对齐的kl散度和情感预测结果建立联合损失函数，包括：

技术总结本发明属于情感识别技术领域，具体涉及一种基于相对熵对齐融合的多模态语音情感识别方法，包括：建立多模态语音情感识别模型，对建立的多模态语音情感识别模型进行训练，将训练完成后的多模态语音情感识别模型用于语音情感识别；本发明通过基于MLP(多层感知机)的注意力机制强化两种模态之间细粒度关联，并通过KLD(Kullback‑Leibler Divergence)将两个不同模态的特征向量映射到同一特征空间，使文本特征与语音特征在特征空间中的分布一致，从而在一定程度上减少模态之间的冲突问题，实现进一步的特征对齐，利用MAF(多级注意力融合)促进模态交互，充分利用互补的多模态信息，显着提高模型的识别精度。技术研发人员：王菁,雷建军受保护的技术使用者：重庆邮电大学技术研发日：技术公布日：2024/3/11