技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音情感识别方法及系统与流程 > 正文

一种语音情感识别方法及系统与流程

国知局
2024-06-21 11:50:46

本发明属于语音情感识别，具体是指一种语音情感识别方法及系统。

背景技术：

1、随着人工智能的发展，语音情感识别成为一个备受关注的领域，语音情感识别方法及系统是一种通过构建语音情感识别模型，结合深度学习等先进技术进行情感分类和识别的方法及系统，该方法和系统能够帮助计算机理解说话者的情感状态，从而提升人机交互体验和改善智能产品的用户体验，具有重要的应用前景。

2、但现有的语音情感识别方法及系统依然存在诸多缺陷：

3、1、在模型训练的过程中，现有方式通常使用的交叉熵损失等损失函数均不是为语音情感识别专门设计的，大都仅能提高类内的紧密性，而没有扩大类间的距离，易导致决策边界模糊的技术问题。

4、2、在模型训练时，由于训练数据集中往往包含一些类别之间分布不均匀的困难样本，这些困难样本通常是类别之间边界附近的样本，或者是具有相似特征但属于不同类别的样本，而现有方式不能很好地适应此种数据分布的变化，难以关注到这些困难样本，易导致训练数据中的难易样本不平衡的技术问题，使得困难样本易被错误分类。

5、3、现有的语音情感识别方法及系统普遍存在训练样本不足且训练样本来源单一的问题，从而导致训练后的模型产生过拟合，且泛化能力较弱，为解决训练样本不足且训练样本来源单一的问题，现有方式往往采用数据增强和整合来自不同来源的数据集等方式，以扩充训练样本的数量，但通过盲目的整合不同来源的数据集并进行数据增强，虽然能够提高训练样本的数量，却难以完整且准确地提取描述语音情感的内部语义的特征，同时，此方式没有充分考虑从不同来源的数据集中提取的特征之间的关联性，从而导致语音情感识别结果不准确。

技术实现思路

1、针对上述情况，为克服现有技术的缺陷，本发明提供了一种语音情感识别方法及系统，针对现有的语音情感识别方法及系统普遍存在的决策边界模糊的技术问题和训练数据中的难易样本不平衡的技术问题，本方案创造性地将语音情感损失函数加入语音情感识别模型的训练过程，该损失函数通过引入特征向量角度和角度修正的参数，从而更严格地定义模糊的决策边界，以增强类内的紧密性和扩大类间的距离；同时，语音情感损失函数能够使语音情感识别模型更加关注困难样本，对困难样本赋予更合适的权重，从而解决了训练数据中的难易样本不平衡的技术问题，使得困难样本得以被准确分类；针对现有方式难以完整且准确地提取描述语音情感的内部语义的特征，没有充分考虑从不同来源的数据集中提取的特征之间的关联性，从而导致语音情感识别结果不准确的技术问题，本方案不仅能够从多个维度提取足够多的特征，还能够提取与语音情感关联密切的频谱特征、音频特征和文本特征，从而能够完整且准确地提取描述语音情感的内部语义的特征，同时，本方案通过对频谱特征、音频特征和文本特征进行特征匹配和特征加权融合，使得融合后的语音情感特征能够充分考虑从不同来源的数据集中提取的特征之间的关联性，从而提高了语音情感识别结果的准确性。

2、本发明采取的技术方案如下：本发明提供的一种语音情感识别方法，包括：

3、步骤s1：数据采集，具体为，采集带有情感的语音的音频数据和带有情感的语音的文本数据，确保带有情感的语音的音频数据和带有情感的语音的文本数据的配对关系正确，并根据带有情感的语音的音频数据和带有情感的语音的文本数据构建语音情感数据集；

4、步骤s2：多维度特征提取，具体为，分别通过深度卷积神经网络和预训练声音模型vggish对带有情感的语音的音频数据进行频谱特征提取操作和音频特征提取操作，并通过基于transformer架构的预训练语言模型对带有情感的语音的文本数据进行文本特征提取操作，得到频谱特征、音频特征和文本特征；

5、步骤s3：特征融合，具体为，对频谱特征、音频特征和文本特征进行维度匹配和特征加权融合，得到融合后的语音情感特征；

6、步骤s4：模型训练，具体为，建立语音情感识别模型，将融合后的语音情感特征输入至语音情感识别模型进行训练，得到训练后的语音情感识别模型；

7、步骤s5：语音情感识别，具体为，通过训练后的语音情感识别模型进行语音情感识别，得到真实情感识别结果。

8、作为本方案的进一步改进，在步骤s2中，所述多维度特征提取的步骤，包括：

9、步骤s21：频谱特征提取，具体为，通过深度卷积神经网络从带有情感的语音的音频数据中提取频谱特征；

10、步骤s22：音频特征提取，具体为，通过预训练声音模型vggish从带有情感的语音的音频数据中提取音频特征；

11、步骤s23：文本特征提取，具体为，通过基于transformer架构的预训练语言模型从带有情感的语音的文本数据中提取文本特征。

12、作为本方案的进一步改进，在步骤s21中，所述频谱特征提取的步骤，包括：

13、步骤s211：预加重处理，具体为，对带有情感的语音的音频数据进行预加重处理，得到预加重后的音频数据；

14、步骤s212：分帧处理，具体为，对预加重后的音频数据进行分帧处理，得到每一帧音频数据；

15、步骤s213：帧变换，具体为，对每一帧音频数据进行短时傅里叶变换；

16、步骤s214：计算模幅谱，具体为，根据短时傅里叶变换后的每一帧音频数据的复数值计算模幅谱；

17、步骤s215：对数变换，具体为，对模幅谱进行对数变换，得到对数变换后的模幅谱；

18、步骤s216：归一化处理，具体为，对对数变换后的模幅谱进行归一化处理。

19、作为本方案的进一步改进，在步骤s22中，所述音频特征提取的步骤，包括：

20、步骤s221：数据转换，具体为，对每个带有情感的语音的音频数据进行短时傅里叶变换，得到音频数据的时间-频率表示；

21、步骤s222：时间窗口划分，具体为，通过固定长度的时间窗口对音频数据的时间-频率表示进行划分；

22、步骤s223：特征计算，具体为，计算每个时间窗口内的音频数据的时间-频率表示的梅尔频谱图和梅尔频率倒谱系数；

23、步骤s224：提取音频特征，具体为，通过预训练声音模型vggish从每个时间窗口内的音频数据的时间-频率表示的梅尔频谱图和梅尔频率倒谱系数中学习，以提取更高级别的特征信息，并将更高级别的特征信息作为音频特征。

24、作为本方案的进一步改进，在步骤s23中，所述文本特征提取的步骤，包括：

25、步骤s231：文本标记化，具体为，对带有情感的语音的文本数据进行分词和标记化处理，得到标记化后的文本数据；

26、步骤s232：插入特殊标记，在标记化后的文本数据中插入特殊标记，具体为，分别用不同的特殊标记插入到标记化后的文本数据中的每个句子的开头和结尾；

27、步骤s233：向量转换，具体为，对插入特殊标记的标记化后的文本数据进行嵌入式表示，利用基于transformer架构的预训练语言模型将插入特殊标记的标记化后的文本数据转换为向量表示，得到包含嵌入向量的文本数据；

28、步骤s234：加入位置编码，具体为，向包含嵌入向量的文本数据的嵌入向量中加入位置编码，得到包含嵌入向量和位置编码的文本数据，所述位置编码的计算公式为：

29、；

30、；

31、式中，pe表示位置编码，i表示嵌入向量的维度索引，pos表示词在包含嵌入向量的文本数据中的位置，表示位置为pos和维度索引为2i的位置编码，表示位置为pos和维度索引为2i+1的位置编码，dmodel表示嵌入向量的维度，sin(·)表示正弦函数，cos(·)表示余弦函数；

32、步骤s235：提取文本特征，具体为，将包含嵌入向量和位置编码的文本数据输入至基于transformer架构的预训练语言模型中，得到预训练语言模型的多个层的输出结果，并从预训练语言模型的多个层的输出结果中选择一个层的输出结果或多个层的输出结果作为文本特征。

33、作为本方案的进一步改进，在步骤s3中，所述特征融合的步骤，包括：

34、步骤s31：维度匹配，具体为，确保频谱特征的维度、音频特征的维度和文本特征的维度相匹配，若维度不匹配，则通过降低维度或提高维度的方式使频谱特征的维度、音频特征的维度和文本特征的维度相匹配，得到匹配后的频谱特征、匹配后的音频特征和匹配后的文本特征；

35、步骤s32：特征加权融合，具体为，对匹配后的频谱特征、匹配后的音频特征和匹配后的文本特征进行特征加权融合，得到融合后的语音情感特征，所用公式如下：

36、fn=w*[fs,fa,ft]；

37、式中，fn表示融合后的语音情感特征，w表示特征加权融合的权重矩阵，*表示矩阵乘法运算符，[·]表示连接操作，fs表示匹配后的频谱特征，fa表示匹配后的音频特征，ft表示匹配后的文本特征。

38、作为本方案的进一步改进，在步骤s4中，所述模型训练的步骤，包括：

39、步骤s41：卷积运算，具体为，通过卷积层对融合后的语音情感特征进行卷积运算，以提取更高级的语音情感特征；

40、步骤s42：池化采样，具体为，通过池化层对更高级的语音情感特征进行下采样，以去除冗余信息和减少边缘不敏感信息，得到下采样的结果；

41、步骤s43：引入激活函数，具体为，通过引入激活函数，以学习和表示复杂的非线性映射关系，并增强语音情感识别模型的表达能力；

42、步骤s44：计算情感识别结果，具体为，通过全连接层对下采样的结果进行识别，得到情感识别结果；

43、步骤s45：计算损失，具体为，根据语音情感损失函数计算损失，所述语音情感损失函数的计算公式为：

44、；

45、式中，l表示语音情感损失函数，n2表示训练样本的总数，i表示当前的训练样本的索引，表示第i个训练样本的特征向量，表示第i个训练样本的真实类别，表示第i个训练样本属于真实类别的概率，表示对训练样本难易程度的调节参数，∑表示求和运算符，log(·)表示以e为底的对数运算；

46、所述第i个训练样本属于真实类别的概率的计算公式为：

47、；

48、式中，i表示当前的训练样本的索引，表示第i个训练样本的特征向量，表示第i个训练样本的真实类别，表示第i个训练样本属于真实类别的概率，s表示尺度因子，用于控制训练样本距离超平面的距离，表示第i个训练样本的真实类别对应的权重向量，表示类别j的特征向量角度，m表示角度修正的参数，n表示类别的总数，j表示类别的索引，∑表示求和运算符，cos(·)表示余弦函数；

49、步骤s46：反向传播，具体为，计算语音情感识别模型的每个参数对语音情感损失函数的梯度，并对语音情感识别模型的每个参数进行更新；

50、步骤s47：迭代训练，具体为，重复执行步骤s41~s46，直至达到收敛条件，得到训练后的语音情感识别模型。

51、本发明提供的一种语音情感识别系统，包括数据采集模块、多维度特征提取模块、特征融合模块、模型训练模块和语音情感识别模块；

52、所述数据采集模块，用于数据采集，具体为，采集带有情感的语音的音频数据和带有情感的语音的文本数据，确保带有情感的语音的音频数据和带有情感的语音的文本数据的配对关系正确，并根据带有情感的语音的音频数据和带有情感的语音的文本数据构建语音情感数据集，并将语音情感数据集发送至多维度特征提取模块；

53、所述多维度特征提取模块，用于多维度特征提取，具体为，分别通过深度卷积神经网络和预训练声音模型vggish对带有情感的语音的音频数据进行频谱特征提取操作和音频特征提取操作，并通过基于transformer架构的预训练语言模型对带有情感的语音的文本数据进行文本特征提取操作，得到频谱特征、音频特征和文本特征，并将频谱特征、音频特征和文本特征发送至特征融合模块；

54、所述特征融合模块，用于特征融合，具体为，对频谱特征、音频特征和文本特征进行维度匹配和特征加权融合，得到融合后的语音情感特征，并将融合后的语音情感特征发送至模型训练模块；

55、所述模型训练模块，用于模型训练，具体为，建立语音情感识别模型，将融合后的语音情感特征输入至语音情感识别模型进行训练，得到训练后的语音情感识别模型，并将训练后的语音情感识别模型发送至语音情感识别模块；

56、所述语音情感识别模块，用于语音情感识别，具体为，通过训练后的语音情感识别模型进行语音情感识别，得到真实情感识别结果。

57、采用上述方案本发明取得的有益效果如下：

58、（1）针对现有的语音情感识别方法及系统普遍存在的决策边界模糊的技术问题，本方案创造性地将语音情感损失函数加入语音情感识别模型的训练过程，该损失函数通过引入特征向量角度和角度修正的参数，从而更严格地定义模糊的决策边界，以增强类内的紧密性和扩大类间的距离。

59、（2）针对现有的语音情感识别方法及系统普遍存在的训练数据中的难易样本不平衡的技术问题，本方案通过语音情感损失函数将更大的损失分配给困难样本，使得语音情感识别模型更加关注这些困难样本，从而对困难样本赋予更合适的权重，进而解决了训练数据中的难易样本不平衡的技术问题，使得困难样本得以被准确分类。

60、（3）针对现有方式难以完整且准确地提取描述语音情感的内部语义的特征，没有充分考虑从不同来源的数据集中提取的特征之间的关联性，从而导致语音情感识别结果不准确的技术问题，本方案不仅能够从多个维度提取足够多的特征，还能够提取与语音情感关联密切的频谱特征、音频特征和文本特征，从而能够完整且准确地提取描述语音情感的内部语义的特征，同时，本方案通过对频谱特征、音频特征和文本特征进行特征匹配和特征加权融合，使得融合后的语音情感特征能够充分考虑从不同来源的数据集中提取的特征之间的关联性，从而提高了语音情感识别结果的准确性。