技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于声门振动序列动态建模的语音情感识别方法和工具与流程 > 正文

基于声门振动序列动态建模的语音情感识别方法和工具与流程

国知局
2024-06-21 10:44:25

本发明涉及语音情感识别领域，尤其涉及一种基于声门振动序列动态建模的语音情感识别方法和工具。

背景技术：

1、现有的语音情感识别方法大致可以分为2类：基于语音情感特征的语音情感识别方法：传统的语音情感识别方法主要依赖于从语音信号中提取的声学特征。首先，一般采用open smile工具集，从情感数据库中提取声学特征(如：韵律、谱、音质)；其次，将提取的声学特征送入情感分类器，从而输出结果。基于端到端的语音情感识别方法：端到端的情感识别方法主要依赖于深度学习技术。首先，将原始语音信号进行非线性转换，或使用预训练模型，输出语音信号的深度表征，代替传统的声学特征；其次，将这些深度表征送入深度学习网络进行情感分类。不论是基于open smile提取的声学情感特征，还是基于预训练模型提取的语音表征。这些高维度的特征集合存在很多冗余信息，且对情感表征仍存在不足，无法准确地识别出语音情感。

技术实现思路

1、有鉴于此，本发明实施例提供了一种基于声门振动序列动态建模的语音情感识别方法和工具，用以解决传统语音情感识别方法对情感表征存在不足，无法准确地识别出语音情感这一技术问题。

2、第一方面，本发明实施例提供一种基于声门振动序列动态建模的语音情感识别方法，包括以下步骤：

3、获取待识别语音信号；

4、提取所述待识别语音信号的声门波形和声道特征；

5、依据所述声门波形计算声门波动态特征；

6、使用预训练的神经网络对所述声门波动态特征和声道特征按照预设的标准进行特征分类，得到分类结果；

7、对所述分类结果进行融合分析，得到情感识别结果。

8、优选地，提取所述待识别语音信号的声门波形和声道特征包括以下步骤：

9、采用arx-lf模型从所述待识别语音信号中分离估算出中间声门波形和中间声道特征；

10、合成所述中间声门波形和中间声道特征，得到合成语音信号，并计算所述合成语音信号与所述待识别语音信号之间的差异；

11、判断所述合成语音信号和所述待识别语音信号之间的差异是否满足预设的条件，若满足，则输出所述中间声门波形和中间声道特征为所述声门波形和所述声道特征，若不满足，则重新从所述待识别语音信号中进行分离估算。

12、优选地，所述声门波动态特征包括均值特征、标准差特征、峰度特征和偏度特征，依据所述声门波形计算声门波动态特征包括以下步骤：

13、根据所述声门波形得到声门波形的希尔伯特变化，并计算所述声门波形和所述声门波形的希尔伯特变化的欧几里得范数；

14、根据所述欧几里得范数计算得到所述均值特征；

15、根据所述欧几里得范数和所述均值特征计算得到所述标准差；

16、根据所述欧几里得范数、所述均值特征和所述标准差计算得到所述峰度特征和所述偏度特征。

17、优选地，所述预训练的神经网络的训练过程包括以下步骤：

18、收集不同情绪的语音数据作为训练集，并将不同情绪的所述语音数据对应标记标签；

19、计算所述语音数据的声门波形和声道特征；

20、依据所述语音数据的声门波形计算得到所述语音数据的声门波动态特征；

21、将所述语音数据的声道特征、声门波动态特征和标签输入预设的神经网络进行训练；

22、得到所述预训练的神经网络模型。

23、优选地，提取所述待识别语音信号的声门波形和声道特征时，采用15阶滤波器进行提取。

24、优选地，所述预训练的神经网络模型采用bigru网络。

25、第二方面，本发明实施例提供一种基于声门振动序列动态建模的语音情感识别工具，包括：

26、接收模块：用于获取待识别语音信号；

27、特征提取模块：用于提取所述待识别语音信号的声门波形和声道特征；

28、动态特征计算模块：用于依据所述声门波形计算声门波动态特征；

29、特征分类模块：用于使用预训练的神经网络对所述声门波动态特征和声道特征按照预设的标准进行特征分类，得到分类结果，并对所述分类结果进行融合分析，得到情感识别结果。

30、优选地，还包括训练模块，用于训练预设的神经网络。

31、第三方面，本发明实施例提供一种可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被执行时实现如上述方法的步骤。

32、第四方面，本发明实施例提供一种程序产品，其上包括计算机程序指令，所述计算机程序指令被执行时实现如上述方法的步骤。

33、与现有技术相比，本发明所提供的一种基于声门振动序列动态建模的语音情感识别方法，具有如下的有益效果：

34、本发明实施例提供基于声门振动序列动态建模的语音情感识别方法包括以下步骤：获取待识别语音信号；提取待识别语音信号的声门波形和声道特征；依据声门波形计算声门波动态特征；使用预训练的神经网络对声门波动态特征和声道特征按照预设的标准进行特征分类，得到分类结果；对分类结果进行融合分析，得到情感识别结果。应理解，传统的语音情感识别方式不论是基于open smile提取的声学情感特征，还是基于预训练模型提取的语音表征。这些高维度的特征集合存在很多冗余信息，且对情感表征仍存在不足，无法准确地识别出语音情感。可以理解地，相比于传统的语音情感识别方式，本方案提供的基于声门振动序列动态建模的语音情感识别方法具有以下优点：1.利用声门波形特征：传统的语音情感识别方法通常使用基于声道特征的声学参数进行分类，而基于声门振动序列动态建模的方法还利用了声门波形特征。声门波形特征能够提供关于声带振动的信息，这对于表达语音情感中的声音质量和声音强度变化很重要。2.动态建模：传统方法通常使用静态特征对整个语音段进行建模和分类。而基于声门振动序列动态建模的方法考虑到声门波动态特征，能够更好地捕捉语音信号中的时序信息。通过对声门波形进行动态建模，可以更准确地反映语音情感中的时间变化和动态特征。3.神经网络分类器：基于声门振动序列动态建模的方法使用预训练的神经网络对声门波动态特征和声道特征进行分类。神经网络具有强大的模式识别和学习能力，可以从复杂的声学特征中学习到更高层次的抽象表示，提高情感识别的准确性和鲁棒性。4.融合分析：基于声门振动序列动态建模的方法将分类结果进行融合分析，综合考虑了声门波动态特征和声道特征的信息。通过融合分析，可以更全面地理解语音信号中的情感信息，提高情感识别的可靠性和稳定性。综上所述，基于声门振动序列动态建模的语音情感识别方法通过引入声门波形特征和动态建模，结合神经网络分类器和融合分析，能够更准确地捕捉语音情感中的动态特征，提高情感识别的性能和效果。

技术特征：

1.一种基于声门振动序列动态建模的语音情感识别方法，其特征在于：包括以下步骤：

2.如权利要求1所述的基于声门振动序列动态建模的语音情感识别方法，其特征在于：提取所述待识别语音信号的声门波形和声道特征包括以下步骤：

3.如权利要求2所述的基于声门振动序列动态建模的语音情感识别方法，其特征在于：所述声门波动态特征包括均值特征、标准差特征、峰度特征和偏度特征，依据所述声门波形计算声门波动态特征包括以下步骤：

4.如权利要求3所述的基于声门振动序列动态建模的语音情感识别方法，其特征在于：所述预训练的神经网络的训练过程包括以下步骤：

5.如权利要求1所述的基于声门振动序列动态建模的语音情感识别方法，其特征在于：提取所述待识别语音信号的声门波形和声道特征时，采用15阶滤波器进行提取。

6.如权利要求1所述的基于声门振动序列动态建模的语音情感识别方法，其特征在于：所述预训练的神经网络模型采用bigru网络。

7.一种基于声门振动序列动态建模的语音情感识别工具，用于实现如权利要求1-6任一项所述的语音情感识别方法，其特征在于：包括：

8.如权利要求7所述的基于声门振动序列动态建模的语音情感识别工具，其特征在于：还包括训练模块，用于训练预设的神经网络。

9.一种可读存储介质，其上存储有计算机程序指令，其特征在于：所述计算机程序指令被执行时实现如权利要求1-6任一项所述方法的步骤。

10.一种程序产品，包括计算机程序指令，其特征在于：所述计算机程序指令被执行时实现如权利要求1-6任一项所述方法的步骤。

技术总结本发明属于语音情感识别技术领域，特别涉及一种基于声门振动序列动态建模的语音情感识别方法和工具，其中，语音情感识别方法包括以下步骤：获取待识别语音信号；提取待识别语音信号的声门波形和声道特征；依据声门波形计算声门波动态特征；使用预训练的神经网络对声门波动态特征和声道特征按照预设的标准进行特征分类，得到分类结果；对分类结果进行融合分析，得到情感识别结果。本发明提供的基于声门振动序列动态建模的语音情感识别方法，从语音生成的角度出发，提取的发音特征(声门波和声道特征)更接近人类情感语音产生机制，且声门波和声道特征维度低，送入简单的分类器就可以达到高性能的情感识别结果，提高了对语音情感识别的准确性。技术研发人员：温正棋,雷娣受保护的技术使用者：北京中科智极科技有限公司技术研发日：技术公布日：2024/2/6