技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音情绪识别方法、装置、电子设备及存储介质与流程 > 正文

语音情绪识别方法、装置、电子设备及存储介质与流程

国知局
2024-06-21 11:28:10

本申请涉及数据处理，具体涉及一种语音情绪识别方法、装置、电子设备及存储介质。

背景技术：

1、语音情绪识别(speech emotion recognition，ser)是从语音信号中解码情绪内容的目标对象，在自然人机交互的应用场景中发挥了关键作用，如监控电话客户服务、检测谎言和医疗诊断等应用场景。

2、近年来，随着深度学习的蓬勃发展，深度神经网络(dnns)在许多研究中被用于提取特征。尤其是卷积神经网络(cnns)在图像分类中的成功，这促使许多研究人员将cnns作为在光谱图特征提取中的应用。cnns能够学习那些对来自高维输入数据的微小变化和失真不敏感的特征，借助神经网络可以在语音的单个样本中提取数千个包含情绪信息的特征，以帮助后续有效的情绪识别.

3、深度学习模型是复杂的，它依赖于大量的数据来实现准确的预测或分类。然而，一个话语可能包含多种情绪，构建一个有标记的数据集是一项高度耗时和昂贵的任务。目前ser数据集中的类间不平衡和数据稀疏性问题极大地限制了当前大多数语音情绪识别模型的可推广性。在语音情绪识别研究中研使用的数据集和自行录制的数据集大都存在样本量比较小的问题，这容易产生过拟合等各种衍生问题。数据的稀缺性使模型无法学习真正的数据分布，而类间的不平衡降低了模型识别特定类别情绪的能力。

技术实现思路

1、本申请实施例提供一种语音情绪识别方法、装置、电子设备及存储介质，旨在解决语音情绪识别中数据稀疏性和类间失衡的问题，提高语音情绪识别准确性。

2、第一方面，本申请实施例提供一种语音情绪识别方法，包括：

3、将原始语音数据输入至语音情绪识别模型；所述语音情绪识别模型包括数据处理模块、语谱图像增强模块和双层特征提取融合模块；

4、通过所述数据预处理模块对所述原始语音数据进行预加重处理、分帧与加窗处理以及端点检测处理，输出语谱图样本；

5、通过所述语谱图像增强模块以生成式对抗网络对所述语谱图进行图像增强，输出语谱图组合集；

6、通过双层特征提取融合模块对所述原始语音数据和所述语谱图组合集进行特征提取并特征融合，输出语音情绪识别结果。

7、在一实施例中，双层特征提取融合模块包括基于自监督学习的语音识别子模型、卷积神经网络、全连接层和softmax分类层。

8、在一实施例中，通过双层特征提取融合模块对所述原始语音数据和所述语谱图组合集进行特征提取并特征融合，输出语音情绪识别结果，包括：

9、通过所述基于自监督学习的语音识别子模型对所述原始语音数据进行特征提取，得到深层情感特征vx；

10、通过所述卷积神经网络对所述语谱图组合集中语谱图样本图像结构信息进行特征提取，得到语谱图特征vs；

11、将所述深层情感特征vx和所述语谱图特征vs进行特征拼接，得到融合特征vd；

12、将所述融合特征vd输入至所述全连接层和所述softmax分类层进行语音情绪分类，得到所述语音情绪识别结果。

13、在一实施例中，预加重处理的计算公式为：

14、y(n)＝x(n)-ax(n-1)，n≥1

15、其中，y(n)是n时刻时预加重后的输出值，x(n)为n时刻时原始语音数据的采样值，x(n-1)为n-1时刻时原始语音数据的采样值，a为预加重系数，取值为0.8。

16、在一实施例中，分帧与加窗处理的具体过程包括：

17、将所述原始语音数据按照预设长度划分为长度相同的数据帧集；

18、将数据帧集中的每个数据帧与窗函数进行加窗处理，得到加窗后的语音数据；

19、其中，加窗的计算公式如下：

20、signalw(n)＝signal(n)*w(n)

21、其中，signalw(n)为加窗后的语音数据，signal(n)为原始语音数据，w(n)为汉宁窗的窗函数。

22、在一实施例中，生成式对抗网络的具体公式为：

23、

24、其中，x表示已有的真实数据，pdata(x)表示真实样本的分布，z表示输入生成器g的噪声，pz(x)表示噪声的分布，随机噪声z经过生成器g处理后输出生成样本g(z)，d为判别器。

25、在一实施例中，生成器g和判别器d的目标函数分别表示为：

26、

27、

28、其中，loss(g)为生成器g的目标函数，loss(d)为判别器d的目标函数。

29、第二方面，本申请实施例提供一种语音情绪识别装置，包括：

30、输入单元，用于将原始语音数据输入至语音情绪识别模型；所述语音情绪识别模型包括数据处理模块、语谱图像增强模块和双层特征提取融合模块；

31、数据预处理单元，用于通过所述数据预处理模块对所述原始语音数据进行预加重处理、分帧与加窗处理以及端点检测处理，输出语谱图样本；

32、语谱图像增强单元，用于通过所述语谱图像增强模块以生成式对抗网络对所述语谱图进行图像增强，输出语谱图组合集；

33、语音情绪识别单元，用于通过双层特征提取融合模块对所述原始语音数据和所述语谱图组合集进行特征提取并特征融合，输出语音情绪识别结果。

34、第三方面，本申请实施例提供一种电子设备，所述电子设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现第一方面所述的语音情绪识别方法。

35、第四方面，本申请实施例提供一种非暂态计算机可读存储介质，非暂态计算机可读存储介质包括计算机程序，所述计算机程序被处理器执行时实现第一方面所述的语音情绪识别方法。

36、第五方面，本申请实施例提供一种计算机产品，计算机产品包括计算机程序，所述计算机程序被处理器执行时实现第一方面所述的语音情绪识别方法。

37、本申请实施例将原始语音数据输入至语音情绪识别模型；通过数据预处理模块对原始语音数据进行预加重处理、分帧与加窗处理以及端点检测处理，输出语谱图样本；通过语谱图像增强模块以生成式对抗网络对语谱图进行图像增强，输出语谱图组合集；通过双层特征提取融合模块对原始语音数据和语谱图组合集进行特征提取并特征融合，输出语音情绪识别结果，因此，可以通过数据处理模块、语谱图像增强模块和双层特征提取融合模块的语音情绪识别模型进行语音情绪识别，解决了语音情绪识别中数据稀疏性和类间失衡的问题，提高了语音情绪识别准确性。

技术特征：

1.一种语音情绪识别方法，其特征在于，包括：

2.根据权利要求1所述的语音情绪识别方法，其特征在于，所述双层特征提取融合模块包括基于自监督学习的语音识别子模型、卷积神经网络、全连接层和softmax分类层。

3.根据权利要求2所述的语音情绪识别方法，其特征在于，所述通过双层特征提取融合模块对所述原始语音数据和所述语谱图组合集进行特征提取并特征融合，输出语音情绪识别结果，包括：

4.根据权利要求1所述的语音情绪识别方法，其特征在于，所述预加重处理的计算公式为：

5.根据权利要求1所述的语音情绪识别方法，其特征在于，所述分帧与加窗处理的具体过程包括：

6.根据权利要求1所述的语音情绪识别方法，其特征在于，所述生成式对抗网络的具体公式为：

7.根据权利要求6所述的语音情绪识别方法，其特征在于，所述生成器g和所述判别器d的目标函数分别表示为：

8.一种语音情绪识别装置，其特征在于，包括：

9.一种电子设备，所述电子设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的语音情绪识别方法。

10.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述的语音情绪识别方法。

技术总结本申请涉及数据处理技术领域，提供一种语音情绪识别方法、装置、电子设备及存储介质，该方法包括：将原始语音数据输入至语音情绪识别模型；通过数据预处理模块对原始语音数据进行预加重处理、分帧与加窗处理以及端点检测处理，输出语谱图样本；通过语谱图像增强模块以生成式对抗网络对语谱图进行图像增强，输出语谱图组合集；通过双层特征提取融合模块对原始语音数据和语谱图组合集进行特征提取并特征融合，输出语音情绪识别结果。本申请实施例通过数据处理模块、语谱图像增强模块和双层特征提取融合模块的语音情绪识别模型进行语音情绪识别，解决了语音情绪识别中数据稀疏性和类间失衡的问题，提高了语音情绪识别准确性。技术研发人员：赵文博,肖清,许程冲,吕召彪受保护的技术使用者：联通（广东）产业互联网有限公司技术研发日：技术公布日：2024/2/19