技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种基于多任务学习的语音情感识别方法及系统 > 正文

一种基于多任务学习的语音情感识别方法及系统

国知局
2024-09-05 14:48:53

本发明涉及语音情感识别，特别指一种基于多任务学习的语音情感识别方法及系统。

背景技术：

1、随着智能设备和人机交互界面的普及，语音情感识别技术的发展变得尤为重要，因为它可以大大提升机器对人类情感的响应能力，进而改善用户体验。然而，由于情感的主观性和复杂性、语音信号的多变性，使得准确识别情感状态仍然是一个极具挑战性的任务。传统的语音情感识别方法往往依赖于人工手动设计和选择特征，这不仅耗时耗力，而且难以捕捉语音中的细微情感变化，由于无法全面捕捉语音信号中的丰富信息，从而限制了语音情感识别的准确性。

2、因此，如何提供一种基于多任务学习的语音情感识别方法及系统，实现提升语音情感识别的准确性，成为一个亟待解决的技术问题。

技术实现思路

1、本发明要解决的技术问题，在于提供一种基于多任务学习的语音情感识别方法及系统，实现提升语音情感识别的准确性。

2、第一方面，本发明提供了一种基于多任务学习的语音情感识别方法，包括如下步骤：

3、步骤s1、获取大量的包含若干种情感的语音数据，对各所述语音数据进行预处理以及情感标注后构建语音数据集；

4、步骤s2、基于语音特征提取模块、语音特征融合模块以及多任务学习模块创建一语音情感识别模型，设定所述语音情感识别模型的损失函数；

5、所述语音特征提取模块基于wav2vec2.0构建；所述多任务学习模块包括一情感识别单元以及一语义识别单元；

6、步骤s3、基于预设比例将所述语音数据集划分为训练集、测试集以及验证集，通过所述训练集对语音情感识别模型进行训练，通过所述测试集对训练后的语音情感识别模型进行测试，通过所述验证集对测试后的语音情感识别模型进行验证；

7、步骤s4、通过小程序对验证后的所述语音情感识别模型进行发布，通过小程序访问发布的所述语音情感识别模型进行语音情感识别。

8、进一步的，所述步骤s1具体为：

9、获取大量的包含若干种情感的语音数据，将各所述语音数据转换为wav格式，基于预设的时长阈值对各所述语音数据进行分割得到语音片段数据，对各所述语音片段数据进行降噪处理，以完成所述语音数据的预处理；

10、对降噪处理后的各所述语音片段数据进行情感标注后构建语音数据集。

11、进一步的，所述步骤s2中，所述语音特征提取模块用于依据输入的语音数据，生成若干个时间步的包括声学特征的低级特征向量，以预设概率对各所述时间步的低级特征向量执行掩码操作，将执行掩码操作后的各所述低级特征向量输入上下文网络，提取包括语义特征的高级特征向量；

12、所述语音特征融合模块用于通过注意力权重将低级特征向量和高级特征向量融合，得到自监督特征向量；

13、所述情感识别单元用于对自监督特征向量进行学习以进行情感识别；所述语义识别单元用于对自监督特征向量进行学习以进行语义识别。

14、进一步的，所述步骤s3具体为：

15、基于预设比例将所述语音数据集划分为训练集、测试集以及验证集，通过所述训练集对语音情感识别模型进行训练，直至所述损失函数的损失值小于预设的损失阈值，训练过程中不断优化所述语音情感识别模型至少包括随机失活率、权值衰减率以及学习率的超参数；

16、通过所述测试集对训练后的语音情感识别模型进行测试，判断识别准确率是否大于预设的准确率阈值，若否，则测试失败，扩充所述训练集继续训练；若是，则测试成功：

17、通过所述验证集对测试后的语音情感识别模型进行验证，判断置信度是否大于预设的置信度阈值，若否，则验证失败，扩充所述训练集继续训练；若是，则验证成功。

18、进一步的，所述步骤s4具体为：

19、通过小程序对验证后的所述语音情感识别模型进行发布，通过小程序进行身份认证后访问发布的所述语音情感识别模型进行语音情感识别，反馈情感识别结果，记录并存储情感识别日志，基于所述情感识别日志对语音情感识别模型进行不断优化。

20、第二方面，本发明提供了一种基于多任务学习的语音情感识别系统，包括如下模块：

21、语音数据集构建模块，用于获取大量的包含若干种情感的语音数据，对各所述语音数据进行预处理以及情感标注后构建语音数据集；

22、语音情感识别模型创建模块，用于基于语音特征提取模块、语音特征融合模块以及多任务学习模块创建一语音情感识别模型，设定所述语音情感识别模型的损失函数；

23、所述语音特征提取模块基于wav2vec2.0构建；所述多任务学习模块包括一情感识别单元以及一语义识别单元；

24、语音情感识别模型训练模块，用于基于预设比例将所述语音数据集划分为训练集、测试集以及验证集，通过所述训练集对语音情感识别模型进行训练，通过所述测试集对训练后的语音情感识别模型进行测试，通过所述验证集对测试后的语音情感识别模型进行验证；

25、语音情感识别模块，用于通过小程序对验证后的所述语音情感识别模型进行发布，通过小程序访问发布的所述语音情感识别模型进行语音情感识别。

26、进一步的，所述语音数据集构建模块具体用于：

27、获取大量的包含若干种情感的语音数据，将各所述语音数据转换为wav格式，基于预设的时长阈值对各所述语音数据进行分割得到语音片段数据，对各所述语音片段数据进行降噪处理，以完成所述语音数据的预处理；

28、对降噪处理后的各所述语音片段数据进行情感标注后构建语音数据集。

29、进一步的，所述语音情感识别模型创建模块中，所述语音特征提取模块用于依据输入的语音数据，生成若干个时间步的包括声学特征的低级特征向量，以预设概率对各所述时间步的低级特征向量执行掩码操作，将执行掩码操作后的各所述低级特征向量输入上下文网络，提取包括语义特征的高级特征向量；

30、所述语音特征融合模块用于通过注意力权重将低级特征向量和高级特征向量融合，得到自监督特征向量；

31、所述情感识别单元用于对自监督特征向量进行学习以进行情感识别；所述语义识别单元用于对自监督特征向量进行学习以进行语义识别。

32、进一步的，所述语音情感识别模型训练模块具体用于：

33、基于预设比例将所述语音数据集划分为训练集、测试集以及验证集，通过所述训练集对语音情感识别模型进行训练，直至所述损失函数的损失值小于预设的损失阈值，训练过程中不断优化所述语音情感识别模型至少包括随机失活率、权值衰减率以及学习率的超参数；

34、通过所述测试集对训练后的语音情感识别模型进行测试，判断识别准确率是否大于预设的准确率阈值，若否，则测试失败，扩充所述训练集继续训练；若是，则测试成功：

35、通过所述验证集对测试后的语音情感识别模型进行验证，判断置信度是否大于预设的置信度阈值，若否，则验证失败，扩充所述训练集继续训练；若是，则验证成功。

36、进一步的，所述语音情感识别模块具体用于：

37、通过小程序对验证后的所述语音情感识别模型进行发布，通过小程序进行身份认证后访问发布的所述语音情感识别模型进行语音情感识别，反馈情感识别结果，记录并存储情感识别日志，基于所述情感识别日志对语音情感识别模型进行不断优化。

38、本发明的优点在于：

39、1、通过获取大量的包含若干种情感的语音数据，对各语音数据进行预处理以及情感标注后构建语音数据集；接着基于语音特征提取模块、语音特征融合模块以及多任务学习模块创建语音情感识别模型，设定语音情感识别模型的损失函数；其中的语音特征提取模块基于wav2vec2.0构建，用于依据输入的语音数据，生成若干个时间步的包括声学特征的低级特征向量，以预设概率对各所述时间步的低级特征向量执行掩码操作，将执行掩码操作后的各所述低级特征向量输入上下文网络，提取包括语义特征的高级特征向量；语音特征融合模块用于通过注意力权重将低级特征向量和高级特征向量融合，得到自监督特征向量；多任务学习模块包括一情感识别单元以及一语义识别单元，情感识别单元用于对自监督特征向量进行学习以进行情感识别，语义识别单元用于对自监督特征向量进行学习以进行语义识别；接着基于预设比例将语音数据集划分为训练集、测试集以及验证集，通过训练集对语音情感识别模型进行训练，通过测试集对训练后的语音情感识别模型进行测试，通过验证集对测试后的语音情感识别模型进行验证；最后通过小程序对验证后的语音情感识别模型进行发布，通过小程序访问发布的语音情感识别模型进行语音情感识别；即语音情感识别模型采用基于时域信号的wav2vec2.0的自监督网络作为主干网络，以提取语音数据中更为丰富和有效的声学特征和语义特征；采用端到端的方式，通过多任务学习模块同时进行情感识别和语义识别的学习，以对语音情感进行高效识别，最终极大的提升了语音情感识别的准确性。

40、2、通过将各语音数据转换为wav格式，基于预设的时长阈值对各语音数据进行分割得到语音片段数据，对各语音片段数据进行降噪处理，即对语音数据进行标准化的处理并降低噪声的影响，有效提升语音情感识别的准确性。

41、3、通过小程序对语音情感识别模型进行发布和访问，通过手机等移动终端即可快速访问语音情感识别模型进行语音情感识别，有效提升语音情感识别的便捷性。

42、4、通过记录并存储情感识别日志，基于情感识别日志对语音情感识别模型进行不断优化，能不断提升语音情感识别的准确性。