一种语音情绪识别方法、装置、设备及存储介质与流程
- 国知局
- 2024-06-21 11:30:31
本发明涉及语音识别,特别涉及一种语音情绪识别方法、装置、设备及存储介质。
背景技术:
1、语音作为人们日常生活较为常用的沟通方式,其本身就携带了很多信息,因此通过语音来识别说话人的情绪已经成为了语音算法的重要分支,语音情绪识别目的是为了从语音中分析出说话人的情绪,进而针对说话人的情绪做出相应的操作,情绪识别的应用场景有很多,如语音对话、智能客服、汽车驾驶、抑郁患者情绪监测等方面。
2、当前的语音情绪识别方法主要是用机器学习和深度学习方法实现的,但是目前常用的情绪识别算法,大都是直接使用待识别语音输入到情绪识别模型中,通过模型推理得到语音中所对应的情绪类型,这种方式一方面没有考虑到人们说话时语音会被周围环境的噪声影响,导致语音中包含有噪音,而情绪识别很容易受到噪声的干扰,直接使用带有噪声的语音进行情绪识别,很容易导致识别准确率的降低,影响到情绪识别的结果;另一方面,人们的情绪变化并不是瞬间完成的,而是渐渐从一种情绪过渡到另一种情绪,传统的情绪识别都是分析的单条语音所对应的情绪,并没有考虑情绪缓慢变化的过程,识别得到的情绪类别的准确率比较低。
3、由此可见,如何提升语音情绪的识别准确率是本领域要解决的问题。
技术实现思路
1、有鉴于此,本发明的目的在于提供一种语音情绪识别方法、装置、设备及存储介质,可以结合语音的上下文信息,提升语音情绪识别的准确率。其具体方案如下:
2、第一方面,本技术提供了一种语音情绪识别方法,包括:
3、获取目标语音信号,并基于预设时间长度将所述目标语音信号分为相应长度的若干语音片段信号;
4、基于预设信噪比预测模型对所述若干语音片段信号进行处理,得到与所述若干语音片段信号对应的信噪比;
5、利用预设语音增强模型对所述信噪比不大于预设阈值的第一语音片段信号进行降噪处理,得到降噪后语音片段信号;
6、分别对所述降噪后语音片段信号和所述信噪比大于所述预设阈值的第二语音片段信号进行梅尔倒谱特征提取处理,得到与所述若干语音片段信号对应的若干语音特征;
7、根据所述若干语音特征,并通过多分类器确定与所述目标语音信号对应的若干情绪类别。
8、可选的,所述基于预设信噪比预测模型对所述若干语音片段信号进行处理,得到与所述若干语音片段信号对应的信噪比,包括:
9、对所述若干语音片段信号进行梅尔谱图特征提取处理,得到相应数量的第一梅尔谱图;
10、利用预设信噪比预测模型处理所述第一梅尔谱图,以得到与所述若干语音片段信号对应的信噪比。
11、可选的,所述方法还包括:
12、获取待训练语音数据集和待训练噪声数据集;
13、基于所述预设时间长度将所述待训练语音数据集和所述待训练噪声数据集分为相应长度的待训练语音片段和待训练噪声片段;
14、根据预设信噪比标签对所述待训练语音片段和所述待训练噪声片段进行混合,得到带噪语音;
15、利用所述预设信噪比标签和相应的所述带噪语音对初始信噪比预测模型进行训练,得到所述预设信噪比预测模型,以便基于预设信噪比预测模型对所述若干语音片段信号进行处理,得到与所述若干语音片段信号对应的信噪比;
16、利用所述带噪语音和所述待训练语音数据集对初始语音增强模型进行训练,得到所述预设语音增强模型,以便利用预设语音增强模型对所述信噪比不大于预设阈值的第一语音片段信号进行降噪处理,得到降噪后语音片段信号。
17、可选的,所述利用所述预设信噪比标签和相应的所述带噪语音对初始信噪比预测模型进行训练,得到所述预设信噪比预测模型,包括:
18、对所述带噪语音进行梅尔谱图特征提取处理,得到相应的第二梅尔谱图;
19、基于所述第二梅尔谱图和第一预设损失函数对初始信噪比预测模型进行训练,得到所述预设信噪比预测模型。
20、可选的,所述利用所述带噪语音和所述待训练语音数据集对初始语音增强模型进行训练,得到所述预设语音增强模型,包括:
21、根据短时傅里叶变换对所述带噪语音和所述待训练语音数据集进行转换处理,得到带噪频域信息和语音频域信息;
22、基于所述带噪频域信息、所述语音频域信息和第二预设损失函数对初始语音增强模型进行训练,得到所述预设语音增强模型。
23、可选的,所述利用预设语音增强模型对所述信噪比不大于预设阈值的第一语音片段信号进行降噪处理,得到降噪后语音片段信号,包括:
24、根据短时傅里叶变换对所述信噪比不大于预设阈值的第一语音片段信号进行转换处理,得到转换后频域信号;
25、利用预设语音增强模型对所述转换后频域信号中的幅度谱进行降噪处理,得到降噪后幅度谱;
26、根据所述短时傅里叶变换对所述降噪后幅度谱和所述转换后频域信号中的相位谱进行逆转换处理,得到降噪后语音片段信号。
27、可选的,所述根据所述若干语音特征,并通过多分类器确定与所述目标语音信号对应的若干情绪类别,包括:
28、根据所述若干语音片段信号之间的时间顺序确定所述若干语音特征之间的特征顺序;
29、基于所述特征顺序通过多分类器对所述若干语音特征进行情绪分类,并确定出与所述目标语音信号对应的若干情绪类别。
30、第二方面,本技术提供了一种语音情绪识别装置,包括:
31、语音信号获取模块,用于获取目标语音信号,并基于预设时间长度将所述目标语音信号分为相应长度的若干语音片段信号;
32、信噪比计算模块,用于基于预设信噪比预测模型对所述若干语音片段信号进行处理,得到与所述若干语音片段信号对应的信噪比;
33、信号降噪模块,用于利用预设语音增强模型对所述信噪比不大于预设阈值的第一语音片段信号进行降噪处理,得到降噪后语音片段信号;
34、特征提取模块,用于分别对所述降噪后语音片段信号和所述信噪比大于所述预设阈值的第二语音片段信号进行梅尔倒谱特征提取处理,得到与所述若干语音片段信号对应的若干语音特征;
35、情绪类别确定模块,用于根据所述若干语音特征,并通过多分类器确定与所述目标语音信号对应的若干情绪类别。
36、第三方面,本技术提供了一种电子设备,包括:
37、存储器,用于保存计算机程序;
38、处理器,用于执行所述计算机程序以实现如上述的语音情绪识别方法。
39、第四方面,本技术提供了一种计算机可读存储介质,用于保存计算机程序,所述计算机程序被处理器执行时实现如上述的语音情绪识别方法。
40、由此可见,本技术可以获取目标语音信号,并基于预设时间长度将所述目标语音信号分为相应长度的若干语音片段信号;然后基于预设信噪比预测模型对所述若干语音片段信号进行处理,得到与所述若干语音片段信号对应的信噪比;再利用预设语音增强模型对所述信噪比不大于预设阈值的第一语音片段信号进行降噪处理,得到降噪后语音片段信号;分别对所述降噪后语音片段信号和所述信噪比大于所述预设阈值的第二语音片段信号进行梅尔倒谱特征提取处理,得到与所述若干语音片段信号对应的若干语音特征;根据所述若干语音特征,并通过多分类器确定与所述目标语音信号对应的若干情绪类别。这样一来,本技术可以将目标语音信号划分为若干语音片段信号,并对其中信噪比较高的片段语音进行降噪处理,这样可以提高对低质量语音的情绪识别能力;之后可以得到与目标语音信号对应的若干个情绪类别,这样结合了语音情绪的上下文信息,可以提高情绪识别的准确率。
本文地址:https://www.jishuxx.com/zhuanli/20240618/21945.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表