技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音情感分类模型的构建方法、装置、设备及存储介质  >  正文

语音情感分类模型的构建方法、装置、设备及存储介质

  • 国知局
  • 2024-06-21 11:53:20

本发明涉及音频信号处理,尤其涉及一种语音情感分类模型的构建方法、装置、设备及存储介质。

背景技术:

1、语音情感识别是一种重要的人机交互技术,近年来备受关注,能够通过人的语音特征识别出表达的情感状态,从而实现更智能化的人机互动。

2、相关技术中,往往通过基于深度学习的语音情感识别模型识别情感状态,但是上述技术方案存在以下缺陷:已有模型需要大量的音频训练数据才能获得较高的准确性,而实际应用中获取大规模音频数据并进行特征处理的过程较为繁琐;复杂的网络结构需要消耗较高的计算资源;当前多数模型只能将情感分为几个离散的类别,难以捕捉到情感的复杂性和连续性。

3、综合以上该技术领域发展状况分析,现有的技术中方案缺少将音频数据转换为易于提取特征图像数据,并使用轻量级模型识别的语音情感分类模型。

技术实现思路

1、本发明的目的在于提供一种语音情感分类模型的构建方法、装置、设备及存储介质,旨在解决现有技术中的上述问题。

2、根据本发明实施例的第一方面,提供一种语音情感分类模型的构建方法,包括:

3、将用于训练的原始音频处理为频谱图图像,获取原始音频中的梅尔频率倒谱系数特征;

4、将频谱图图像输入图像分类模型,得到高级图像特征,将梅尔频率倒谱系数特征输入梅尔频率倒谱系数提取模型,得到高级梅尔频率倒谱系数特征;

5、通过图像分类模型对应的第一注意力模块,将高级梅尔频率倒谱系数特征中的重要信息与得到的高级图像特征交互合并,得到交互后图像关键特征;通过梅尔频率倒谱系数提取模型对应的第二注意力模块,将高级图像特征中的重要信息与得到的高级梅尔频率倒谱系数特征交互合并,得到交互后梅尔频率倒谱系数关键特征;

6、将交互后图像关键特征和交互后梅尔频率倒谱系数关键特征拼接为综合特征,通过综合特征得到情感分类结果并计算损失函数,通过损失函数更新图像分类模型和梅尔频率倒谱系数提取模型的参数,得到由图像分类模型和梅尔频率倒谱系数提取模型组成的语音情感分类模型。

7、根据本发明实施例的第二方面,提供一种语音情感分类模型的构建装置,包括:

8、初始处理模块,用于将用于训练的原始音频处理为频谱图图像,获取原始音频的梅尔频率倒谱系数特征;

9、高级特征获取模块,用于将频谱图图像输入图像分类模型,得到高级图像特征,将梅尔频率倒谱系数特征输入梅尔频率倒谱系数提取模型,得到高级梅尔频率倒谱系数特征;

10、交互合并模块,用于通过图像分类模型对应的第一注意力模块,将高级梅尔频率倒谱系数特征中的重要信息与得到的高级图像特征交互合并,得到交互后图像关键特征;通过梅尔频率倒谱系数提取模型对应的第二注意力模块,将高级图像特征中的重要信息与得到的高级梅尔频率倒谱系数特征交互合并,得到交互后梅尔频率倒谱系数关键特征;

11、参数更新模块,用于将交互后图像关键特征和交互后梅尔频率倒谱系数关键特征拼接为综合特征,通过综合特征得到情感分类结果并计算损失函数,通过损失函数更新图像分类模型和梅尔频率倒谱系数提取模型的参数,得到由图像分类模型和梅尔频率倒谱系数提取模型组成的语音情感分类模型。

12、根据本发明实施例的第三方面,提供一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被处理器执行时实现如本公开第一方面所提供的语音情感分类模型的构建方法的步骤。

13、根据本发明实施例的第四方面,提供一种计算机可读存储介质,其上存储有信息传递的实现程序,该程序被处理器执行时实现本公开第一方面所提供的语音情感分类模型的构建方法的步骤。

14、本发明实施例提供的技术方案包括以下有益效果:将音频特征的频谱进行可视化处理得到频谱图图像,将音频分类问题转化为图像分类问题,有效降低了计算成本,使用图像分类模型和梅尔频率倒谱系数提取模型分别提取高级图像特征和高级梅尔频率倒谱系数特征,并设计注意力模块进行特征交互合并,有效提升了算法的性能。

15、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

技术特征:

1.一种语音情感分类模型的构建方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:

3.根据权利要求1所述的方法,其特征在于,所述将用于训练的原始音频处理为频谱图图像具体包括:

4.根据权利要求1所述的方法,其特征在于,所述将所述频谱图图像输入图像分类模型,得到高级图像特征具体包括:将所述频谱图图像输入efficientnet-b3图像分类模型中,得到高级图像特征。

5.根据权利要求1所述的方法,其特征在于,所述将所述梅尔频率倒谱系数特征输入梅尔频率倒谱系数提取模型,得到高级梅尔频率倒谱系数特征具体包括:

6.根据权利要求1所述的方法,其特征在于,所述通过所述图像分类模型对应的第一注意力模块,将所述高级梅尔频率倒谱系数特征中的重要信息与得到的高级图像特征交互合并,得到交互后图像关键特征;通过所述梅尔频率倒谱系数提取模型对应的第二注意力模块,将所述高级图像特征中的重要信息与得到的高级梅尔频率倒谱系数特征交互合并,得到交互后梅尔频率倒谱系数关键特征具体包括:

7.一种语音情感分类模型的构建装置,其特征在于,包括:

8.根据权利要求7所述的装置,其特征在于,所述装置进一步包括:

9.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的语音情感分类模型的构建方法的步骤。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有信息传递的实现程序,所述程序被处理器执行时实现如权利要求1至6中任一项所述的语音情感分类模型的构建方法的步骤。

技术总结本发明提供了一种语音情感分类模型的构建方法、装置、设备及存储介质,其中,方法包括:将原始音频处理为频谱图图像,获取原始音频的梅尔频率倒谱系数特征;将频谱图图像输入图像分类模型得到高级图像特征,将梅尔频率倒谱系数特征输入梅尔频率倒谱系数提取模型,得到高级梅尔频率倒谱系数;通过第一注意力模块得到交互后图像关键特征;通过第二注意力模块得到交互后梅尔频率倒谱系数关键特征;将交互后图像关键特征和交互后梅尔频率倒谱系数关键特征拼接为综合特征,通过综合特征得到情感分类结果并计算损失更新参数,得到由图像分类模型和梅尔频率倒谱系数提取模型组成的语音情感分类模型。技术研发人员:杨柳,周昱彬,毛忌,翁士龙受保护的技术使用者:广州大学技术研发日:技术公布日:2024/5/27

本文地址:https://www.jishuxx.com/zhuanli/20240618/24287.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。