技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音情感识别方法、装置、计算机设备及存储介质与流程 > 正文

语音情感识别方法、装置、计算机设备及存储介质与流程

国知局
2024-06-21 11:49:23

本申请涉及语音识别，特别是涉及一种语音情感识别方法、装置、计算机设备及存储介质。

背景技术：

1、语音数据的情感识别准确与否，关系到对语音数据的处理是否准确，比如在机器人通话应用场景中，识别用户输入的语音数据中的情感，然后基于识别到的情感输出合适的应答话术。目前一般采用对语音信号进行文本识别，利用文本数据进行情感分类的方式实现语音情感识别，但是这种识别方式对环境条件的依赖性较高，在语音噪声较大的情况下，无法识别到有用的文本数据，导致语音情感识别的精确度较低。

2、因此，如何准确地进行语音情感识别成为语音识别技术领域研究的热点问题之一。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种语音情感识别方法、装置、计算机设备及可读存储介质，无论何种语音环境，可以提升语音情感识别的鲁棒性和精确度。

2、第一方面，本申请提供了一种语音情感识别方法。所述方法包括：

3、基于待识别语音信号中m个语音帧信号构建所述待识别语音信号的图结构，并获取所述图结构中m个节点的浅层特征表示；m个语音帧信号与m个节点一一对应；

4、基于所述图结构中m个节点的浅层特征表示进行n次图转换处理，获得所述待识别语音信号的全局特征表示；

5、根据所述全局特征表示进行图汇聚处理，得到预设维度的目标特征表示；

6、根据所述预设维度的目标特征表示进行分类处理，得到所述待识别语音信号的情感识别结果。

7、第二方面，本申请还提供了一种语音情感识别装置。所述装置包括：

8、获取模块，用于基于待识别语音信号中m个语音帧信号构建所述待识别语音信号的图结构，并获取所述图结构中m个节点的浅层特征表示；m个语音帧信号与m个节点一一对应；

9、处理模块，用于基于所述图结构中m个节点的浅层特征表示进行n次图转换处理，获得所述待识别语音信号的全局特征表示；

10、汇聚模块，用于根据所述全局特征表示进行图汇聚处理，得到预设维度的目标特征表示；

11、分类模块，用于根据所述预设维度的目标特征表示进行分类处理，得到所述待识别语音信号的情感识别结果。

12、第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

13、基于待识别语音信号中m个语音帧信号构建所述待识别语音信号的图结构，并获取所述图结构中m个节点的浅层特征表示；m个语音帧信号与m个节点一一对应；

14、基于所述图结构中m个节点的浅层特征表示进行n次图转换处理，获得所述待识别语音信号的全局特征表示；

15、根据所述全局特征表示进行图汇聚处理，得到预设维度的目标特征表示；

16、根据所述预设维度的目标特征表示进行分类处理，得到所述待识别语音信号的情感识别结果。

17、第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

18、基于待识别语音信号中m个语音帧信号构建所述待识别语音信号的图结构，并获取所述图结构中m个节点的浅层特征表示；m个语音帧信号与m个节点一一对应；

19、基于所述图结构中m个节点的浅层特征表示进行n次图转换处理，获得所述待识别语音信号的全局特征表示；

20、根据所述全局特征表示进行图汇聚处理，得到预设维度的目标特征表示；

21、根据所述预设维度的目标特征表示进行分类处理，得到所述待识别语音信号的情感识别结果。

22、第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

23、基于待识别语音信号中m个语音帧信号构建所述待识别语音信号的图结构，并获取所述图结构中m个节点的浅层特征表示；m个语音帧信号与m个节点一一对应；

24、基于所述图结构中m个节点的浅层特征表示进行n次图转换处理，获得所述待识别语音信号的全局特征表示；

25、根据所述全局特征表示进行图汇聚处理，得到预设维度的目标特征表示；

26、根据所述预设维度的目标特征表示进行分类处理，得到所述待识别语音信号的情感识别结果。

27、上述语音情感识别方法、装置、计算机设备及存储介质，基于待识别语音信号中m个语音帧信号构建待识别语音信号的图结构，并获取图结构中m个节点的浅层特征表示；m个语音帧信号与m个节点一一对应；基于图结构中m个节点的浅层特征表示进行n次图转换处理，获得待识别语音信号的全局特征表示；根据全局特征表示进行图汇聚处理，得到预设维度的目标特征表示；根据预设维度的目标特征表示进行分类处理，得到待识别语音信号的情感识别结果，能够从图结构的角度对语音信号的浅层特征表示进行分析，提取待识别语音信号的深度信息，针对低信噪比环境下的语音也能挖掘出表现语音情感性质的特征，提升了语音情感识别的鲁棒性，另一方面，针对任意时长的语音信号均汇聚为预设维度的特征进行分类，能够提升分类处理的精度，进而提升了语音情感识别的精度。

技术特征：

1.一种语音情感识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取所述图结构中m个节点的浅层特征表示，包括：

3.根据权利要求1所述的方法，其特征在于，所述图转换处理包括图卷积处理和图注意力处理，第i次图转换处理包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述m个节点的输入特征表示进行图卷积处理，得到所述m个节点的中间特征表示，包括：

5.根据权利要求3所述的方法，其特征在于，所述根据所述图结构中m个节点的中间特征表示进行图注意力处理，并根据图注意力处理结果确定第i次图转换处理的输出，包括：

6.根据权利要求1所述的方法，其特征在于，所述全局特征表示包括m个节点的全局特征表示，所述根据所述全局特征表示进行图汇聚处理，得到预设维度的目标特征表示，包括：

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述方法由语音识别模型执行，所述语音识别模型包括图转换结构、池化层和分类器，所述图转换处理通过所述图转换结构执行，所述图汇聚处理通过所述池化层执行，所述分类处理通过所述分类器执行；所述语音识别模型是基于样本语音信号及其对应的情感标签训练得到的。

8.一种语音情感识别装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

技术总结本申请涉及一种语音情感识别方法、装置、计算机设备及存储介质。包括：基于待识别语音信号中M个语音帧信号构建待识别语音信号的图结构，获取图结构中M个节点的浅层特征表示；基于图结构中M个节点的浅层特征表示进行N次图转换处理，得到全局特征表示；根据全局特征表示进行图汇聚处理，得到预设维度的目标特征表示；根据预设维度的目标特征表示进行分类处理，得到待识别语音信号的情感识别结果。从图结构的角度对语音信号的浅层特征表示进行分析，提取深度信息，针对低信噪比环境下的语音也能挖掘出表现语音情感性质的特征，提升了语音情感识别的鲁棒性。技术研发人员：熊雪军受保护的技术使用者：马上消费金融股份有限公司技术研发日：技术公布日：2024/5/8