技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音情感识别的方法、装置、电子设备及存储介质与流程 > 正文

语音情感识别的方法、装置、电子设备及存储介质与流程

国知局
2024-06-21 11:26:14

本公开涉及人工智能，尤其涉及语音情感识别的方法、装置、电子设备及存储介质。

背景技术：

1、随着人工智能技术的发展，情感识别的地位越来越重要，语音作为人类交流中的主要媒介，语音中包含了大量的情感信息，语音情感识别可以广泛的应用于电话销售，客户服务，人机对话等场景中。

2、但是，相关技术中的语音情感识别的鲁棒性不高，特别是语音信息的时长不同的情况下，语音情感识别的准确性较差。

3、公开该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的相关技术。

技术实现思路

1、本公开的目的是提供一种语音情感识别的方法、装置、电子设备及存储介质。

2、为解决上述技术问题，本公开是通过以下各方面实现的。

3、根据本公开的第一方面，提供一种语音情感识别的方法，所述方法包括：

4、获取待识别的语音信息对应的梅尔信息；

5、将所述梅尔信息输入训练好的语音情感识别模型，得到所述语音情感识别模型的输出，所述语音情感识别模型包括池化转换模块、分类模块和多个特征提取模块，所述特征提取模块，用于提取所述语音信息对应的语音特征信息，所述池化转换模块，用于根据所述语音特征信息获取预设长度的特征向量，所述分类模块，用于根据所述预设长度的特征向量获取所述语音特征信息对应的每个预设语音情感分类的概率；

6、根据所述语音情感识别模型的输出确定所述语音信息对应的语音情感。

7、根据本公开的第二方面，提供一种语音情感识别模型的训练方法，其特征在于，所述方法包括：

8、获取第一训练样本，所述第一训练样本包括多个待识别的语音样本和每个所述语音样本分别对应的语音情感标注信息，所述语音样本包括待识别的语音信息对应的梅尔信息；

9、根据所述第一训练样本对预设识别模型进行模型训练，得到所述语音情感识别模型；其中，所述预设识别模型包括池化转换模块、分类模块和多个特征提取模块，所述特征提取模块，用于提取所述梅尔信息对应的语音特征信息，所述池化转换模块，用于根据所述语音特征信息获取预设长度的特征向量，所述分类模块，用于根据所述预设长度的特征向量获取所述语音特征信息对应的每个预设语音情感分类的概率。

10、根据本公开的第三方面，提供一种坐席服务方法，包括：

11、获取坐席服务过程中客户的至少一个待识别语音信息；

12、采用第一方面中任一项所述的语音情感识别方法，根据所述待识别语音信息识别所述客户的语音情感，用于根据所述语音情感完成所述坐席服务。

13、根据本公开的第四方面，提供一种语音情感识别的装置，包括：

14、第一获取模块，被配置为获取待识别的语音信息对应的梅尔信息；

15、第二获取模块，被配置为将所述梅尔信息输入训练好的语音情感识别模型，得到所述语音情感识别模型的输出，所述语音情感识别模型包括池化转换模块、分类模块和多个特征提取模块，所述特征提取模块，用于提取所述语音信息对应的语音特征信息，所述池化转换模块，用于根据所述语音特征信息获取预设长度的特征向量，所述分类模块，用于根据所述预设长度的特征向量获取所述语音特征信息对应的每个预设语音情感分类的概率；

16、确定模块，被配置为根据所述语音情感识别模型的输出确定所述语音信息对应的语音情感。

17、根据本公开的第五方面，提供一种坐席的语音情感识别的装置，所述装置包括：

18、语音获取模块，被配置为获取坐席服务过程中客户的至少一个待识别语音信息；

19、识别模块，被配置为采用第一方面中任一项所述的语音情感识别方法，根据所述待识别语音信息识别所述客户的语音情感，用于根据所述语音情感完成所述坐席服务。

20、根据本公开的第六方面，提供了一种电子设备，包括：

21、处理器；以及

22、被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使用所述处理器第一方面中任一项所述的语音情感识别的方法，或者第二方面中语音情感识别模型的训练方法，或者第三方面中坐席服务方法的步骤。

23、根据本公开的第七方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行上述第一方面中任一项所述的语音情感识别的方法，或者第二方面中语音情感识别模型，或者第三方面中坐席服务方法的训练方法的步骤。

24、本公开的提供的技术方案可以首先获取待识别的语音信息对应的梅尔信息；将所述梅尔信息输入训练好的语音情感识别模型，得到所述语音情感识别模型的输出；该语音情感识别模型包括池化转换模块、分类模块和多个特征提取模块；所述特征提取模块，用于提取所述梅尔信息对应的语音特征信息；所述池化转换模块，用于根据所述语音特征信息获取预设长度的特征向量；所述分类模块，用于根据所述预设长度的特征向量获取所述语音特征信息对应的每个预设语音情感分类的概率，根据所述语音情感识别模型的输出确定所述语音信息对应的语音情感。通过池化转换模块的设置，获取语音特征信息预设长度的特征向量，从而对获取到的预设长度的特征向量进行语音情感识别，实现了针对不同时长的语音信息，提取语音信息对应的不同时长的特征信息，增加特征信息的语音情感类别的区分性，提升语音情感识别的鲁棒性，有效解决针对任意时长语音信息的情感识别问题。

25、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

26、本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

技术特征：

1.一种语音情感识别的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述特征提取模块包括第一卷积层和调制层，所述第一卷积层用于获取语音信息对应的语音特征信息，所述语音特征信息包括时序特征和频谱特征；所述调制层用于对所述语音特征信息的时序特征和频谱特征进行调制得到调制后的语音特征信息；

3.根据权利要求2所述的方法，其特征在于，所述调制层包括第二卷积层和调整层，所述第二卷积层包括第一卷积、第二卷积和第三卷积；所述第一卷积为一维卷积，所述第二卷积为扩张率大于1的扩张二维卷积，所述第一卷积和所述第二卷积用于根据所述语音特征信息得到第一语音特征信息；所述第三卷积用于根据所述语音特征信息得到第二语音特征信息；

4.根据权利要求2所述的方法，其特征在于，所述根据所述调制后的语音特征信息获取所述预设长度的特征向量包括：

5.根据权利要求4所述的方法，其特征在于，所述获取所述调制后的语音特征信息对应的权重包括：

6.根据权利要求1-5中任一项所述的方法，所述梅尔信息包括所述语音信息对应的时序信息和频谱信息，所述获取所述语音信息对应的梅尔信息包括：

7.一种语音情感识别模型的训练方法，其特征在于，所述方法包括：

8.根据权利要求7所述的方法，其特征在于，所述根据所述第一训练样本对预设识别模型进行模型训练，得到所述语音情感识别模型包括：

9.一种坐席服务方法，其特征在于，所述方法包括：

10.一种语音情感识别的装置，包括：

11.一种电子设备，包括：

12.一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行权利要求1-6中任一项所述的语音情感识别的方法的步骤，或者执行权利要求7或8中所述的语音情感识别模型的训练方法的步骤，或者执行权利要求9中所述的坐席服务方法的步骤。

技术总结本公开提供了语音情感识别的方法、装置、电子设备及存储介质，涉及人工智能技术领域。该方法包括：获取待识别的语音信息对应的梅尔信息；将所述梅尔信息输入训练好的语音情感识别模型，得到所述语音情感识别模型的输出，根据所述语音情感识别模型的输出确定所述语音信息对应的语音情感。采用上述方案，能够针对不同时长的语音信息，提取语音信息对应的不同时长的特征信息，增加特征信息的语音情感类别的区分性，提升语音情感识别的鲁棒性，有效解决针对任意时长语音信息的情感识别问题。技术研发人员：熊雪军,蒋宁,吴海英,陆全,刘敏受保护的技术使用者：马上消费金融股份有限公司技术研发日：技术公布日：2024/2/6