技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音情绪识别方法及装置与流程 > 正文

语音情绪识别方法及装置与流程

国知局
2024-06-21 10:40:28

本技术主要涉及人工智能，具体涉及一种语音情绪识别方法及装置。

背景技术：

1、智能电话客服场景下，可以通过对通话进行情绪分析，提供商业决策支持，主流有两种解决方案，一是通过对客服语音声学建模，捕捉说话语音语速，声调，辅助音及频谱域的变化，通过定义情绪类别标签，输入特征到统计模型或者深度模型，进行情绪标签分类。二是asr转写以后的文本进行信息挖掘，判断说话人的情绪，为客服质检提供参考依据。以上技术路线：都是基于声学特征和文本特征“相互独立生成”的模型框架下，这样的方式存在着以下不足：没有利用声学特征和文本特征的在特征空间的耦合作用，导致语音情绪识别准确度较低。

2、也即，现有技术中语音情绪识别准确度较低。

技术实现思路

1、本技术提供一种语音情绪识别方法及装置，旨在解决现有技术中语音情绪识别准确度较低的问题。

2、第一方面，本技术提供一种语音情绪识别方法，所述语音情绪识别方法包括：

3、获取当前音频帧的第一音频特征编码和历史音频帧的文本特征信息，其中，所述历史音频帧在所述当前音频帧之前；

4、基于所述历史音频帧的文本特征信息预测所述当前音频帧的文本特征编码；

5、融合所述当前音频帧的第一音频特征编码和所述文本特征编码，得到融合特征向量；

6、基于所述融合特征向量进行语音情绪识别，得到所述当前音频帧的语音情绪识别结果。

7、可选地，所述基于所述融合特征向量进行语音情绪识别，得到所述当前音频帧的语音情绪识别结果，包括：

8、基于teager能量算子对所述当前音频帧进行特征提取，得到第二音频特征；

9、对所述第二音频特征进行编码，得到所述当前音频帧的第二音频特征编码；

10、基于所述第二音频特征编码和所述融合特征向量进行语音情绪识别，得到所述当前音频帧的语音情绪识别结果。

11、可选地，所述基于所述第二音频特征编码和所述融合特征向量进行语音情绪识别，得到所述当前音频帧的语音情绪识别结果，包括：

12、基于预设注意力层对所述融合特征向量进行权重调整，得到第一目标特征向量；

13、融合所述第一目标特征向量和所述第二音频特征编码，得到第二目标特征向量；

14、将所述第二目标特征向量输入目标情绪识别模型，得到所述当前音频帧的语音情绪识别结果。

15、可选地，所述基于预设注意力层对所述融合特征向量进行权重调整，得到第一目标特征向量，包括：

16、将所述融合特征向量输入softmax层，得到预测文本概率分布；

17、将所述预测文本概率分布和所述融合特征向量输入所述预设注意力层对所述融合特征向量进行权重调整，得到所述第一目标特征向量。

18、可选地，所述获取当前音频帧的第一音频特征编码和历史音频帧的文本特征信息，包括：

19、对所述当前音频帧进行fbank特征提取，得到所述当前音频帧的第一音频特征；

20、对所述当前音频帧的第一音频特征进行编码，得到所述当前音频帧的第一音频特征编码。

21、可选地，所述获取当前音频帧的第一音频特征编码和历史音频帧的文本特征信息，包括：

22、判断所述历史音频帧之前是否存在音频帧；

23、若所述历史音频帧之前不存在音频帧，则获取历史音频帧的第一音频特征编码和预设文本特征编码；

24、基于所述历史音频帧的第一音频特征编码和所述预设文本特征编码确定所述历史音频帧的文本特征信息。

25、可选地，所述基于所述历史音频帧的第一音频特征编码和所述预设文本特征编码确定所述历史音频帧的文本特征信息，包括：

26、融合所述历史音频帧的第一音频特征编码和预设文本特征编码，得到历史融合特征向量；

27、将所述历史融合特征向量输入softmax层，得到所述历史音频帧的历史预测文本概率分布；

28、基于所述历史预测文本概率分布确定所述历史音频帧的文本特征信息。

29、第二方面，本技术提供一种语音情绪识别装置，所述语音情绪识别装置包括：

30、获取单元，用于获取当前音频帧的第一音频特征编码和历史音频帧的文本特征信息，其中，所述历史音频帧在所述当前音频帧之前；

31、预测单元，用于基于所述历史音频帧的文本特征信息预测所述当前音频帧的文本特征编码；

32、融合单元，用于融合所述当前音频帧的第一音频特征编码和所述文本特征编码，得到融合特征向量；

33、识别单元，用于基于所述融合特征向量进行语音情绪识别，得到所述当前音频帧的语音情绪识别结果。

34、可选地，所述识别单元，用于：

35、基于teager能量算子对所述当前音频帧进行特征提取，得到第二音频特征；

36、对所述第二音频特征进行编码，得到所述当前音频帧的第二音频特征编码；

37、基于所述第二音频特征编码和所述融合特征向量进行语音情绪识别，得到所述当前音频帧的语音情绪识别结果。

38、可选地，所述识别单元，用于：

39、基于预设注意力层对所述融合特征向量进行权重调整，得到第一目标特征向量；

40、融合所述第一目标特征向量和所述第二音频特征编码，得到第二目标特征向量；

41、将所述第二目标特征向量输入目标情绪识别模型，得到所述当前音频帧的语音情绪识别结果。

42、可选地，所述识别单元，用于：

43、将所述融合特征向量输入softmax层，得到预测文本概率分布；

44、将所述预测文本概率分布和所述融合特征向量输入所述预设注意力层对所述融合特征向量进行权重调整，得到所述第一目标特征向量。

45、可选地，所述获取单元，用于：

46、对所述当前音频帧进行fbank特征提取，得到所述当前音频帧的第一音频特征；

47、对所述当前音频帧的第一音频特征进行编码，得到所述当前音频帧的第一音频特征编码。

48、可选地，所述获取单元，用于：

49、判断所述历史音频帧之前是否存在音频帧；

50、若所述历史音频帧之前不存在音频帧，则获取历史音频帧的第一音频特征编码和预设文本特征编码；

51、基于所述历史音频帧的第一音频特征编码和所述预设文本特征编码确定所述历史音频帧的文本特征信息。

52、可选地，所述获取单元，用于：

53、融合所述历史音频帧的第一音频特征编码和预设文本特征编码，得到历史融合特征向量；

54、将所述历史融合特征向量输入softmax层，得到所述历史音频帧的历史预测文本概率分布；

55、基于所述历史预测文本概率分布确定所述历史音频帧的文本特征信息。

56、第三方面，本技术提供一种计算机设备，所述计算机设备包括：

57、一个或多个处理器；

58、存储器；以及

59、一个或多个应用程序，其中所述一个或多个应用程序被存储于所述存储器中，并配置为由所述处理器执行以实现第一方面中任一项所述的语音情绪识别方法。

60、第四方面，本技术提供一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行第一方面中任一项所述的语音情绪识别方法中的步骤。

61、本技术提供一种语音情绪识别方法及装置，该语音情绪识别方法包括：获取当前音频帧的第一音频特征编码和历史音频帧的文本特征信息，其中，历史音频帧在当前音频帧之前；基于历史音频帧的文本特征信息预测当前音频帧的文本特征编码；融合当前音频帧的第一音频特征编码和文本特征编码，得到融合特征向量；基于融合特征向量进行语音情绪识别，得到当前音频帧的语音情绪识别结果。本技术先利用历史音频帧的文本特征信息预测出当前音频帧的文本特征编码，然后把当前音频帧的文本特征编码和第一音频特征编码融合后进行语音情绪识别，将音频信息与文本信息进行深度融合，能够提高语音情绪识别的准确度。