技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音情感识别方法、装置、计算机设备以及存储介质 > 正文

语音情感识别方法、装置、计算机设备以及存储介质

国知局
2024-06-21 11:44:28

本发明涉及语音情感识别，特别涉及是一种语音情感识别方法、装置、计算机设备以及存储介质。

背景技术：

1、语音中包含了丰富的情感信息，作为最基本的一种人类交流方式，语音情感识别对于计算机分析人类用户的情绪状态并对其做出相应的反应尤为重要。

2、目前的技术方案，通常采用基于神经网络提取的低维度的声学特征训练的语音情感识别(ser)模型来进行语音情感识别，其中，神经网络包括卷积神经网络(cnn)以及长短时记忆网络(lstm)，卷积神经网络(cnn)可以有效地捕捉语音中的局部声学细节，而长短时记忆网络(lstm)可以有效地建模语音中的动态信息和时序依赖性被广泛运用于语音情感识别中。

3、然而，上述神经网络只能提取语音中的局部信息，如特定语音段的能量和节奏，而难以学习语音特征中的全局信息，如说话人的整体音量和说话速率，以及能量的持续时间，从而忽略了特征的全局相关性，此外，注意力机制通过在众多的输入信息中选择性地聚焦与当前任务相关的特征，提高任务处理的有效性，在各大领域中受到广泛关注。近年来，一些研究人员利用深度学习方法进行特征提取，将注意力机制用于语音情感识别模型中提升性能。然而，现有的注意力机制通常使用mlp或cnn在特征图的空间或通道中进行学习，这使得这些网络难以学习语音的时间信息，难以进行充分、准确的语音情感识别。

技术实现思路

1、基于此，本发明的目的在于，提供一种语音情感识别方法、装置、设备以及存储介质，聚焦于语音数据中的时间、空间和通道依赖性，对语音数据的语音特征进行多维特征增强，捕获语音数据中的多维特征，基于多维特征，提取不同细腻度的局部特征和全局特征并进行特征融合，用以进行语音情感识别，提高语音情感识别的准确性。

2、第一方面，本申请实施例提供了一种语音情感识别方法，包括以下步骤：

3、获得待识别的语音数据以及预设的语音情感识别模型，其中，所述语音情感识别模型包括语音特征提取模块、多维特征增强模块、局部全局特征融合模块以及情感识别模块，所述多维特征增强模块包括时序特征增强模块、通道特征增强模块以及空间特征增强模块；所述局部全局特征融合模块包括局部卷积处理模块、全局多头注意力处理模块以及卷积倒残差处理模块；

4、将所述待识别的语音数据输入至所述语音特征提取模块中进行语音特征提取，获得语音特征图；

5、将所述语音特征图输入至所述时序特征增强模块中进行时序特征增强，获得时序特征图；将所述时序特征图分别输入至所述通道特征增强模块、空间特征增强模块中进行特征提取，获得通道特征图以及空间特征图，将所述通道特征图以及空间特征图进行特征融合处理，获得多维特征融合图；

6、将所述多维特征融合图输入至所述局部卷积处理模块中进行卷积处理，获得局部卷积特征图，将所述局部卷积特征图输入至所述全局多头注意力处理模块中进行注意力提取，获得注意力特征图；将所述注意力特征图输入至所述卷积倒残差处理模块中进行卷积倒残差处理，获得局部全局特征融合图；

7、将所述局部全局特征融合图输入至所述情感识别模块中进行情感识别，获得所述待识别的语音数据的情感识别结果。

8、第二方面，本申请实施例提供了一种语音情感识别装置，包括：

9、数据获取模块，用于获得待识别的语音数据以及预设的语音情感识别模型，其中，所述语音情感识别模型包括语音特征提取模块、多维特征增强模块、局部全局特征融合模块以及情感识别模块，所述多维特征增强模块包括时序特征增强模块、通道特征增强模块以及空间特征增强模块；所述局部全局特征融合模块包括局部卷积处理模块、全局多头注意力处理模块以及卷积倒残差处理模块；

10、语音特征图获取模块，用于将所述待识别的语音数据输入至所述语音特征提取模块中进行语音特征提取，获得语音特征图；

11、多维特征融合图获取模块，用于将所述语音特征图输入至所述时序特征增强模块中进行时序特征增强，获得时序特征图；将所述时序特征图分别输入至所述通道特征增强模块、空间特征增强模块中进行特征提取，获得通道特征图以及空间特征图，将所述通道特征图以及空间特征图进行特征融合处理，获得多维特征融合图；

12、局部全局特征融合图获取模块，用于将所述多维特征融合图输入至所述局部卷积处理模块中进行卷积处理，获得局部卷积特征图，将所述局部卷积特征图输入至所述全局多头注意力处理模块中进行注意力提取，获得注意力特征图；将所述注意力特征图输入至所述卷积倒残差处理模块中进行卷积倒残差处理，获得局部全局特征融合图；

13、语音情感识别模块，用于将所述局部全局特征融合图输入至所述情感识别模块中进行情感识别，获得所述待识别的语音数据的情感识别结果。

14、第三方面，本申请实施例提供了一种计算机设备，包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述的语音情感识别方法的步骤。

15、第四方面，本申请实施例提供了一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的语音情感识别方法的步骤。

16、在本申请实施例中，提供一种语音情感识别方法、装置、计算机设备以及存储介质，聚焦于语音数据中的时间、空间和通道依赖性，对语音数据的语音特征进行多维特征增强，捕获语音数据中的多维特征，基于多维特征，提取不同细腻度的局部特征和全局特征并进行特征融合，用以进行语音情感识别，提高语音情感识别的准确性。

17、为了更好地理解和实施，下面结合附图详细说明本发明。

技术特征：

1.一种语音情感识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的语音情感识别方法，其特征在于，所述将所述语音特征图输入至所述时序特征增强模块中进行特征增强，获得时序特征图，包括步骤：

3.根据权利要求1或2所述的语音情感识别方法，其特征在于，所述将所述时序特征图分别输入至所述通道特征增强模块、空间特征增强模块中进行特征提取，获得通道特征图以及空间特征图，将所述通道特征图以及空间特征图进行特征融合处理，获得多维特征融合图，包括步骤：

4.根据权利要求1或3所述的语音情感识别方法，其特征在于，所述将所述多维特征融合图输入至所述局部卷积处理模块中进行卷积处理，获得局部卷积特征图，将所述局部卷积特征图输入至所述全局多头注意力处理模块中进行注意力提取，获得注意力特征图，包括步骤：

5.根据权利要求4所述的语音情感识别方法，其特征在于，所述将所述局部卷积特征图输入至所述全局多头注意力处理模块中进行矩阵构建，获得矩阵数据，包括步骤：

6.根据权利要求4所述的语音情感识别方法，其特征在于，所述将所述注意力特征图输入至所述卷积倒残差处理模块中进行卷积倒残差处理，获得局部全局特征融合图，包括步骤：

7.根据权利要求6所述的语音情感识别方法，其特征在于：所述情感识别模块包括全连接层；

8.一种语音情感识别装置，其特征在于，包括：

9.一种计算机设备，其特征在于，包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的语音情感识别方法的步骤。

10.一种存储介质，其特征在于：所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的语音情感识别方法的步骤。

技术总结本发明涉及语音情感识别技术领域，特别涉及一种语音情感识别方法，聚焦于语音数据中的时间、空间和通道依赖性，对语音数据的语音特征进行多维特征增强，捕获语音数据中的多维特征，基于多维特征，提取不同细腻度的局部特征和全局特征并进行特征融合，用以进行语音情感识别，提高语音情感识别的准确性。技术研发人员：林逸鑫,唐小煜,黄佩瑶,龚雅云受保护的技术使用者：华南师范大学技术研发日：技术公布日：2024/4/17