技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音情绪检测方法、设备及计算机可读介质与流程 > 正文

语音情绪检测方法、设备及计算机可读介质与流程

国知局
2024-06-21 11:44:43

本技术涉及语音处理，尤其涉及一种语音情绪检测方法、设备及计算机可读介质。

背景技术：

1、语音处理技术是信息处理领域的一个重要分支，随着科技的发展，语音处理技术的应用越来越广泛。在语音处理技术中，语音情绪检测是指根据输入的语音数据检测其所表达的情绪类别，例如某一段语音所表达出的情绪是开心、难过或者是惊恐等。目前已有的语音情绪检测方案的效果不佳，难以精准地检测出不同语音数据所表达的情绪。

技术实现思路

1、本技术的一个目的是提供一种语音情绪检测方法、设备及计算机可读介质，用以解决现有方案中情绪检测准确性不足的问题。

2、为实现上述目的，本技术实施例提供了一种语音情绪检测方法，所述方法包括：

3、对语音数据进行特征抽取，获取输入特征信息；

4、对所述输入特征信息多次编码处理，生成输出特征信息，其中，所述编码处理包括：对所述输入特征信息进行分块，计算每个块内以及块间的注意力信息，并根据所述输入特征信息和所述注意力信息生成输出特征信息；

5、根据所述输出特征信息，确定所述语音数据对应的情绪类别。

6、进一步地，在对语音数据进行特征抽取，获取输入特征信息之前，还包括：

7、基于预设采样率对语音数据进行采样，获取预设时长的语音数据。

8、进一步地，所述编码处理还包括：

9、在对所述输入特征信息进行分块，计算每个块内以及块间的注意力信息，并根据所述输入特征信息和所述注意力信息生成输出特征信息之前，对所述输入特征信息进行合并处理，降低所述输入特征信息的序列长度。

10、进一步地，对所述输入特征信息进行合并处理，包括：

11、对所述输入特征信息进行重构处理，将所述输入特征信息的序列长度由a×a的一维形式变换为(a，a)的二维形式，获取形状为(a，a，b)的输入特征信息，其中，b为特征抽取时的特征嵌入维度；

12、将所述输入特征信息中二维形式的序列长度，根据预设二维形状划分为n×n个形状相同的区域，并在特征嵌入维度上进行拼接，得到形状为(a/n，a/n，n×n×b)的输入特征信息，其中，预设二维形状为(a，a)，a/a＝n；

13、将所述输入特征信息的序列长度由(a/n，a/n)的二维形式变换为a/n×a/n的一维形式，得到形状为(a/n×a/n，n×n×b)的输入特征信息；

14、将所述输入特征信息经过层归一化处理后，进行一维卷积处理，得到形状为(a/n×a/n，n×n×b/2)的输入特征信息，所述一维卷积的卷积核为1，输出通道数为n×n×b/2。

15、进一步地，对所述输入特征信息进行分块，计算每个块内以及块间的注意力信息，并根据所述输入特征信息和所述注意力信息生成输出特征信息，包括：

16、对所述输入特征信息经过层归一化处理后进行分块，计算每个块内的注意力信息，并根据所述输入特征信息和块内的注意力信息生成第一特征信息，将所述第一特征信息与所述输入特征信息进行元素相加，获得第二特征信息；

17、对所述第二特征信息经过层归一化处理后，采用多层感知机模型进行编码，获得第三特征信息，将所述第二特征信息与所述第三特征信息进行元素相加，获得第四特征信息；

18、对所述第四特征信息经过层归一化处理后进行分块，计算每个块间的注意力信息，并根据所述第四特征信息和块间的注意力信息生成第五特征信息，将所述第四特征信息与所述第五特征信息进行元素相加，获得第六特征信息；

19、对所述第六特征信息经过层归一化处理后，采用多层感知机模型进行编码，获得第七特征信息，将所述第六特征信息和第七特征信息进行元素相加，获得输出特征信息。

20、进一步地，对所述输入特征信息经过层归一化处理后进行分块，计算每个块内的注意力信息，并根据所述输入特征信息和块内的注意力信息生成第一特征信息，包括：

21、将形状(a×a，b)的输入特征信息经过层归一化处理后进行分块，获取n×n个形状为(a×a，b)的第一特征块，a/a＝n；

22、将每个第一特征块分别与注意力机制的q参数矩阵、k参数矩阵和v参数矩阵相乘，分别获得形状为(a×a，b×2)的q特征矩阵、k特征矩阵和v特征矩阵；

23、对q特征矩阵、k特征矩阵和v特征矩阵进行重构处理，将所述输入特征信息的特征嵌入维度由b×2的一维形式变换为(2，b)的二维形式，获取形状为(a×a，2，b)的q特征矩阵、k特征矩阵和v特征矩阵；

24、将所述q特征矩阵与所述k特征矩阵的转置矩阵进行矩阵相乘，得到形状为(a×a，a×a)的关系矩阵；

25、将所述关系矩阵的矩阵元素映射至预设区间后，与v特征矩阵相乘获取形状为(a×a，2，b)的中间结果矩阵；

26、对所述中间结果矩阵在特征嵌入维度上进行平均操作，得到形状为(a×a，b)的第二特征块；

27、将每个第二特征块的特征向量按照分块前的布局重新排列，得到形状为(a×a，b)的第一特征信息。

28、进一步地，对所述第四特征信息经过层归一化处理后进行分块，计算每个块间的注意力信息，并根据所述第四特征信息和块间的注意力信息生成第五特征信息，包括：

29、将形状(a×a，b)的第四特征信息经过层归一化处理后进行分块，获取n×n个形状为(a×a，b)的第三特征块，a/a＝n；

30、将每个第三特征块中第二部分的特征向量与下一个第三特征块中第一部分的特征向量组合，获得n×n-1个形状为(a×a，b)的第四特征块，并将最后一个第三特征块中第二部分的特征向量与首个第三特征块中第一部分的特征向量组合，获得1个形状为(a×a，b)的第五特征块；

31、将每个第四特征块和第五特征块分别与注意力机制的q参数矩阵、k参数矩阵和v参数矩阵相乘，分别获得形状为(a×a，b×2)的q特征矩阵、k特征矩阵和v特征矩阵；

32、对q特征矩阵、k特征矩阵和v特征矩阵进行重构处理，将所述输入特征信息的特征嵌入维度由b×2的一维形式变换为(2，b)的二维形式，获取形状为(a×a，2，b)的q特征矩阵、k特征矩阵和v特征矩阵；

33、将所述q特征矩阵与所述k特征矩阵的转置矩阵进行矩阵相乘，得到形状为(a×a，a×a)的关系矩阵；

34、将所述关系矩阵的矩阵元素映射至预设区间后，与v特征矩阵相乘获取形状为(a×a，2，b)的中间结果矩阵，其中，第五特征块的关系矩阵经过掩码矩阵处理，所述掩码矩阵用于消除来自于不同第三特征块的特征向量之间的相关性；

35、对所述中间结果矩阵在特征嵌入维度上进行平均操作，得到形状为(a×a，b)的第六特征块；

36、将每个第六特征块的特征向量按照分块前的布局重新排列，得到形状为(a×a，b)的第五特征信息。

37、进一步地，将所述关系矩阵的矩阵元素映射至预设区间后，与v特征矩阵相乘获取形状为(a×a，2，b)的中间结果矩阵，包括：

38、将所述关系矩阵与预设的注意力增强偏移矩阵进行元素相加，并矩阵元素映射至预设区间后，与v特征矩阵相乘获取形状为(a×a，2，b)的中间结果矩阵，其中，所述注意力增强偏移矩阵用于强化所述关系矩阵中各个向量之间的位置信息。

39、进一步地，根据所述输出特征信息，确定所述语音数据对应的情绪类别，包括：

40、对所述输出特征信息中进行全局平均池化处理，获得输出特征向量，并根据所述输出特征向量，确定所述语音数据对应的情绪类别。

41、本技术的一些实施例还提供了一种语音情绪检测设备，其中，该设备包括用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发所述设备执行前述的语音情绪检测方法。

42、本技术的另一些实施例还提供了一种计算机可读介质，其上存储有计算机程序指令，所述计算机程序指令可被处理器执行以实现所述的语音情绪检测方法。

43、相较于现有技术，本技术实施例提供的一种语音情绪检测方案中，该方案对语音数据进行特征抽取，获取输入特征信息，然后对所述输入特征信息多次编码处理，生成输出特征信息，其中，所述编码处理包括：对所述输入特征信息进行分块，计算每个块内以及块间的注意力信息，并根据所述输入特征信息和所述注意力信息生成输出特征信息，由于所述输出特征信息中还包含了每个块内以及块间的注意力信息，能够更好地表示所述语音数据中的特征，因此根据所述输出特征信息，能够更加准确地确定所述语音数据对应的情绪类别。