技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种动态提取语音情感特征的方法及装置  >  正文

一种动态提取语音情感特征的方法及装置

  • 国知局
  • 2024-06-21 10:39:11

本发明涉及语音情感特征融合信息处理及机器学习,尤其涉及一种动态提取语音情感特征的方法及装置。

背景技术:

1、语音情感特征提取是一项关键任务,旨在从语音数据中捕获有意义的信息,以便进行更有效的分析、建模和预测。传统的提取语音情感特征的方式可分为两类,一类是人工提取特征,另一类是使用深度学习对原始数据提取深层特征。由于不同的语音数据之间可能存在复杂的动态依赖关系,且难以被捕获和学习,因此传统的语音情感特征提取方式仍然存在一些缺陷和不足:

2、(1)人为特征工程:传统的语音情感特征提取方法通常需要依赖领域专家进行人为构建特征。这涉及对数据的深入理解和经验,并且需要耗费大量时间和精力。因此,特征工程是一项繁琐的任务,并且在处理新数据集时需要重新进行。

3、(2)维度灾难:语音情感数据通常具有高维度,即使使用常规的统计特征提取方法也会导致特征空间的爆炸性增长。高维度数据会增加计算复杂性,并可能导致模型过拟合或性能下降。因此,在特征选择和降维方面仍然存在挑战。

4、(3)特征表示限制:不同的语音情感数据集可能具有不同的特征表示需求。常规的特征提取方法可能无法捕捉到所有重要的特征信息,导致特征表示的局限性。因此,需要灵活的特征提取方法来适应不同数据集的特点。

5、(4)上下文信息丢失:某些语音情感数据中存在着丰富的上下文信息,如长期依赖、周期性、趋势等。传统的特征提取方法可能无法捕捉到这些上下文信息,导致模型性能的损失。因此,需要更高级的特征提取技术来有效地保留和利用上下文信息。

6、(5)缺乏自适应性:传统的语音情感特征提取方法通常是静态的,即特征提取过程固定且与时间无关。然而,语音情感数据经常具有动态性,其中特征的重要性和分布可能随时间变化。因此,缺乏自适应性可能导致特征提取方法在不同时间段的数据上表现不佳。

技术实现思路

1、为解决上述现有技术的缺陷,本发明提供了一种动态提取语音情感特征的方法及装置,该方法及装置可以实现动态的提取语音数据每一个时间步的特征,同时还可以提取语音数据的全局特征,改善了语音情感特征提取的准确性、效率和适应性。

2、第一方面,本发明实施例提供的一种动态提取语音情感特征的方法,包括:

3、获取语音数据的正向输入数据和反向输入数据;

4、将所述正向输入数据和反向输入数据分别导入n个帧级特征编码器进行编码,分别输出n个正向语音情感特征和n个反向语音情感特征,其中,n个所述的帧级特征编码器的一维时间序列卷积单元的膨胀率不同;

5、将n个所述正向语音情感特征和n个所述反向语音情感特征导入全局特征编码器进行如下编码运算:

6、分别将n个正向语音情感特征和n个反向语音情感特征对应元素相加,获得n个融合语音情感特征;

7、将n个融合语音情感特征分别进行全局平均池化操作,获得全局平均池化后的融合语音情感特征;

8、将n个全局平均池化后的融合语音情感特征进行拼接,获得最终的高级语音情感特征。

9、优选的,其中,每一个帧级特征编码器中的一维时间序列卷积的卷积核大小均为2,n个帧级特征编码器中的一维时间序列卷积的膨胀率分别设为20 、21 、……、2n-1,n的最大值取决于语音数据的时间步的数量,假设时间步的数量为t,原则上n最大值的取值服从2n≤t。

10、优选的,其中,所述获取语音数据的正向输入数据和反向输入数据包括:

11、将语音数据作为正向原始数据,计算正向原始数据的一阶导数和二阶导数,将正向原始数据及其一阶导数和二阶导数拼接成正向输入数据;

12、将语音数据按照时间维度进行反转,作为反向原始数据,计算所述反向原始数据的一阶导数和二阶导数,将反向原始数据及其一阶导数和二阶导数拼接成反向输入数据。

13、第二方面,本发明的实施例提供了一种动态提取语音情感特征的装置,包括:

14、获取模块,用于获取语音数据的正向输入数据和反向输入数据;

15、帧级特征编码器,其配置为n个,用于分别对所述正向输入数据和反向输入数据分别进行编码,分别输出n个正向语音情感特征和n个反向语音情感特征,其中所述n个所述的帧级特征编码器的一维时间序列卷积单元的膨胀率不同;

16、全局特征编码器,用于对导入的n个所述正向语音情感特征和n个所述反向语音情感特征进行如下编码运算:

17、分别将n个正向语音情感特征和n个反向语音情感特征对应元素相加,获得n个融合语音情感特征;

18、将n个融合语音情感特征分别进行全局平均池化操作,获得全局平均池化后的融合语音情感特征;

19、将n个全局平均池化后的融合语音情感特征进行拼接,获得最终的高级语音情感特征。

20、优选的,其中,每一个帧级特征编码器中的一维时间序列卷积的卷积核大小均为2,但是膨胀率不同,n个帧级特征编码器中的一维时间序列卷积的膨胀率分别设为20 、21、……、2n-1,n的最大值取决于语音数据的时间步的数量,假设时间步的数量为t,原则上n最大值的取值服从2n≤t。

21、优选的,其中,所述装置还包括拼接模块,所述拼接模块包括:

22、第一拼接模块,用于将语音数据作为正向原始数据,计算正向原始数据的一阶导数和二阶导数,将正向原始数据及其一阶导数和二阶导数拼接成正向输入数据;

23、第二拼接模块,用于将语音数据按照时间维度进行反转,作为反向原始数据,计算反向原始数据的一阶导数和二阶导数,将反向原始数据及其一阶导数和二阶导数拼接成反向输入数据。

24、优选的,其中,所述帧级特征编码器包括:

25、帧级动态融合单元,用于提取帧级融合特征;

26、一维时间序列卷积单元,分别对所述帧级融合特征进行一维时间序列卷积运算,用于获取语音数据的帧与帧之间的跨尺度信息;

27、归一化和激活单元,用于对所述跨尺度信息数据进行归一化和激活处理;

28、注意力单元,用于将所述归一化和激活处理后的数据特征进行注意力权重分配,并作用于导入的语音数据,输出情感特征。

29、优选的,其中,所述帧级动态融合单元包括:

30、分类单元,用于将输入数据导入稠密层进行计算,得到第一计算结果;

31、激活单元,用于将稠密层导出的所述第一计算结果分别进行线性激活和sigmoid激活;

32、乘法单元,用于将两种不同激活后的数据进行逐元素相乘运算;

33、计算单元,用于将逐元素相乘的数据失活后,再导入稠密层进行计算,得到第二计算结果;

34、输出单元,用于将所述第二计算结果数据与输入数据相加,输出帧级融合特征。

35、优选的,其中,所述全局特征编码器包括:

36、接收单元,用于接收语音数据的两个时间方向的输入数据分别编码后输出的正向语音情感输出特征和反向语音情感输出特征;

37、特征融合单元,用于对所述正向语音情感输出特征和所述反向语音情感输出特征对应元素进行相加,获得融合语音情感特征;

38、全局平均池化单元,用于将所述融合语音情感特征进行全局平均池化操作,获得全局平均池化后的融合语音情感特征;

39、拼接单元,用于将所述全局平均池化后的融合语音情感特征进行拼接,获得最终的高级语音情感特征。

40、第三方面,本发明的实施例提供了一种电子设备,其包括:至少一个处理单元,以及与所述至少一个处理单元通信连接的存储单元,其中,所述存储单元存储有可被所述至少一个处理单元执行的指令,所述指令被所述至少一个处理单元执行,以使所述至少一个处理单元能够执行以实现第一方面实施例所述的一种动态提取语音情感特征的方法。

41、与现有技术相比,本发明取得了以下技术效果:

42、1、该方法及装置可以实现动态的提取语音数据每一个时间步的特征,同时还可以提取语音数据的全局特征;

43、2、改善了现有技术中语音情感特征提取的准确性、效率和适应性;

44、3、设置多个帧级特征编码器,可以很好的学习到语音数据的跨尺度信息;

45、4、帧级特征编码器中的帧级动态融合单元,可以很好的学习到语音数据的帧级融合特征;

46、5、在模型中使用帧级动态融合单元不仅可以减少模型的大小、降低计算复杂度、计算速度快,还能提取出非常丰富的帧级情感特征。

本文地址:https://www.jishuxx.com/zhuanli/20240618/20947.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。