技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音信号增强方法、装置、电子设备和存储介质与流程  >  正文

语音信号增强方法、装置、电子设备和存储介质与流程

  • 国知局
  • 2024-06-21 11:44:25

本公开涉及语音处理,尤其涉及一种语音信号增强方法、装置、电子设备、存储介质和计算机程序产品。

背景技术:

1、随着语音处理技术的发展,在会议室中,一般都是通过麦克风阵列采集语音信号。为了提高语音信号的质量,需要对语音信号进行增强处理。

2、相关技术中,目前的语音信号增强方法,主要是通过全深度学习网络对麦克风阵列采集的每个语音信号的频谱信息进行一系列处理,得到每个语音信号的复数掩蔽信息(比如复数掩蔽值),再结合每个语音信号的频谱信息,得到增强语音信号。但是,整个网络需要对每个语音信号的频谱信息都进行一系列处理,且输出每个语音信号的复数掩蔽信息,同时在得到最终的增强语音信号时,还需要结合每个语音信号的频谱信息,导致语音信号增强时的计算复杂度较高。

技术实现思路

1、本公开提供一种语音信号增强方法、装置、电子设备、存储介质和计算机程序产品,以至少解决相关技术中语音信号增强时的计算复杂度较高的问题。本公开的技术方案如下:

2、根据本公开实施例的第一方面,提供一种语音信号增强方法,包括:

3、获取语音信号集合、所述语音信号集合对应的参考信号和所述语音信号集合对应的初始增强语音信号;

4、将所述语音信号集合中每个语音信号的频谱信息、所述参考信号的频谱信息和所述初始增强语音信号的频谱信息,输入训练完成的第一语音增强模型,得到目标频谱信息;所述目标频谱信息的数量小于输入至所述第一语音增强模型的频谱信息的数量;

5、将所述目标频谱信息中的目标幅度谱,输入训练完成的第二语音增强模型,得到语音掩蔽信息;

6、根据所述语音掩蔽信息,对所述语音信号集合中目标语音信号的频谱信息进行变换处理,得到所述语音信号集合对应的目标增强语音信号。

7、在一示例性实施例中,所述将所述目标频谱信息中的目标幅度谱,输入训练完成的第二语音增强模型,得到语音掩蔽信息,包括:

8、将所述目标幅度谱输入训练完成的第二语音增强模型中进行第一特征提取处理,得到所述目标幅度谱的初始音频特征;

9、对所述初始音频特征进行第二特征提取处理,得到所述目标幅度谱的目标音频特征;

10、对所述目标音频特征进行分类处理,得到所述语音掩蔽信息。

11、在一示例性实施例中,所述训练完成的第二语音增强模型包括语音分支网络和干扰分支网络;

12、所述将所述目标幅度谱输入训练完成的第二语音增强模型中进行第一特征提取处理,得到所述目标幅度谱的初始音频特征,包括:

13、将所述目标幅度谱输入所述语音分支网络中进行特征提取处理,得到所述目标幅度谱的第一音频特征,以及将所述目标幅度谱输入所述干扰分支网络中进行特征提取处理,得到所述目标幅度谱的第二音频特征;

14、将所述第一音频特征和所述第二音频特征进行融合处理,得到第一融合音频特征;

15、将所述第一融合音频特征输入所述语音分支网络中进行特征提取处理,得到所述目标幅度谱的初始音频特征。

16、在一示例性实施例中,所述对所述初始音频特征进行第二特征提取处理,得到所述目标幅度谱的目标音频特征,包括:

17、将所述初始音频特征输入所述语音分支网络中进行特征提取处理,得到所述目标幅度谱的第三音频特征,以及将所述第一融合音频特征输入所述干扰分支网络中进行特征提取处理,得到所述目标幅度谱的第四音频特征;

18、将所述第三音频特征和所述第四音频特征进行融合处理,得到第二融合音频特征;

19、将所述第二融合音频特征输入所述语音分支网络中进行特征提取处理,得到所述目标幅度谱的目标音频特征。

20、在一示例性实施例中,所述根据所述语音掩蔽信息,对所述语音信号集合中目标语音信号的频谱信息进行变换处理,得到所述语音信号集合对应的目标增强语音信号,包括:

21、对所述语音信号集合中目标语音信号的频谱信息和所述语音掩蔽信息进行融合处理,得到所述目标语音信号的融合后频谱信息;

22、对所述融合后频谱信息进行变换处理,得到所述语音信号集合对应的目标增强语音信号。

23、在一示例性实施例中,所述初始增强语音信号通过下述方式得到:

24、将所述语音信号集合中每个语音信号和所述参考信号,输入训练完成的第三语音增强模型,得到所述初始增强语音信号;

25、所述目标频谱信息中的目标幅度谱通过下述方式得到:

26、提取出所述目标频谱信息中的初始幅度谱;

27、对所述初始幅度谱进行转换处理,得到所述目标幅度谱。

28、在一示例性实施例中,所述训练完成的第一语音增强模型和所述训练完成的第二语音增强模型通过下述方式训练得到:

29、获取样本语音信号集合、所述样本语音信号集合对应的样本参考信号和所述样本语音信号集合对应的样本初始增强语音信号;

30、将所述样本语音信号集合中每个样本语音信号的频谱信息、所述样本参考信号的频谱信息和所述样本初始增强语音信号的频谱信息,输入待训练的第一语音增强模型,得到样本目标频谱信息;

31、将所述样本目标频谱信息中的样本目标幅度谱,输入待训练的第二语音增强模型,得到预测语音掩蔽信息和预测干扰掩蔽信息;

32、根据所述预测语音掩蔽信息,对所述样本语音信号集合中样本目标语音信号的频谱信息进行变换处理,得到所述样本语音信号集合对应的预测增强语音信号,以及根据所述预测干扰掩蔽信息,对所述样本目标语音信号的频谱信息进行变换处理,得到所述样本语音信号集合对应的预测干扰语音信号;

33、根据所述预测增强语音信号和所述样本语音信号集合对应的干净语音信号之间的差异,以及所述预测干扰语音信号和所述样本语音信号集合对应的干扰语音信号之间的差异,对所述待训练的第一语音增强模型和所述待训练的第二语音增强模型进行联合训练,得到所述训练完成的第一语音增强模型和所述训练完成的第二语音增强模型。

34、根据本公开实施例的第二方面,提供一种语音信号增强装置,包括:

35、信号获取单元,被配置为执行获取语音信号集合、所述语音信号集合对应的参考信号和所述语音信号集合对应的初始增强语音信号;

36、第一增强单元,被配置为执行将所述语音信号集合中每个语音信号的频谱信息、所述参考信号的频谱信息和所述初始增强语音信号的频谱信息,输入训练完成的第一语音增强模型,得到目标频谱信息;所述目标频谱信息的数量小于输入至所述第一语音增强模型的频谱信息的数量;

37、第二增强单元,被配置为执行将所述目标频谱信息中的目标幅度谱,输入训练完成的第二语音增强模型,得到语音掩蔽信息;

38、变换处理单元,被配置为执行根据所述语音掩蔽信息,对所述语音信号集合中目标语音信号的频谱信息进行变换处理,得到所述语音信号集合对应的目标增强语音信号。

39、在一示例性实施例中,所述第二增强单元,还被配置为执行将所述目标幅度谱输入训练完成的第二语音增强模型中进行第一特征提取处理,得到所述目标幅度谱的初始音频特征;对所述初始音频特征进行第二特征提取处理,得到所述目标幅度谱的目标音频特征;对所述目标音频特征进行分类处理,得到所述语音掩蔽信息。

40、在一示例性实施例中,所述训练完成的第二语音增强模型包括语音分支网络和干扰分支网络;

41、所述第二增强单元,还被配置为执行将所述目标幅度谱输入所述语音分支网络中进行特征提取处理,得到所述目标幅度谱的第一音频特征,以及将所述目标幅度谱输入所述干扰分支网络中进行特征提取处理,得到所述目标幅度谱的第二音频特征;将所述第一音频特征和所述第二音频特征进行融合处理,得到第一融合音频特征;将所述第一融合音频特征输入所述语音分支网络中进行特征提取处理,得到所述目标幅度谱的初始音频特征。

42、在一示例性实施例中,所述第二增强单元,还被配置为执行将所述初始音频特征输入所述语音分支网络中进行特征提取处理,得到所述目标幅度谱的第三音频特征,以及将所述第一融合音频特征输入所述干扰分支网络中进行特征提取处理,得到所述目标幅度谱的第四音频特征;将所述第三音频特征和所述第四音频特征进行融合处理,得到第二融合音频特征;将所述第二融合音频特征输入所述语音分支网络中进行特征提取处理,得到所述目标幅度谱的目标音频特征。

43、在一示例性实施例中,所述变换处理单元,还被配置为执行对所述语音信号集合中目标语音信号的频谱信息和所述语音掩蔽信息进行融合处理,得到所述目标语音信号的融合后频谱信息;对所述融合后频谱信息进行变换处理,得到所述语音信号集合对应的目标增强语音信号。

44、在一示例性实施例中,所述装置还包括初始增强单元,被配置为执行将所述语音信号集合中每个语音信号和所述参考信号,输入训练完成的第三语音增强模型,得到所述初始增强语音信号;

45、所述装置还包括转换处理单元,被配置为执行提取出所述目标频谱信息中的初始幅度谱;对所述初始幅度谱进行转换处理,得到所述目标幅度谱。

46、在一示例性实施例中,所述装置还包括模型训练单元,被配置为执行获取样本语音信号集合、所述样本语音信号集合对应的样本参考信号和所述样本语音信号集合对应的样本初始增强语音信号;将所述样本语音信号集合中每个样本语音信号的频谱信息、所述样本参考信号的频谱信息和所述样本初始增强语音信号的频谱信息,输入待训练的第一语音增强模型,得到样本目标频谱信息;将所述样本目标频谱信息中的样本目标幅度谱,输入待训练的第二语音增强模型,得到预测语音掩蔽信息和预测干扰掩蔽信息;根据所述预测语音掩蔽信息,对所述样本语音信号集合中样本目标语音信号的频谱信息进行变换处理,得到所述样本语音信号集合对应的预测增强语音信号,以及根据所述预测干扰掩蔽信息,对所述样本目标语音信号的频谱信息进行变换处理,得到所述样本语音信号集合对应的预测干扰语音信号;根据所述预测增强语音信号和所述样本语音信号集合对应的干净语音信号之间的差异,以及所述预测干扰语音信号和所述样本语音信号集合对应的干扰语音信号之间的差异,对所述待训练的第一语音增强模型和所述待训练的第二语音增强模型进行联合训练,得到所述训练完成的第一语音增强模型和所述训练完成的第二语音增强模型。

47、根据本公开实施例的第三方面,提供一种电子设备,包括:

48、处理器;

49、用于存储所述处理器可执行指令的存储器;

50、其中,所述处理器被配置为执行所述指令,以实现如上述任一项所述的语音信号增强方法。

51、根据本公开实施例的第四方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如上述任一项所述的语音信号增强方法。

52、根据本公开实施例的第五方面,提供一种计算机程序产品,所述计算机程序产品中包括指令,所述指令被电子设备的处理器执行时,使得所述电子设备能够执行如上述任一项所述的语音信号增强方法。

53、本公开的实施例提供的技术方案至少带来以下有益效果:

54、先获取语音信号集合、语音信号集合对应的参考信号和语音信号集合对应的初始增强语音信号,然后将语音信号集合中每个语音信号的频谱信息、参考信号的频谱信息和初始增强语音信号的频谱信息,输入训练完成的第一语音增强模型,得到目标频谱信息;目标频谱信息的数量小于输入至第一语音增强模型的频谱信息的数量;接着将目标频谱信息中的目标幅度谱,输入训练完成的第二语音增强模型,得到语音掩蔽信息;最后根据语音掩蔽信息,对语音信号集合中目标语音信号的频谱信息进行变换处理,得到语音信号集合对应的目标增强语音信号。这样,在进行语音信号增强时,先利用第一语音增强模型输出数量减少的目标频谱信息,再利用第二语音增强模型,对目标频谱信息中的目标幅度谱进行处理,得到语音掩蔽信息,即先输出数量较少的目标频谱信息,再对目标频谱信息中的目标幅度谱进行处理,而无需对每个语音信号的频谱信息都进行一系列处理,也无需输出每个语音信号的复数掩蔽信息,从而简化了语音信号增强过程,进而降低了语音信号增强时的计算复杂度。同时,在得到目标增强语音信号时,仅需要利用输出的语音掩蔽信息和语音信号集合中目标语音信号的频谱信息,而无需考虑每个语音信号的复数掩蔽信息和频谱信息,有利于进一步降低语音信号增强时的计算复杂度。

55、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

本文地址:https://www.jishuxx.com/zhuanli/20240618/23257.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。