技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种基于幅度谱和复数谱的双阶段语音降噪方法、装置、计算机设备、计算机可读存储介质及计算机程序产品与流程 > 正文

一种基于幅度谱和复数谱的双阶段语音降噪方法、装置、计算机设备、计算机可读存储介质及计算机程序产品与流程

国知局
2024-10-21 14:39:55

本技术涉及语音处理，尤其是涉及一种基于幅度谱和复数谱的双阶段语音降噪方法、装置、计算机设备、计算机可读存储介质及计算机程序产品。

背景技术：

1、现有的基于幅度谱的深度学习模型，通过模型估计出幅度谱掩码，并结合语音传输和接收设备将幅度谱掩码应用到原始语音中，对原始带噪语音进行噪声抑制和还原人声。

2、再者，由于系统在合成最终的降噪语音时，还是使用了原始带噪语音的相位信息，因此该方法在处理低信噪比或者多种类型噪声混合的带噪语音时，往往无法提供令人满意的降噪效果。

3、针对上述中的相关技术，发明人发现现有的语音降噪方法在处理低信噪比或者多种类型噪声混合的带噪语音时，存在有仅关注幅度谱估计且在重构过程使用原始带噪语音的相位信息而导致降噪精度低的问题。

技术实现思路

1、为了提升处理低信噪比或者多种类型噪声混合的带噪语音时的降噪精度，本技术提供了一种基于幅度谱和复数谱的双阶段语音降噪方法、装置、计算机设备、计算机可读存储介质及计算机程序产品。

2、第一方面，本技术提供一种基于幅度谱和复数谱的双阶段语音降噪方法。

3、本技术是通过以下技术方案得以实现的：

4、一种基于幅度谱和复数谱的双阶段语音降噪方法，包括以下步骤，

5、获取原始语音信号；

6、对所述原始语音信号执行预处理操作，得到位于预设范围内的初始语音信号；

7、按预设间隔划分位于预设范围内的初始语音信号，得到若干时帧；

8、采用短时傅里叶变换方法将所述时帧分解为不同频率分量，确定各不同频率分量的幅度、相位信息和各不同频率分量的复数谱；

9、利用各不同频率分量的幅度进行噪声估计，得到幅度谱掩码，并将所述幅度谱掩码应用到所述原始语音信号中，对原始带噪语音进行初步的噪声抑制，得到初步降噪的幅度谱；

10、基于初步降噪的幅度谱，结合所述相位信息，转化得到初步降噪的复数谱；

11、利用各不同频率分量的复数谱，确定原始带噪语音的复数谱；

12、将原始带噪语音的复数谱和初步降噪的复数谱进行拼接，得到第一复数谱；

13、基于所述第一复数谱进行噪声估计，得到第二复数谱；

14、将所述第二复数谱和初步降噪的复数谱进行拼接，得到目标语音信号的复数谱，

15、并通过短时傅里叶逆变换方法将所述目标语音信号的复数谱转化为时域信号输出。

16、本技术在一较佳示例中可以进一步配置为：所述利用各不同频率分量的幅度进行噪声估计，得到幅度谱掩码的步骤包括，

17、将各不同频率分量的非直流部分作为n层幅度谱的编码器的输入，再依次经过m层幅度谱的gru和n层幅度谱的解码器，输出与输入量具有相同大小的幅度谱掩码；

18、其中，m层幅度谱的gru的输入节点数为encodern的输出大小；n层幅度谱的解码器的输入为幅度谱的decoderi+1的输出与幅度谱的encoderi+1的输出的残差之和。

19、本技术在一较佳示例中可以进一步配置为：所述利用各不同频率分量的幅度进行噪声估计，得到幅度谱掩码的步骤包括，

20、将各不同频率分量的非直流部分作为4层幅度谱的编码器的输入，再依次经过1层幅度谱的gru和4层幅度谱的解码器，输出fft_n/2大小的幅度谱掩码，其中，fft_n表示短时傅里叶变换的傅里叶变换点数。

21、本技术在一较佳示例中可以进一步配置为：基于所述第一复数谱进行噪声估计，得到第二复数谱的步骤包括，

22、将所述第一复数谱，经过n层复数谱的编码器、m层复数谱的gru和n层复数谱的解码器的处理，输出与输入具有相同大小的第二复数谱；

23、其中，m层复数谱的gru的输入节点数为encodern的输出大小；n层复数谱的解码器的输入为复数谱的decoderi+1的输出与复数谱的encoderi+1的输出的残差之和。

24、本技术在一较佳示例中可以进一步配置为：所述编码器的结构包括依次串联的5×3深度卷积层、prelu激活函数层、1×1点卷积层、batchnorm2d层和prelu激活函数层。

25、本技术在一较佳示例中可以进一步配置为：所述解码器的结构包括依次串联的5×3深度反卷积层、prelu激活函数层、1×1点反卷积层、batchnorm2d层和prelu激活函数层。

26、第二方面，本技术提供一种基于幅度谱和复数谱的双阶段语音降噪装置。

27、本技术是通过以下技术方案得以实现的：

28、一种基于幅度谱和复数谱的双阶段语音降噪装置，包括，

29、原始语音获取模块，用于获取原始语音信号；

30、预处理模块，用于对所述原始语音信号执行预处理操作，得到位于预设范围内的初始语音信号；

31、划分模块，用于按预设间隔划分位于预设范围内的初始语音信号，得到若干时帧；

32、短时傅里叶变换模块，用于采用短时傅里叶变换方法将所述时帧分解为不同频率分量，确定各不同频率分量的幅度、相位信息和各不同频率分量的复数谱；

33、幅度谱估计模块，用于利用各不同频率分量的幅度进行噪声估计，得到幅度谱掩码，并将所述幅度谱掩码应用到所述原始语音信号中，对原始带噪语音进行初步的噪声抑制，得到初步降噪的幅度谱；

34、初步降噪复数谱模块，用于基于初步降噪的幅度谱，结合所述相位信息，转化得到初步降噪的复数谱；

35、原始复数谱模块，用于利用各不同频率分量的复数谱，确定原始带噪语音的复数谱；

36、优化模块，用于将原始带噪语音的复数谱和初步降噪的复数谱进行拼接，得到第一复数谱；

37、复数谱估计模块，基于所述第一复数谱进行噪声估计，得到第二复数谱；

38、降噪模块，用于将所述第二复数谱和初步降噪的复数谱进行拼接，得到目标语音信号的复数谱，并通过短时傅里叶逆变换方法将所述目标语音信号的复数谱转化为时域信号输出。

39、第三方面，本技术提供一种计算机设备。

40、本技术是通过以下技术方案得以实现的：

41、一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任意一种基于幅度谱和复数谱的双阶段语音降噪方法的步骤。

42、第四方面，本技术提供一种计算机可读存储介质。

43、本技术是通过以下技术方案得以实现的：

44、一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一种基于幅度谱和复数谱的双阶段语音降噪方法的步骤。

45、第五方面，本技术提供一种计算机程序产品。

46、本技术是通过以下技术方案得以实现的：

47、一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现上述任意一种基于幅度谱和复数谱的双阶段语音降噪方法的步骤。

48、综上所述，与现有技术相比，本技术提供的技术方案带来的有益效果至少包括：

49、获取原始语音信号，对原始语音信号执行预处理操作，以确保预处理后的初始语音信号在适当的范围内；按预设间隔划分处理后的初始语音信号，得到若干时帧，以便后续进行语音降噪处理；采用短时傅里叶变换方法将时帧分解为不同频率分量，确定各不同频率分量的幅度、相位信息和各不同频率分量的复数谱，以反映信号的局部特性；利用各不同频率分量的幅度进行噪声估计，得到幅度谱掩码，并将所述幅度谱掩码应用到所述原始语音信号中，对原始带噪语音进行初步的噪声抑制，得到初步降噪的幅度谱，以初步滤除语音信号中的噪音；基于初步降噪的幅度谱，结合相位信息，转化得到初步降噪的复数谱，以反映语音信号在不同频率上的相位信息；利用各不同频率分量的复数谱，确定原始带噪语音的复数谱，以提供原始语音信号在不同频率上的相位信息；将原始带噪语音的复数谱和初步降噪的复数谱进行拼接，得到第一复数谱，以准确地反映语音信号在不同频率上的相位信息；利用第一复数谱进行噪声估计，得到第二复数谱，借助初步降噪的复数谱给噪声估计提供参考指导，在改善降噪效果的同时，提高估计的效率；将第二复数谱和初步降噪的复数谱进行拼接，得到目标语音信号的复数谱，并通过短时傅里叶逆变换方法将目标语音信号的复数谱转化为时域信号输出，实现在复杂的环境噪声下提高降噪精度，提升低信噪比或多种类型噪声混合场景的带噪语音的降噪鲁棒性，具有更高的适应性和降噪性能，能够更好地处理各种复杂的环境噪声，并且降噪后语音的人声还原度更高，听感更好，从而提高降噪语音在语音通信、音频处理和语音识别等领域的应用效果。