技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音增强方法及系统与流程  >  正文

一种语音增强方法及系统与流程

  • 国知局
  • 2024-08-22 15:00:29

本发明涉及语音增强,尤其是涉及一种语音增强方法及系统。

背景技术:

1、语音增强是指从带有噪声的语音中提取尽可能纯净的原始语音,以改善语音质量,减少由噪声带来的负面影响。语音增强在语音识别、语音编码等领域有着重要的应用,是语音交互系统中最前端的预处理模块。

2、目前,对于语音增强通常采用频域分析的方式,即对语音信号进行快速傅里叶变换(fft)将时域信号转换为频域信号,对频域信号进行分析和处理,例如通过滤波器对特定频段的信号进行滤除,以便提高语音信号的质量。然而,对特定频段的信号进行滤除的方法,由于对噪声信号的特性进行了限制性假设,在处理一些非平稳噪声时,性能会显著下降,导致噪声残留的增强和语音失真的加重。如何提高语音增强的性能目前亟待解决的问题。

技术实现思路

1、为了提高语音增强的性能,本技术提供了一种语音增强方法及系统。

2、第一方面,本技术提供的一种语音增强方法,采用如下的技术方案:

3、一种语音增强方法,包括:

4、构建语音增强网络;所述语音增强网络包括依次连接的编码器、音噪分离器以及解码器;

5、获取待处理的音频数据,并将音频数据输入至语音增强网络中,通过编码器从音频数据中提取不同维度的l个时域特征;通过音噪分离器对l个时域特征分别进行提取,并将提取结果映射到预设特征集合中;通过解码器对维度最高的时域特征和对应的预设特征集合中的每个提取结果进行融合处理,以得到去噪增强语音和/或背景音。

6、通过采用上述技术方案,先编码器从音频数据中精准地提取出l个时域特征,时域特征涵盖了音频的多维度信息,再通过音噪分离器对这些时域特征进行分离和提取,提取的特征被映射到预设的特征集合中,最后解码器对最高维度的时域特征和集合中的对应提取结果进行融合,从而得到去噪后的增强语音和/或背景音,通过编码器、音噪分离器和解码器实现了对带噪语音的有效处理,使得在非稳定噪声环境中,语音增强网络能够快速适应噪声特性的变化,实时进行噪声抑制和语音增强,从而提升了语音增强的稳定性和性能。

7、可选的,所述编码器包括l个依次连接的第一卷积模块,每个第一卷积模块包括一维卷积层、归一化层、激活函数层以及下采样池化层;

8、首个所述第一卷积模块用于输入音频数据,每个第一卷积模块的输出作为与其连接的下一个第一卷积模块的输入,每个第一卷积模块输出一个时域特征,且所述每个第一卷积模块中的一维卷积层的通道数从编码器的输入端到编码器的输出端依次递增,得到维度依次递增的时域特征;

9、每个所述第一卷积模块的输出端还与音噪分离器连接,以将l个时域特征输出至音噪分离器。

10、通过采用上述技术方案,通过在编码器中设置一维卷积层、归一化层、激活函数层以及下采样池化层,实现了对音频数据的初步特征提取,且每个第一卷积模块的通道数从输入端到输出端依次递增,以提取到不同维度的时域特征,从而使得编码器能够从音频数据中捕获到更加丰富和多样的特征信息。

11、可选的,所述音噪分离器包括l个分离模块,每个分离模块包括若干个依次连接的第二卷积模块和与最后一个第二卷积模块输出端连接的至少一个注意力模块;其中,每个所述注意力模块对应一个预设特征集合;所述预设特征集合包括语音特征集合和/或噪声特征集合;

12、所述每个分离模块中的首个第二卷积模块的输入端对应连接第一卷积模块的输出端以获取时域特征,所述第二卷积模块用于对时域特征进行提取,得到提取结果;

13、每个所述注意力模块将提取结果映射到对应的预设特征集合中;

14、其中,每个所述第二卷积模块包括一维卷积层、归一化层以及激活函数。

15、通过采用上述技术方案,多个第二卷积模块分别处理输入的时域特征,以得到提取结果,再通过注意力模块,使得提取结果能够精准地映射到预设的语音特征集合或噪声特征集合中,实现了在非稳定噪声环境下对语音和噪声进行分离的效果。

16、可选的,所述注意力模块包括自注意力层或多头自注意力层。

17、通过采用上述技术方案,自注意力层是相对于多头自注意力层更加简单,可根据实际的计算资源灵活选择。

18、可选的,所述解码器包括语音解码器和/或噪声解码器,所述语音解码器和噪声解码器均包括依次连接的l个第三卷积模块和与尾部的所述第三卷积模块连接的输出模块;每个所述第三卷积模块与注意力模块连接,且首个第三卷积模块还与编码器连接,以获取维度最高的时域特征;

19、首个第三卷积模块对维度最高的时域特征和对应的预设特征集合中的提取结果进行融合相加得到融合特征,并将融合特征输出至与其连接的下一个第三卷积模块;

20、剩余的每个所述第三卷积模块均将前一个第三卷积模块输出的融合特征和对应的预设特征集合中的提取结果进行融合相加,并将尾部的所述第三卷积模块输出的融合特征输出至输出模块,以使输出模块输出去噪增强语音和/或背景音。

21、通过采用上述技术方案,首先从编码器中获取维度最高的时域特征,并利用注意力模块提取更精细的特征信息,首个第三卷积模块将维度最高的时域特征和对应的预设特征集合中的提取结果进行融合相加得到具代表性的融合特征,再利用每个第三卷积模块继续将前一模块输出的融合特征与预设特征集合中的提取结果进行融合,进一步增强特征表达,最后利用输出模块将这些融合特征转换为清晰的去噪增强语音和/或背景音,实现了解码器对语音和噪声的还原效果。

22、可选的,所述第三卷积模块包括依次连接的通道融合层、上采样层、一维卷积层、归一化层和激活函数层;每个所述第三卷积模块中的一维卷积层的通道数从解码器的输入端到输出端依次递减;所述输出模块包括一维卷积层、归一化层和激活函数层,所述输出模块中的一维卷积层的通道数为1。

23、通过采用上述技术方案,第三卷积模块中的通道融合层、上采样层、一维卷积层、归一化层和激活函数层依次连接,使得特征提取和维度变换得以正常进行,每个第三卷积模块中的一维卷积层的通道数从解码器的输入端到输出端依次递减,有助于逐步降低特征维度,适应输出模块的需求,最终利用输出模块输出具有与输入的音频数据相同的维度。

24、可选的,所述构建语音增强网络包括对预设的神经网络模型进行训练以得到所述语音增强网络的训练步骤;

25、所述训练步骤包括:

26、获取训练数据集;所述训练数据集包括带噪原始语音信号、理想无噪语音信号和理想噪声;

27、将带噪原始语音信号输入编码器,通过编码器从音频数据中提取不同维度的l个时域特征;

28、通过音噪分离器对l个时域特征分别进行提取,并将提取结果映射到预设特征集合中;其中,所述预设特征集合还包括噪声特征集合;

29、通过第一解码器对维度最高的时域特征和语音特征集合中的每个提取结果进行融合处理,得到实际去噪语音;

30、通过第二解码器对维度最高的时域特征和噪声特征集合中的每个提取结果进行融合处理,得到实际噪声;

31、根据实际去噪语音和理想无噪语音信号的比对结果以及实际噪声和理想噪声的比对结果,对预设的神经网络模型的模型参数进行迭代更新,以得到所述语音增强网络。

32、通过采用上述技术方案,从训练数据集中获取带噪原始语音信号、理想无噪语音信号和理想噪声,将带噪原始语音信号输入到编码器中,经过编码器的处理,从音频数据中成功提取了不同维度的l个时域特征,音噪分离器对这些特征进行进一步处理,并映射到预设特征集合中,再利用第一解码器对维度最高的时域特征与语音特征集合中的提取结果进行融合处理,生成了实际去噪语音,同时利用第二解码器生成实际噪声,通过实际去噪语音和实际噪声与对应的理想信号进行了比对,用于更新神经网络模型的参数,经过多次迭代更新,即能够得到性能更好的语音增强网络。

33、第二方面,本技术提供一种语音增强系统,采用如下技术方案:

34、一种语音增强系统,包括:

35、网络构建单元,用于构建语音增强网络;所述语音增强网络包括依次连接的编码器、音噪分离器以及解码器;

36、语音增强单元,用于将待处理的音频数据输入至语音增强网络中,通过编码器从音频数据中提取不同维度的l个时域特征;通过音噪分离器对l个时域特征分别进行提取,并将提取结果映射到预设特征集合中;通过解码器对维度最高的时域特征和对应的预设特征集合中的每个提取结果进行融合处理,以得到去噪增强语音和/或背景音。

37、第三方面,本技术提供一种电子设备,采用如下技术方案:

38、一种电子设备,包括存储器、处理器以及储存在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行如上述任一种方法的计算机程序。

39、第四方面,本技术提供一种计算机可读存储介质,采用如下技术方案:

40、一种计算机可读存储介质,包括存储有能够被处理器加载并执行如上述任一方法中的计算机程序。

本文地址:https://www.jishuxx.com/zhuanli/20240822/280762.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。