技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于改进U-net和目标特征感知对比度拉伸的语音增强算法 > 正文

基于改进U-net和目标特征感知对比度拉伸的语音增强算法

国知局
2024-06-21 10:38:24

本发明涉及基于改进u-net和目标特征感知对比度拉伸的语音增强算法。

背景技术：

1、语音通信是生活中最常见的通信方式，但语音信号通常会被背景或人为噪声打扰。近年来，基于深度学习的语音增强已成为一个研究热点。根据处理域的类型，增强方法分为两类：基于时域和时频域的语音增强算法。基于时域的语音增强算法保留了更多的原始波形信息并且数据处理流程简单。但是由于时域算法无法直接考虑频谱信息，因此它们往往无法完全消除噪声，并需要更长的处理时间。此外，时域算法通常需要更多的参数调整和手动优化，因为它们的效果很大程度上取决于所使用的算法的参数。基于时频域算法直接处理语音信号的频率信息，因此在噪声抑制方面效果好且可以更彻底地去除噪声，处理速度快且参数调整和优化更易于实现。

2、传统数字信号处理方法如谱减法，维纳滤波法，小波变换法等，往往假设噪声是平稳的或者遵循某种分布，所以在非平稳噪声条件下的增强效果差，无法满足对复杂噪声的降噪性能。基于深度神经网络(dnn)的语音增算法，通过从训练数据中学习信号和噪声的特征可以更好的处理非平稳噪声，具有较好的噪声泛化能力。但语音仅应用全连接网络结构的深度神经网络无法有效捕获语音特征的上下文信息且需要训练的参数量太大。因此循环神经网络(rnn)被用于语音增强网络中。但是rnn网络的缺点主要有：梯度消失和梯度爆炸，以及长期依赖问题。梯度消失和梯度爆炸是指在反向传播过程中，梯度随着时间步的增加而变得非常小或非常大，导致网络难以训练。长期依赖问题是指rnn网络难以捕捉到序列中较远的信息，因为它们会被近期的信息所覆盖。

3、因此，提供基于改进u-net(卷积神经网络)和目标特征感知对比度拉伸的语音增强算法。

技术实现思路

1、本发明的目的在于克服现有的缺陷而提供的基于改进u-net和目标特征感知对比度拉伸的语音增强算法，降低了语音片段去噪时的细节失真，提高了语音提取的准确率。

2、实现上述目的的技术方案是：

3、基于改进u-net和目标特征感知对比度拉伸的语音增强算法，包括：

4、步骤s1，通过将噪声与纯净语音进行合成得到带噪语音作为输入语音片段；

5、步骤s2，对输入语音片段进行归一化处理，并通过pcs(目标特征感知对比度拉伸方法)对归一化的输入语音片段进行语音增强，获得输入时频图特征；

6、步骤s3，建立cresdil-u-net(全称：cbam dilated resnet u-net，基于注意力机制和残差空洞模块的卷积神经网络模型)网络模型，输入时频图特征作为网络模型的输入，进行编码、解码操作，进而去除噪声，获得预测结果。

7、优选的，所述步骤s1中，通过demand数据集获取噪声，通过voice bank数据集获取纯净语音。

8、优选的，所述步骤s2中，对输入语音片段进行归一化处理至[-1,1]。

9、优选的，所述步骤s2中，通过pcs(目标特征感知对比度谱拉伸)对归一化的输入语音片段进行语音增强，包括：

10、步骤s21，对输入语音片段进行伽马校正以增强对比度，伽马校正方程为：

11、yt,f＝a(mt,f)γ；

12、其中，语音片段mt,f的值从[0，m]开始。符号yt,f、f、a、γ和mt,f分别表示修改后的特征、缩放函数、γ值和输入的语音片段；

13、步骤s22，对比度拉伸后的训练特征被转移到log(1+p)域，即：

14、loglp(yt,f)＝log(1+yt,f)＝γ×log(1+mt,f)；

15、步骤s23，通过短时傅立叶变换stft对波形进行处理；

16、步骤s24，将对比度拉伸应用于增强特征yt,f；

17、步骤s25，进而对训练数据上的标签获取特征进行感知增强，获得输入时频图特征，即获取输入时频图特征的损失函数公式为：

18、l＝d(se(loglp(xt,f))，loglp(mt,f)；

19、其中，d(·)表示目标函数，se(·)表示语音增强模型。

20、优选的，所述步骤s21中，为了进一步步提高对比度拉伸的感知性能，通过重新缩放函数对γ进行限定，重新缩放函数公式为：

21、

22、其中，k表示频带的序数，γpcs[k]和bif[k]分别是频带k处pcs和bif的γ值。bifmax和bifmin分别表示bif的最大值和最小值，且pcsmin设置为1。

23、优选的，所述步骤s3包括：

24、步骤s31，将输入时频图特征作为网络模型的输入；

25、步骤s32，通过在编码器的卷积模块中进行残差空洞卷积，进而获得低分辨率的原始语音特征图；

26、步骤s33，将注意力模块嵌入跳跃连接中，对加强后的原始语音特征跨越多个层级传递；

27、步骤s34，通过解码器将低分辨率的原始语音特征图图恢复为原始分辨率的图像，并生成像素级别的预测结果。

28、优选的，所述步骤s3中，cresdil-u-net网络模型是在原有的u-net网络模型中的普通卷积替换成了残差空洞卷积，并在跳跃连接中增加了注意力模块。

29、优选的，空洞卷积可以在不改变分辨率或增加计算量的情况下扩大感受野，通过在卷积核中插入零值来实现，对于扩张率为d，卷积核大小为k的空洞卷积，其感受野n计算公式为：

30、n＝k+(k-1)×(d-1)。

31、本发明的有益效果是：本发明以u-net网络为基线模型，融合了cbam注意力机制，以更好的捕捉输入频谱图的频率信息，增强模型对语音细节的识别和提取能力；加入空洞残差卷积模块增强模型提取语音上下文信息的能力，以减少原语音信息的损失；加入目标特征感知对比度谱拉伸结构，突出语音信号相对重要的中频域，使得模型在训练时更加关注中频域；进而降低了语音片段去噪时的细节失真，提高了语音提取的准确率。

技术特征：

1.基于改进u-net和目标特征感知对比度拉伸的语音增强算法，其特征在于，包括：

2.根据权利要求1所述的基于改进u-net和目标特征感知对比度拉伸的语音增强算法，其特征在于，所述步骤s1中，通过demand数据集获取噪声，通过voice bank数据集获取纯净语音。

3.根据权利要求1所述的基于改进u-net和目标特征感知对比度拉伸的语音增强算法，其特征在于，所述步骤s2中，对输入语音片段进行归一化处理至[-1,1]。

4.根据权利要求3所述的基于改进u-net和目标特征感知对比度拉伸的语音增强算法，其特征在于，所述步骤s2中，通过pcs对归一化的输入语音片段进行语音增强，包括：

5.根据权利要求4所述的基于改进u-net和目标特征感知对比度拉伸的语音增强算法，其特征在于，所述步骤s21中，为了进一步步提高对比度拉伸的感知性能，通过重新缩放函数对γ进行限定，重新缩放函数公式为：

6.根据权利要求1所述的基于改进u-net和目标特征感知对比度拉伸的语音增强算法，其特征在于，所述步骤s3包括：

7.根据权利要求1所述的基于改进u-net和目标特征感知对比度拉伸的语音增强算法，其特征在于，所述步骤s3中，cresdi l-u-net网络模型是在原有的u-net网络模型中的普通卷积替换成了残差空洞卷积，并在跳跃连接中增加了注意力模块。

8.根据权利要求7所述的基于改进u-net和目标特征感知对比度拉伸的语音增强算法，其特征在于，空洞卷积可以在不改变分辨率或增加计算量的情况下扩大感受野，通过在卷积核中插入零值来实现，对于扩张率为d，卷积核大小为k的空洞卷积，其感受野n计算公式为：

技术总结本发明公开了基于改进U‑net和目标特征感知对比度拉伸的语音增强算法，包括：步骤S1，通过将噪声与纯净语音进行合成得到带噪语音作为输入语音片段；步骤S2，对输入语音片段进行归一化处理，并通过PCS对归一化的输入语音片段进行语音增强，获得输入时频图特征；步骤S3，建立CResDi l‑U‑Net网络模型，输入时频图特征作为网络模型的输入，进行编码、解码操作，进而去除噪声，获得预测结果。降低了语音片段去噪时的细节失真，提高了语音提取的准确率。技术研发人员：潘奕岐受保护的技术使用者：华南农业大学技术研发日：技术公布日：2024/1/15