技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种基于多维语音特征组合的RNN降噪方法及系统与流程 > 正文

一种基于多维语音特征组合的RNN降噪方法及系统与流程

国知局
2024-06-21 11:42:31

本技术涉及语音降噪，尤其是涉及一种基于多维语音特征组合的rnn降噪方法及系统。

背景技术：

1、语音降噪技术是指对于一段包含杂乱噪声的音频，利用数字信号处理算法去除其中的噪声，使得声音变得更加清晰、自然。它在通讯、语音识别等领域都有广泛的应用。语音降噪技术的背景可以追溯到20世纪70年代。当时，由于电话网络的不完善和传输质量的低下，通话质量非常差，噪声干扰严重。为了改善通话质量，人们开始研究语音降噪技术。最早的语音降噪方法是基于谱减法原理的，在频域上进行降噪处理，但这种方法会导致音频信号失真，效果并不理想。

2、随着社会的不断发展新的各种各样的噪声充斥在我们周围，新的数字信号处理技术的语音降噪方法也相继出现。其中比较典型的是利用小波变换进行降噪的方法。小波变换能够有效地将噪声和语音分离开来，从而实现更好的降噪效果。此外，还有基于神经网络和深度学习的语音降噪技术，它们利用了大量的数据进行训练，能够更好地适应不同场景下的降噪需求，而如何有效且实时的保证通信过程中的信息清晰度，也成为数字信号处理的一个重要研究发现。

3、针对上述中的相关技术，由于语音信号在时域上的变换通常很难看出信号的特性，因此通常对其进行快速傅里叶变换将其转换为频率上的能量分布来观察，不同的能量分布，代表着不同的语音特性，而在傅里叶变换后的不同计算方法也代表了不同的语音特征。通常单独使用梅尔倒谱系数（mfcc）或傅里叶变换（fft）作为语音特征降噪方法的输入部分，并以它们为基础进行降噪处理，但是因为带噪语音的复杂性、非稳定性以及波动性等特点，单独以某一种语音特征进行降噪处理时的效果往往不是很理想。

技术实现思路

1、为了改善因为带噪语音的复杂性、非稳定性以及波动性等特点，单独以某一种语音特征进行降噪处理时的效果往往不是很理想的问题，本技术提供一种基于多维语音特征组合的rnn降噪方法及系统。

2、第一方面，本技术提供的一种基于多维语音特征组合的rnn降噪方法，采用如下的技术方案：包括：

3、接收原始语音数据，通过数字滤波器对所述原始语音数据进行预处理，输出第一语音数据；

4、对所述第一语音数据进行快速傅里叶变化，根据梅尔倒谱滤波、离散变换、自相关函数、通道能量归一化以及频带能量和对数变换方式，获取多维语音特征。

5、将所述多维语音特征进行组合后输入预设的循环神经网络模型内，提取出针对不同频带的增益值；

6、将所述增益值进行插值扩展，并将扩展后的增益值与所述第一语音数据进行增益计算，获取增益结果；

7、对所述增益结果进行逆快速傅里叶变化以及信号重构，得到降噪语音数据。

8、可选的，在所述通过数字滤波器对所述原始语音数据进行预处理，输出第一语音数据之前，还包括：

9、通过数据增强的方式对所述原始语音数据进行扩增和整理，包括对所述原始语音数据中的纯净语音数据和噪声数据进行数据增强，并将数据增强后的所述原始语音数据的整理为预设的固定长度。

10、可选的，所述对所述第一语音数据进行快速傅里叶变化，根据梅尔倒谱滤波、离散变换、自相关函数、通道能量归一化以及频带能量和对数变换方式，获取多维语音特征，包括：

11、将所述第一语音数据进行预加重和加窗处理，并进行短时快速傅里叶变换，以使所述第一语音数据的时域信息转换为频域信息，获取部分所述多维语音特征；

12、根据傅里叶变换以及梅尔倒谱系数等，获取梅尔倒谱系数；

13、对所述第一语音数据进行离散变换，获取另一部分的所述多维语音特征。

14、可选的，在所述将所述多维语音特征进行组合后输入预设的循环神经网络模型内，提取出针对不同频带的增益值之前，还包括：

15、将多个语音特征进行拼接组合后作为训练数据；

16、将循环神经网络的最后一层循环神经网络层中的神经元数对应组合前语音特征数量，并将其作为输出层；

17、在所述训练数据经过循环神经网络的前向计算之后，得到每一次的迭代结果；

18、根据输入的作为训练数据的语音特征可以得到对应不同语音特征的掩码增益，以此来进行每一次的噪声抑制；

19、反向计算循环神经网络的损失函数，根据所述损失函数和所述迭代结果，得到每一次迭代之后的损失值；

20、根据所述损失值和循环层在每一个状态时的输出值，计算出在每一个循环层中的权重矩阵梯度；

21、根据所述权重矩阵梯度进行反向求导，计算出权重更新值；

22、通过随机梯度下降法以及所述权重更新值进行每次迭代时的权重更新，通过多次迭代训练后得到最优的循环神经网络参数。

23、可选的，所述反向计算循环神经网络的损失函数，包括：

24、所述损失函数为回归类型函数，即使用对数均方误差；

25、所述损失函数公式如下：

26、其中，是理想比率掩码，是经过循环神经网络计算得到的实际比率掩码，为1/2用于调整噪声抑制程度，n是频带数量。

27、可选的，在所述反向计算循环神经网络的损失函数之前，还包括：

28、所述循环神经网络层中包含双向长短期记忆网络层，所述长短期记忆网络层包括：隐藏状态层和细胞状态层；

29、所述隐藏状态层（h_t）和所述细胞状态层（c_t）公式如下：

30、其中，[h_(t-1),x_t]表示将前一个时间步t_1的隐藏状态h_(t-1）和当前时间步t输入向量x_t进行拼接；⊙表示点乘；w_i，w_f，w_o和w_c，为权利矩阵；b_i，b_f，b_o和b_c为偏置矩阵；i_t，f_t，o_t和g_t分别是输入门、遗忘门、输出门和细胞状态。

31、第二方面，本技术一种基于多维语音特征组合的rnn降噪装置，采用如下技术方案，包括：

32、语音数据处理模块，用于接收原始语音数据，通过数字滤波器对所述原始语音数据进行预处理，输出第一语音数据；

33、语音特征提取模块，用于对所述第一语音数据进行快速傅里叶变化，根据梅尔倒谱滤波、离散变换、自相关函数、通道能量归一化以及频带能量和对数变换等方式，获取多维语音特征；

34、循环网络处理模块，用于将所述多维语音特征进行组合后输入预设的循环神经网络模型内，提取出针对不同频带的增益值；

35、语音数据增益模块，将所述增益值进行插值扩展，并将扩展后的增益值与所述第一语音数据进行增益计算，获取增益结果；

36、语音信号重构模块，用于对所述增益结果进行逆快速傅里叶变化以及信号重构，得到降噪语音数据。

37、可选的，所述语音数据处理模块包括：

38、语音预处理模块，用于接收原始语音数据，通过数字滤波器对所述原始语音数据进行预处理，获取第一语音数据；

39、语音分帧模块，用于通过将长语音进行分帧处理，以使数字滤波器对分帧处理后的原始语音数据进行处理；

40、特征提取模块，用于提取预处理后的不同语音特征。

41、第三方面，本技术还提供一种控制设备，所述设备包括：

42、包括存储器和处理器，所述存储器上存储有能够被处理器加载并执行如上述基于多维语音特征组合的rnn降噪方法的计算机程序。

43、第四方面，本技术还提供一种计算机可读存储介质，存储有能够被处理器加载并执行如上述基于多维语音特征组合的rnn降噪方法的计算机程序。

44、综上所述，本技术通过构建的循环网络模型结构，能够对于输入的多种维度特征进行有效增益提取，同时因为循环网络模型的特性，能提取多种语音特征信息中关于噪声与纯净语音的上下文关联信息以及形成相关特征记忆，快速生成有效的语音频带增益，以此发挥出多个语音特征各自对于语音信号的不同维度表达的组合优势，满足对于语音信号的连续且实时的增强处理，有利于实现对语音中噪声的实时有效抑制；通过使用多种维度的特征进行组合，能够从多种角度表达出纯净语音和噪声的多维度区别，将它们组合之后能够进一步发挥出它们整体的优势即能够从频率能量分布、相位、基频、幅度等多方位进行优化，而且能够快速的得到各种维度的特征并不需要复杂的运算，满足实时处理的需求；通过设计的循环网络模型损失函数与输出结果，能够对输入的多维语音特征进行有效的学习，并且根据不同的频带生成相应的增益值，进而能够有效利用输入训练数据的多样化和各种特征的优势，提高训练效果，提升模型的泛化能力，也能提高对多维语音特征提取时的提取效率。