技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音处理方法、装置、计算机设备及存储介质与流程 > 正文

一种语音处理方法、装置、计算机设备及存储介质与流程

国知局
2024-06-21 11:46:27

本技术涉及语音增强，尤其涉及一种语音处理方法、装置、计算机设备及存储介质。

背景技术：

1、语音作为人类交流信息的主要手段之一，语音降噪和去混响一直在语音信号处理中占据着重要的地位。在真实环境中，语音信号往往会同时包含混响和噪声，会严重影响语音的质量和可懂度，同时对语音识别和声纹识别系统的性能影响也比较大。因此，语音去混响和降噪就显得很重要。为了解决语音去混响问题，在过去的多年很多方法也被提出来。加权预测误差(wpe)算法在信号层面处理语音去混响，即延时线性预测。wpe首先通过多个历史帧得到与频率相关的线性预测滤波器。然后在子带域从原始混响信号中减去滤波后的信号，得到增强信号。但是，当噪声和混响同时存在时，wpe算法的性能会受到严重的影响，制约着该方法的应用。

2、现有一种语音噪声和去混响的方法，即通过深度学习的语音去混响方法通过训练语音去混响模型，建立混合语音特征参数与目标干净语音信号的特征参数之间的映射关系，这样对于任意输入的混合语音信号都可以通过建立的去混模型来输出目标干净语音信号，从而达到语音去混响的目的。

3、然而，申请人发现，传统的语音噪声和去混响方法仅仅使用幅值谱作为特征，不具有区分性，限制着语音去混响的性能。在语音同时包含噪声和混响的情况下，增强后的语音音质无法保证，由此可见，传统的语音噪声和去混响方法存在语音音质较低的问题。

技术实现思路

1、本技术实施例的目的在于提出一种语音处理方法、装置、计算机设备及存储介质，以解决传统的语音噪声和去混响方法存在语音音质较低的问题。

2、为了解决上述技术问题，本技术实施例提供一种语音处理方法，采用了如下所述的技术方案：

3、获取待处理的原始语音数据；

4、将所述原始语音数据输入至数字滤波器进行预处理，得到纯净语音数据；

5、对所述纯净语音数据进行混响卷积处理，得到混响语音数据；

6、将所述混响语音数据输入至预设信噪比进行混合处理，得到固定长度的带噪语音数据；

7、对所述带噪语音数据进行随机提取处理，并对随机提取到的带噪语音数据进行短时傅里叶变换处理，得到变换语音数据；

8、将所述变换语音数据输入至卷积神经网络进行特征提取处理，得到带噪语音特征；

9、将所述带噪语音特征输入至训练好的时间卷积网络模型进行预测处理，得到预测语音数据；

10、分别对所述变换语音数据、所述带噪语音特征以及所述预测语音数据进行点乘运算，得到增益语音数据；

11、对所述增益语音数据依次进行逆短时傅里叶变换、加窗以及信号重构处理，得到目标语音数据。

12、进一步的，所述将所述原始语音数据输入至数字滤波器进行预处理，得到纯净语音数据的步骤，具体包括下述步骤：

13、通过数字滤波fir对所述原始语音数据进行线性加权处理，得到所述纯净语音数据。

14、进一步的，在所述将所述变换语音数据输入至卷积神经网络进行特征提取处理，得到带噪语音特征的步骤之前，还包括下述步骤：

15、对所述变换语音数据进行预加重处理，得到高信噪比数据；

16、对所述高信噪比数据进行分帧加窗以及短时傅里叶变换处理，得到转换后的复数值；

17、将所述复数值的实部与虚部进行形状转换以及拼接处理，并将拼接处理后的复数值输入至批量归一化层进行归一化处理。

18、进一步的，所述卷积神经网络由第一模块以及第二模块组成，其中，所述第一模块包括第一卷积层、所述批量归一化层以及prelu激活层，所述第一卷积层的核使用大小为（2,3）、步长为（1,2）、卷积核数量为32，所述第二模块包括第二卷积层、所述批量归一化层以及prelu激活层，所述第二卷积层的核使用大小为（2,3）、步长为（1,2）、卷积核数量为64。

19、进一步的，在所述将所述带噪语音特征输入至训练好的时间卷积网络模型进行预测处理，得到预测语音数据的步骤之前，还包括下述步骤：

20、调用初始时间卷积网络模型；

21、将所述带噪语音特征输入至所述初始时间卷积网络模型，并使用信号失真率（sdr）与信噪比（snr）结合作为损失函数对所述初始时间卷积网络模型进行模型训练操作，得到所述训练好的时间卷积网络模型。

22、进一步的，所述模型训练操作根据以下公式来更新权重和偏置：

23、其中，表示学习率，表示损失函数对第l层中第i个节点和第（i,j）个权重的偏导数，表示损失函数对第l层中第i个节点的偏置项的偏导数。

24、为了解决上述技术问题，本技术实施例还提供一种语音处理装置，采用了如下所述的技术方案：

25、数据获取模块，用于获取待处理的原始语音数据；

26、预处理模块，用于将所述原始语音数据输入至数字滤波器进行预处理，得到纯净语音数据；

27、混响卷积模块，用于对所述纯净语音数据进行混响卷积处理，得到混响语音数据；

28、混合模块，用于将所述混响语音数据输入至预设信噪比进行混合处理，得到固定长度的带噪语音数据；

29、第一变换模块，用于对所述带噪语音数据进行随机提取处理，并对随机提取到的带噪语音数据进行短时傅里叶变换处理，得到变换语音数据；

30、特征提取模块，用于将所述变换语音数据输入至卷积神经网络进行特征提取处理，得到带噪语音特征；

31、预测模块，用于将所述带噪语音特征输入至训练好的时间卷积网络模型进行预测处理，得到预测语音数据；

32、点乘运算模块，用于分别对所述变换语音数据、所述带噪语音特征以及所述预测语音数据进行点乘运算，得到增益语音数据；

33、目标生成模块，用于对所述增益语音数据依次进行逆短时傅里叶变换、加窗以及信号重构处理，得到目标语音数据。

34、进一步的，所述预处理模块包括：

35、预处理子模块，用于通过数字滤波fir对所述原始语音数据进行线性加权处理，得到所述纯净语音数据。

36、为了解决上述技术问题，本技术实施例还提供一种计算机设备，采用了如下所述的技术方案：

37、包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如上所述的语音处理方法的步骤。

38、为了解决上述技术问题，本技术实施例还提供一种计算机可读存储介质，采用了如下所述的技术方案：

39、所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如上所述的语音处理方法的步骤。

40、本技术提供了一种语音处理方法，包括：获取待处理的原始语音数据；将所述原始语音数据输入至数字滤波器进行预处理，得到纯净语音数据；对所述纯净语音数据进行混响卷积处理，得到混响语音数据；将所述混响语音数据输入至预设信噪比进行混合处理，得到固定长度的带噪语音数据；对所述带噪语音数据进行随机提取处理，并对随机提取到的带噪语音数据进行短时傅里叶变换处理，得到变换语音数据；将所述变换语音数据输入至卷积神经网络进行特征提取处理，得到带噪语音特征；将所述带噪语音特征输入至训练好的时间卷积网络模型进行预测处理，得到预测语音数据；分别对所述变换语音数据、所述带噪语音特征以及所述预测语音数据进行点乘运算，得到增益语音数据；对所述增益语音数据依次进行逆短时傅里叶变换、加窗以及信号重构处理，得到目标语音数据。与现有技术相比，本技术使用卷积神经网络对进行短时傅里叶变换后的数据进行处理，能够利用卷积神经网络从此时转换后的数据中提取出更多且高级抽象的特征，相对于传统特征而言具有更大的数据表达能力且不需要人工进行特征提取。这些提取出的数据极大的有利于模型的学习效率以及泛化能力；同时，本技术使用了训练好的时间卷积网络模型，能并行处理时间序列数据，从而大大减少了训练时间，其次，传统的循环神经网络（rnn）在处理长序列数据时会出现梯度消失/爆炸问题和难以捕捉长期依赖性的问题。 tcn通过使用一组可堆叠的1d卷积层来解决这些问题，其中每个层都对整个序列进行卷积操作，从而有效地扩展了感受野。这使得tcn能够轻松地处理长序列数据，并从中提取相关信息；还有一点是，tcn与传统的卷积神经网络（cnn）非常类似，因此易于实现和调试。同时，由于tcn的结构不是递归的，因此通常比rnn更容易并行化和优化。