技术新讯 > 乐器声学设备的制造及制作,分析技术 > 模型训练及远场多通道语音降噪方法、装置、设备及介质与流程 > 正文

模型训练及远场多通道语音降噪方法、装置、设备及介质与流程

国知局
2024-06-21 11:58:14

本申请涉及数字信号处理及深度学习，尤其涉及一种模型训练及远场多通道语音降噪方法、装置、设备及介质。

背景技术：

1、随着语音增强技术的发展和应用，多通道会议场景下语音增强已成为企业和组织进行大型会议的重要助手。然而，这些会议常常在非理想的听觉环境下进行的，如有多种噪声源和混响问题，这会严重影响会议中采集到的语音信号的清晰度和质量，进而影响会议效率和沟通效果。

2、相关技术中，可以采用传统基于信号处理技术的多通道语音增强算法实现多通道语音增强，以在一定程度上改善语音质量。但传统基于信号处理技术的多通道语音增强算法在噪声抑制能力方面仍有限。例如，许多传统基于信号处理技术的多通道语音增强算法是基于理想或简化的环境模型确定的，在多变的噪声环境中，无法维持稳定的性能，并且对未见过的噪声类型或声学环境缺乏泛化能力。再例如，高复杂度的算法难以满足低延迟的实时处理需求，特别是在计算资源有限的设备上。

3、鉴于以上问题，发展出一种可以在多变的噪声环境下，有效抑制远场多通道语音中的噪声的实时多通道语音增强技术是一个亟待解决的问题。

技术实现思路

1、本申请提供了一种模型训练及远场多通道语音降噪方法、装置、设备及介质，用于解决传统基于信号处理技术的多通道语音增强算法抑制噪声能力有限，并且无法满足低延迟的实时处理需求的问题。

2、第一方面，本申请提供了一种多通道语音增强模型的训练方法，所述方法包括：

3、获取样本语音集中任一远场多通道语音样本；其中，所述远场多通道语音样本对应有近场多通道语音样本；

4、通过原始多通道语音增强模型的特征提取层，基于所述远场多通道语音样本的语音特征，获取与空间信息、频域信息、时域信息关联的第一特征向量；

5、通过所述原始多通道语音增强模型的线性变换层，对所述第一特征向量进行线性变换，获取线性变换后的第一特征向量；并通过所述原始多通道语音增强模型的归一化层，对所述第一特征向量进行归一化，获取归一化后的第一特征向量；

6、通过所述原始多通道语音增强模型的深度滤波层，基于所述线性变换后的第一特征向量和所述归一化后的第一特征向量，获取与周期性成分关联的第二特征向量；

7、通过所述原始多通道语音增强模型的波束形成网络层，基于所述第二特征向量，获取预测语音特征；

8、基于所述预测语音特征以及所述近场多通道语音样本，对所述原始多通道语音增强模型进行训练，以得到训练完成的目标多通道语音增强模型。

9、第二方面，本申请还提供了一种基于上述所述模型的远场多通道语音降噪方法，所述方法包括：

10、获取远场多通道语音信号；

11、通过目标多通道语音增强模型的特征提取层，基于所述远场多通道语音信号的语音特征，获取与空间信息、频域信息、时域信息关联的第一特征向量；

12、通过所述目标多通道语音增强模型的线性变换层，对所述第一特征向量进行线性变换，获取线性变换后的第一特征向量；并通过所述目标多通道语音增强模型的归一化层，对所述第一特征向量进行归一化，获取归一化后的第一特征向量；

13、通过所述目标多通道语音增强模型的深度滤波层，基于所述线性变换后的第一特征向量和所述归一化后的第一特征向量，获取与周期性成分关联的第二特征向量；

14、通过所述目标多通道语音增强模型的波束形成网络层，基于所述第二特征向量，获取降噪语音特征。

15、第三方面，本申请还提供了一种多通道语音增强模型的训练装置，所述装置包括：

16、获取单元，用于获取样本语音集中任一远场多通道语音样本；其中，所述远场多通道语音样本对应有近场多通道语音样本；

17、特征提取单元，用于通过原始多通道语音增强模型的特征提取层，基于所述远场多通道语音样本的语音特征，获取与空间信息、频域信息、时域信息关联的第一特征向量；

18、分支处理单元，用于通过所述原始多通道语音增强模型的线性变换层，对所述第一特征向量进行线性变换，获取线性变换后的第一特征向量；并通过所述原始多通道语音增强模型的归一化层，对所述第一特征向量进行归一化，获取归一化后的第一特征向量；

19、深度滤波单元，用于通过所述原始多通道语音增强模型的深度滤波层，基于所述线性变换后的第一特征向量和所述归一化后的第一特征向量，获取与周期性成分关联的第二特征向量；

20、波束形成单元，用于通过所述原始多通道语音增强模型的波束形成网络层，基于所述第二特征向量，获取预测语音特征；

21、训练单元，用于基于所述预测语音特征以及所述近场多通道语音样本，对所述原始多通道语音增强模型进行训练，以得到训练完成的目标多通道语音增强模型。

22、第四方面，本申请还提供了一种基于上述所述模型的远场多通道语音降噪装置，所述装置包括：

23、获取模块，用于获取远场多通道语音信号；

24、处理模块，用于通过目标多通道语音增强模型的特征提取层，基于所述远场多通道语音信号的语音特征，获取与空间信息、频域信息、时域信息关联的第一特征向量；通过所述目标多通道语音增强模型的线性变换层，对所述第一特征向量进行线性变换，获取线性变换后的第一特征向量；并通过所述目标多通道语音增强模型的归一化层，对所述第一特征向量进行归一化，获取归一化后的第一特征向量；通过所述目标多通道语音增强模型的深度滤波层，基于所述线性变换后的第一特征向量和所述归一化后的第一特征向量，获取与周期性成分关联的第二特征向量；通过所述目标多通道语音增强模型的波束形成网络层，基于所述第二特征向量，获取降噪语音特征。

25、第五方面，本申请提供了一种计算机设备，所述计算机设备包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如上述所述多通道语音增强模型的训练方法的步骤，或，实现如上述所述远场多通道语音降噪方法的步骤。

26、第六方面，本申请提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现如上述所述多通道语音增强模型的训练方法的步骤，或，实现如上述所述远场多通道语音降噪方法的步骤。

27、本申请的有益效果如下：

28、1、由于该原始多通道语音增强模型的特征提取层可以对输入的语音特征从空间、光谱和时间维度上对多通道语音信号进行建模，这样可以保证在充分利用不同通道间相关性的同时，还能保证对语音信号进行实时处理，实现了从空间、频域和时域上信息的聚合，使得各通道接收到的信号被充分的利用。

29、2、由于该原始多通道语音增强模型的深度滤波层可以对语音信号的低频部分进行处理，从而实现更好地捕获和增强与语音质量密切相关的周期性特征，从而可以更好地识别并抑制各种复杂和变化的噪声。

30、3、由于该原始多通道语音增强模型的波束形成网络层可以从多通道的语音特征中估计出单通道增强频谱图，让语音音质更加清晰。

技术特征：

1.一种多通道语音增强模型的训练方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述获取样本语音集中任一远场多通道语音样本之后，所述通过原始多通道语音增强模型的特征提取层，基于所述远场多通道语音样本的语音特征，获取与空间信息、频域信息、时域信息关联的第一特征向量之前，所述方法还包括：

3.如权利要求1或2所述的方法，其特征在于，所述通过原始多通道语音增强模型的特征提取层，基于所述远场多通道语音样本的语音特征，获取与空间信息、频域信息、时域信息关联的第一特征向量，包括：

4.如权利要求3所述的方法，其特征在于，所述空间信息提取模块包括密集连接块，所述密集连接块包括至少一个卷积conv神经网络。

5.如权利要求3所述的方法，其特征在于，所述频域信息提取模块包括至少一个编码器，任一编码器包括卷积conv单元、批量归一化batchnorm单元、参数化线性整流单元prelu。

6.如权利要求1所述的方法，其特征在于，所述深度滤波层包括卷积conv单元、批量归一化batchnorm单元、参数化线性整流单元prelu、线性单元以及激活函数单元。

7.如权利要求1所述的方法，其特征在于，所述远场多通道语音样本包括采集多通道语音样本以及模拟多通道语音样本；其中，所述模拟多通道语音样本基于任一近场多通道语音样本和样本混响噪声库中的至少一条干扰样本确定的，所述至少一条干扰样本包括混响样本和噪声样本。

8.一种基于权利要求1-7任一所述模型的远场多通道语音降噪方法，其特征在于，所述方法包括：

9.一种多通道语音增强模型的训练装置，其特征在于，所述装置包括：

10.一种基于权利要求1-7任一所述模型的远场多通道语音降噪装置，其特征在于，所述装置包括：

11.一种计算机设备，其特征在于，所述计算机设备包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如上述权利要求1-7任一所述多通道语音增强模型的训练方法的步骤，或，实现如上述权利要求8所述远场多通道语音降噪方法的步骤。

12.一种计算机可读存储介质，其特征在于，其存储有可由计算机设备执行的计算机程序，当所述程序在计算机设备上运行时，使得所述计算机设备执行如上述权利要求1-7任一所述多通道语音增强模型的训练方法的步骤，或，实现如上述权利要求8所述远场多通道语音降噪方法的步骤。

技术总结本申请公开了一种模型训练及远场多通道语音降噪方法、装置、设备及介质。由于该原始多通道语音增强模型的特征提取层对输入的语音特征从空间、光谱和时间维度上对多通道语音信号进行建模，这样保证在充分利用不同通道间相关性的同时，还能保证对语音信号进行实时处理，实现从空间、频域和时域上信息的聚合，使各通道接收到的信号被充分的利用。由于该原始多通道语音增强模型的深度滤波层可以对语音信号的低频部分进行处理，从而实现更好地捕获和增强与语音质量密切相关的周期性特征，从而更好地识别并抑制各种复杂和变化的噪声。由于该原始多通道语音增强模型的波束形成层可以从多通道的语音特征中估计出单通道增强频谱图，让语音音质更加清晰。技术研发人员：王光勇,关海欣,梁家恩受保护的技术使用者：云知声智能科技股份有限公司技术研发日：技术公布日：2024/6/13