技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于知识蒸馏的音频降噪模型的训练方法、装置及设备与流程 > 正文

基于知识蒸馏的音频降噪模型的训练方法、装置及设备与流程

国知局
2024-06-21 11:29:56

本技术涉及人工智能，尤其涉及一种基于知识蒸馏的音频降噪模型的训练方法、装置及设备。

背景技术：

1、富媒体信息时代，音视频已成为人们获取、发布、交换信息的重要方式。同时，随着越来越多的人意识到在线会议的便捷性，在线沟通与交流使音视频用量激增，音视频沟通与交流已迅速普及到了人们的日常生活及工作中。实时音视频的典型场景是以沟通交流为核心诉求，这对音频的质量要求逐渐变高。但，麦克风采集到的原始音频数据会存在人声不清晰，环境噪声大、回声等问题。为了改善音视频会议的通话质量，需要对麦克风采集的声音进行降噪处理。

2、目前，基于深度学习的语音降噪算法存在以下问题：（1）较大的语音降噪模型的计算需求通常非常庞大，不适合应用在计算资源有限的设备上。（2）在较大的语音降噪模型的基础上直接进行量化、剪枝等操作，在一定程度上解决了实时性的问题，但同时也严重影响了模型的精度。

技术实现思路

1、本技术的实施例提出了一种基于知识蒸馏的音频降噪模型的训练方法、装置及设备。

2、第一方面，本技术的实施例提供了一种基于知识蒸馏的音频降噪模型的训练方法，该方法包括：将具有噪声的音频信号从时域转换至时频域，得到具有噪声的音频特征；分别将具有噪声的音频特征输入到教师网络和学生网络中，得到教师网络预测输出的第一降噪特征，以及学生网络预测输出的第二降噪特征；将第二降噪特征从时频域转换至时域，得到第二降噪信号；根据第二降噪信号与干净的音频信号之间的损失函数，第二降噪特征与干净的音频特征之间的损失函数，以及第二降噪特征和第一降噪特征之间的蒸馏损失函数，确定学生网络对应的损失函数；利用学生网络对应的损失函数对学生网络进行知识蒸馏训练，得到训练后的音频降噪模型。

3、在一些实施例中，教师网络包括依次连接的第一编码器层、第一骨干网络层和第一解码器层；学生网络包括依次连接的第二编码器层、第二骨干网络层和第二解码器层；其中，第一编码器层和第二编码器层的输入为具有噪声的音频特征；

4、该方法还包括：

5、根据第一编码器层和第二编码器层的输出结果，确定编码损失函数；

6、根据第一骨干网络层和第二骨干网络层的输出结果，确定骨干网络损失函数；

7、融合具有噪声的音频特征以及第一解码器层输出的第一掩码音频特征，得到第一降噪特征；以及融合具有噪声的音频特征以及第二解码器层输出的第二掩码音频特征，得到第二降噪特征；

8、根据第二降噪特征和第一降噪特征之间的损失函数，确定解码损失函数；

9、第二降噪特征和第一降噪特征之间的蒸馏损失函数基于以下步骤确定：

10、将编码损失函数、骨干网络损失函数和解码损失函数，作为蒸馏损失函数。

11、在一些实施例中，将编码损失函数、骨干网络损失函数和解码损失函数，作为蒸馏损失函数，包括：根据第一预设权重与编码损失函数，第二预设权重与骨干网络损失函数，以及第三预设权重与解码损失函数，确定蒸馏损失函数。

12、在一些实施例中，将具有噪声的音频信号从时域转换至时频域，得到具有噪声的音频特征，包括：将具有噪声的音频信号从时域转换至时频域，得到具有噪声的音频特征中每个频点对应的实部、虚部和幅值；

13、第二降噪特征与干净的音频特征之间的损失函数基于以下步骤确定：根据第二降噪特征与干净的音频特征的实部，第二降噪特征与干净的音频特征的虚部，以及第二降噪特征与干净的音频特征的幅值，确定第二降噪特征与干净的音频特征之间的损失函数。

14、在一些实施例中，教师网络基于以下步骤确定：将第一降噪特征从时频域转换至时域，得到第一降噪信号；根据第一降噪特征与干净的音频特征的实部，第一降噪特征与干净的音频特征的虚部和第一降噪特征与干净的音频特征的幅值所确定的损失函数，以及第一降噪信号与干净的音频信号之间的损失函数，确定教师网络的损失函数；基于教师网络的损失函数对教师网络进行训练，得到训练后的教师网络。

15、在一些实施例中，第一编码器层和第一解码器层中的卷积为可分离卷积。

16、第二方面，本技术的实施例提供了一种音频降噪方法，该方法包括：获取原始音频信号；将所述原始音频信号从时域转换至时频域得到原始音频特征；将所述原始音频特征输入到预先训练的音频降噪模型中，得到降噪音频特征；将所述降噪音频特征从时频域转换至时域得到降噪音频信号。

17、第三方面，本技术的实施例提供了一种基于知识蒸馏的音频降噪模型的训练装置，该装置包括：第一转换模块、特征预测模块、第二转换模块、损失确定模块和模型训练模块。其中，第一转换模块，用于将具有噪声的音频信号从时域转换至时频域，得到具有噪声的音频特征；特征预测模块，用于分别将具有噪声的音频特征输入到教师网络和学生网络中，得到教师网络预测输出的第一降噪特征，以及学生网络预测输出的第二降噪特征；第二转换模块，用于将第二降噪特征从时频域转换至时域，得到第二降噪信号；损失确定模块，用于根据第二降噪信号与干净的音频信号之间的损失函数，第二降噪特征与干净的音频特征之间的损失函数，以及第二降噪特征和第一降噪特征之间的蒸馏损失函数，确定学生网络对应的损失函数；模型训练模块，用于利用学生网络对应的损失函数对学生网络进行知识蒸馏训练，得到训练后的音频降噪模型。

18、在一些实施例中，教师网络包括依次连接的第一编码器层、第一骨干网络层和第一解码器层；学生网络包括依次连接的第二编码器层、第二骨干网络层和第二解码器层；其中，第一编码器层和第二编码器层的输入为具有噪声的音频特征；

19、该装置还包括：第一确定单元，用于根据第一编码器层和第二编码器层的输出结果，确定编码损失函数；第一确定单元，用于根据第一骨干网络层和第二骨干网络层的输出结果，确定骨干网络损失函数；特征融合单元，用于融合具有噪声的音频特征以及第一解码器层输出的第一掩码音频特征，得到第一降噪特征；以及融合具有噪声的音频特征以及第二解码器层输出的第二掩码音频特征，得到第二降噪特征；第三确定单元，用于根据第二降噪特征和第一降噪特征之间的损失函数，确定解码损失函数；

20、损失确定模块，还用于将编码损失函数、骨干网络损失函数和解码损失函数，作为蒸馏损失函数。

21、在一些实施例中，损失确定模块，还用于：根据第一预设权重与编码损失函数，第二预设权重与骨干网络损失函数，以及第三预设权重与解码损失函数，确定蒸馏损失函数。

22、在一些实施例中，第一转换模块，具体用于：将具有噪声的音频信号从时域转换至时频域，得到具有噪声的音频特征中每个频点对应的实部、虚部和幅值；

23、损失确定模块，还用于根据第二降噪特征与干净的音频特征的实部，第二降噪特征与干净的音频特征的虚部，以及第二降噪特征与干净的音频特征的幅值，确定第二降噪特征与干净的音频特征之间的损失函数。

24、在一些实施例中，第二转换模块，还用于将第一降噪特征从时频域转换至时域，得到第一降噪信号；

25、损失确定模块，还用于根据第一降噪特征与干净的音频特征的实部，第一降噪特征与干净的音频特征的虚部和第一降噪特征与干净的音频特征的幅值所确定的损失函数，以及第一降噪信号与干净的音频信号之间的损失函数，确定教师网络的损失函数；

26、模型训练模块，还用于基于教师网络的损失函数对教师网络进行训练，得到训练后的教师网络。

27、在一些实施例中，第一编码器层和第一解码器层中的卷积为可分离卷积。

28、第四方面，本技术的实施例提供了一种音频降噪装置，该装置包括：信号获取模块，用于获取原始音频信号；第一转换模块，用于将原始音频信号从时域转换至时频域得到原始音频特征；音频降噪模块，用于将原始音频特征输入到预先训练的音频降噪模型中，得到降噪音频特征；第二转换模块，用于将所述降噪音频特征从时频域转换至时域得到降噪音频信号。

29、第五方面，本技术的实施例提供了一种电子设备，包括至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如第一方面或第二方面描述的方法。

30、第六方面，本技术的实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行如第一方面或第第二方面描述的方法。

31、本技术的实施例提供的基于知识蒸馏的音频降噪模型的训练方法、装置及设备，为了将较大的高精度深度学习降噪模型（即，教师网络）知识迁移到较小的轻量级深度学习降噪模型（即，学生网络）上，采用第二降噪信号与干净的音频信号之间的损失函数，第二降噪特征与干净的音频特征之间的损失函数，以及第二降噪特征和第一降噪特征之间的蒸馏损失函数，对学生网络进行知识蒸馏训练，得到训练后的音频降噪模型，从而在保证性能的前提下，实现了模型的轻量化。