技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于深度学习的语音增强的过度抑制减轻的制作方法 > 正文

基于深度学习的语音增强的过度抑制减轻的制作方法

国知局
2024-06-21 11:30:12

本申请涉及音频处理和机器学习。

背景技术：

1、在本节中描述的方法是可以采用的方法，但不一定是先前已经设想到或采用过的方法。因此，除非另有指示，否则不应该认为本节中描述的任何方法仅凭其纳入本节就可被视为现有技术。

2、近年来，各种机器学习模型已被用于语音增强。与传统的信号处理方法(比如维纳滤波器或谱减法)相比，机器学习方法已表现出显著的改进，特别是对于非平稳噪声和低信噪比(snr)的情况。

3、现有的用于语音检测和增强的机器学习方法经常出现语音过度抑制，这可能导致语音失真，或甚至不连续。例如，当发生语音过度抑制时，话音可能会急剧衰退而听起来不自然，这可能是一个问题，尤其是在存在非平稳噪声或处于低snr的情况下。另外，过度抑制可能消除或减少清音(unvoiced sound)或高频摩擦音，它们与噪声具有相同的特性。过度抑制还可能消除或减少笑声或掌声事件，这些事件仍然构成非噪声信号，但同样与噪声共享特性。

4、在存储的音频内容或实时通信中，改进用于语音增强的传统机器学习方法(包括减轻语音过度抑制问题)将是有帮助的。

技术实现思路

1、公开了一种减轻语音过度抑制的计算机实施的方法。所述方法包括由处理器接收作为多个帧和多个频带上的联合时频表示的音频数据。所述方法包括在所述音频数据的特征上执行用于检测语音的数字模型，所述数字模型是使用带有非线性惩罚的损失函数训练的，所述损失函数对语音过度抑制的惩罚大于对语音抑制不足的惩罚，并且所述数字模型被配置为产生估计掩码值的掩码，所述估计掩码值指示针对所述多个帧中的每一帧和所述多个频带中的每个频带中存在的语音量。所述方法进一步包括将关于所述掩码的信息传输到设备。

2、本说明书中描述的技术可以优于传统的音频处理技术。例如，所述方法通过降低噪声、保留和锐化语音(比如高频摩擦音和低电平填声停顿)同时保留其他非噪声信号(比如笑声或掌声)来提高音频质量。所提高的音频质量能让用户更好地感知音频并更好地享受音频。

技术特征：

1.一种减轻语音过度抑制的计算机实施的方法，包括：

2.如权利要求1所述的计算机实施的方法，

3.如权利要求1所述的计算机实施的方法，

4.如权利要求1至3中任一项所述的计算机实施的方法，

5.如权利要求1至4中任一项所述的计算机实施的方法，所述数字模型是使用语音和非语音的不同混合的联合时频表示的训练数据集来训练的人工神经网络。

6.如权利要求1至5中任一项所述的计算机实施的方法，进一步包括：

7.如权利要求1至6中任一项所述的计算机实施的方法，

8.如权利要求1至7中任一项所述的计算机实施的方法，进一步包括：

9.如权利要求8所述的计算机实施的方法，所述预定话音衰减率为200ms混响时间。

10.如权利要求1至9中任一项所述的计算机实施的方法，进一步包括：

11.如权利要求10所述的计算机实施的方法，进一步包括：

12.一种用于减轻语音过度抑制的系统，包括：

13.一种存储计算机可执行指令的计算机可读非暂态存储介质，所述指令当被执行时实施减轻语音过度抑制的方法，所述方法包括：

14.如权利要求13所述的计算机可读非暂态存储介质，

15.如权利要求13所述的计算机可读非暂态存储介质，

16.如权利要求13至15中任一项所述的计算机可读非暂态存储介质，所述方法进一步包括：

17.如权利要求13至16中任一项所述的计算机可读非暂态存储介质，所述方法进一步包括：

18.如权利要求13至17中任一项所述的计算机可读非暂态存储介质，所述方法进一步包括：

19.如权利要求13至18中任一项所述的计算机可读非暂态存储介质，所述方法进一步包括：

20.如权利要求19所述的计算机可读非暂态存储介质，所述方法进一步包括：

技术总结公开了一种用于减轻语音和其他非噪声信号的过度抑制的系统。在一些实施例中，系统被编程为使用非线性的不对称损失函数来训练用于语音检测或增强的第一机器学习模型，非线性的不对称损失函数对语音过度抑制的惩罚大于对语音抑制不足的惩罚。第一机器学习模型被配置为接收音频信号并生成指示音频信号中存在的语音量的掩码。可以调整所述掩码以纠正由于语音过度抑制而导致的急剧话音衰减。所述系统还被编程为训练用于笑声或掌声检测的第二机器学习模型。所述系统进一步被编程为通过将调整后的掩码应用到除了音频信号中已被识别为对应于笑声或掌声的部分之外的新音频信号来提高新音频信号的质量。技术研发人员：李凯,戴佳,刘晓宇受保护的技术使用者：杜比实验室特许公司技术研发日：技术公布日：2024/2/25