技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音增强模型的训练及语音增强方法、装置、设备及介质与流程  >  正文

语音增强模型的训练及语音增强方法、装置、设备及介质与流程

  • 国知局
  • 2024-06-21 11:57:23

本技术涉及数字信号处理及深度学习,尤其涉及一种语音增强模型的训练及语音增强方法、装置、设备及介质。

背景技术:

1、随着通信技术和智能设备的飞速发展,人们对清晰、高质量语音的需求日益增加。然而,在实际应用中,语音信号往往受到各种噪声和干扰的影响,降低了语音质量和辨识度。为了解决这一问题,语音降噪在数字信号处理领域扮演着至关重要的角色。

2、目前,语音降噪方法主要依赖于降噪模型,该降噪模型的训练和优化是提高语音降噪质量的关键。图1为现有的一种语音增强模型训练和优化方法,在该方法中,首先通过数据模拟的方式混合干净语音数据库中的干净语音数据和噪声数据库中的噪声数据,得到含噪语音数据库。其中,对于该含噪语音数据库中的任一含噪语音,该含噪语音在干净语音数据库中对应有干净语音。然后对这些含噪语音进行特征提取,获取含噪语音特征,以通过获取到的含噪语音特征,对神经网络模型进行训练。在神经网络模型中,通过估计频谱的增益mask,可以有效地去除含噪语音中的噪声,从而恢复出预测干净语音数据。通过损失函数计算各含噪语音分别对应的干净语音数据分别与对应的预测干净语音数据之间的损失值,以确定降噪效果,并基于损失值对该神经网络模型的参数进行优化。上述过程不断迭代,直到计算得到的损失值达到收敛条件。

3、对于上述的语音降噪方法,该方法一般采用将语音损伤和噪声残留对语音损失的贡献视为相等的损失函数,比如,信噪比(signal-to-noise ratio,snr)、尺度不变信噪比波形(scale-invariant signal-to-noise ratio,si-snr)、基于波形或频谱的均方误差(mean squared error,mse)、基于波形或频谱的平均绝对误差(mean absolute error,mae)等。这些损失函数会导致预测的干净语音存在非线性失真,影响预测的干净语音的听感质量。

技术实现思路

1、本技术提供了一种语音增强模型的训练及语音增强方法、装置、设备及介质,用于解决现有的语音增强模型会导致预测的干净语音存在非线性失真,影响预测的干净语音的听感质量的问题。

2、第一方面,本技术提供了一种语音增强模型的训练方法,所述方法包括:

3、对预先训练的基础语音增强模型进行迭代训练,在每次所述基础语音增强模型的迭代过程中基于干净语音样本集中的任一干净语音样本以及噪声样本集中包括的至少一条噪声样本确定样本语音数据;其中,所述基础语音增强模型是基于通用损失函数训练得到的;

4、针对每次所述基础语音增强模型的迭代训练,通过所述基础语音增强模型,基于所述样本语音数据,确定所述样本语音数据对应的第一预测干净语音数据;确定本次迭代的语音优化损失函数;其中,所述语音优化损失函数中的损失函数包括所述通用损失函数和语音补偿损失函数;根据所述语音优化损失函数、所述样本语音数据、所述干净语音数据、以及所述第一预测干净语音数据,对所述基础语音增强模型中的参数进行调整,直到所述语音优化损失函数满足第一收敛条件时获得优化后的语音增强模型;

5、其中,所述语音补偿损失函数为:

6、

7、

8、其中,l1为所述语音补偿损失函数,t为第t帧语音帧,m=bs(t,b)-be(t,b)·v(t)),t为所述样本语音数据包含的语音帧数量,b为第b维滤波组,b为所述滤波组的数量,bs为所述干净语音数据的频率特征,be为所述第一预测干净语音数据的频率特征,0<η<1,v(t)为第t帧语音帧对应的语音活动信息,所述语音活动信息用于指示该语音帧的类型是否为语音还是为噪声。

9、第二方面,本技术还提供了一种基于上述所述模型的语音增强方法,所述方法包括:

10、获取待处理语音数据;

11、通过预先训练的语音增强模型,基于所述待处理语音数据,获取预测干净语音数据;其中,所述语音增强模型是根据所述语音优化损失函数,对基础语音增强模型进行训练得到的。

12、第三方面,本技术还提供了一种语音增强模型的训练装置,所述装置包括:

13、第一处理单元,用于对预先训练的基础语音增强模型进行迭代训练,在每次所述基础语音增强模型的迭代过程中基于干净语音样本集中的任一干净语音样本以及噪声样本集中包括的至少一条噪声样本确定样本语音数据;其中,所述基础语音增强模型是基于通用损失函数训练得到的;

14、第二处理单元,用于针对每次所述基础语音增强模型的迭代训练,通过所述基础语音增强模型,基于所述样本语音数据,确定所述样本语音数据对应的第一预测干净语音数据;确定本次迭代的语音优化损失函数;其中,所述语音优化损失函数中的损失函数包括所述通用损失函数和语音补偿损失函数;根据所述语音优化损失函数、所述样本语音数据、所述干净语音数据、以及所述第一预测干净语音数据,对所述基础语音增强模型中的参数进行调整,直到所述语音优化损失函数满足第一收敛条件时获得优化后的语音增强模型;其中,所述语音补偿损失函数为:

15、

16、

17、其中,l1为所述语音补偿损失函数,t为第t帧语音帧,m=bs(t,b)-be(t,b)·v(t)),t为所述样本语音数据包含的语音帧数量,b为第b维滤波组,b为所述滤波组的数量,bs为所述干净语音数据的频率特征,be为所述第一预测干净语音数据的频率特征,0<η<1,v(t)为第t帧语音帧对应的语音活动信息,所述语音活动信息用于指示该语音帧的类型是否为语音还是为噪声。

18、第四方面,本技术还提供了一种基于上述所述模型的语音增强装置,所述装置包括:

19、获取模块,用于获取待处理语音数据;

20、处理模块,用于通过预先训练的语音增强模型,基于所述待处理语音数据,获取预测干净语音数据;其中,所述语音增强模型是根据所述语音优化损失函数,对基础语音增强模型进行训练得到的。

21、第五方面,本技术提供了一种计算机设备,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如上述所述语音增强模型的训练方法的步骤,或,实现如上述所述语音增强方法的步骤。

22、第六方面,本技术提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现如上述所述语音增强模型的训练方法的步骤,或,实现如上述所述语音增强方法的步骤。

23、本技术的有益效果如下:

24、1、由于在对基础语音增强模型进行训练的过程中,使用了包含通用损失函数和语音补偿损失函数的语音优化损失函数,使得优化后的语音增强模型可以同时考虑基本的语音去噪质量和针对语音失真的补偿,从而更全面地优化语音增强模型的性能。

25、2、由于在语音补偿损失函数中,通过非线性函数gasym(m)可以对语音失真大于噪声残留的语音段进行补偿,从而更有效地减少语音失真。

26、3、在计算语音补偿损失函数时,考虑了语音帧的语音活动信息,即判定帧是语音还是噪声,使得语音增强模型在处理语音和噪声时采取不同的策略,提高语音增强的准确性。

27、4、由于预先训练了一个基础语音增强模型,再对该基础语音增强模型进行微调,通过该微调可以保留基础语音增强模型优势再予以补偿,极大地降低了获取得到优化后的语音增强模型的难度,避免训练优化后的语音增强模型受到不同特性损失函数的拉扯而造成收敛困难。

本文地址:https://www.jishuxx.com/zhuanli/20240618/24709.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。