技术新讯 > 乐器声学设备的制造及制作,分析技术 > 训练方法、语音增强方法、电子设备及可读存储介质与流程 > 正文

训练方法、语音增强方法、电子设备及可读存储介质与流程

国知局
2024-06-21 11:46:52

本申请涉及语音处理领域，特别是涉及一种语音增强网络的训练方法、语音增强方法、电子设备及计算机可读存储介质。

背景技术：

1、在语音通话、人机交互等使用音频技术的场景中，除了干净语音，还存在大量噪声，例如室内走动声，室外鸣笛声等。噪声会影响设备通信的性能，因此需要尽可能地消除噪声，增强干净语音。传统语音增强算法，例如维纳滤波、最优改进对数幅度谱，利用了平稳噪声(特征不随时间变化的噪声)的统计特征，提高了音频质量，但噪声复杂时效果有限。而随着技术的发展，基于深度学习的语音增强技术得到了广泛应用。基于深度学习的语音增强技术不仅改善了平稳噪声抑制，还解决了传统算法难以解决的非平稳噪声问题。因此如何训练深度学习模型，使其经过增强的语音跟接近于无噪语音，提高深度学习模型的性能以及鲁棒性，改善语音增强的效果成为了本领域技术人员亟需解决的技术问题。

技术实现思路

1、本申请主要目的是提供一种语音增强网络的训练方法、语音增强方法、电子设备及计算机可读存储介质，能够提高语音增强网络的性能，改善语音增强的效果。

2、为解决上述技术问题，本申请采用的第一个技术方案是：提供一种语音增强网络的训练方法，该方法包括获取带噪语音信号和无噪语音信号，带噪语音信号基于带噪语音得到，无噪语音信号基于无噪语音得到，带噪语音基于无噪语音得到；将带噪语音信号输入至预构建语音增强网络中获取第一语音信号，对无噪语音信号进行处理得到语音特征信息；基于语音特征信息和第一语音信号获取损失函数；利用损失函数对语音增强网络进行参数调整，以完成对语音增强网络的训练。

3、为解决上述技术问题，本申请采用的第二个技术方案是：提供一种语音增强方法，该方法包括获取待增强语音；将待增强语音输入至语音增强网络中得到增强语音，语音增强网络基于第一个技术方案中的训练方法得到。

4、为解决上述技术问题，本申请采用的第三个技术方案是：提供一种电子设备。该电子设备包括存储器和处理器，存储器用于存储程序数据，程序数据能够被处理器执行，以实现如第一个技术方案中所述的方法。

5、为解决上述技术问题，本申请采用的第四个技术方案是：提供一种计算机可读存储介质。该计算机可读存储介质存储有程序数据，能够被处理器执行，以实现如第一个技术方案中所述的方法。

6、本申请的有益效果是：获取无噪语音信号和带噪语音信号，将带噪语音信号输入至语音增强网络中获取输出的第一语音信号，同时对无噪语音信号进行处理获取语音特征信息。由于带噪语音信号基于带噪语音得到，而带噪语音由无噪语音得到，无噪语音则用于生成无噪语音信号，在获取到语音增强网络对带噪语音信号增强后的第一语音信号后，利用相对应的无噪语音的语音特征信息来对第一语音信号进行处理，获取语音增强网络的损失函数，利用该损失函数对语音增强网络进行参数调整，使得输出的增强语音更加接近于无噪语音，提高语音增强网络的性能，改善语音增强的效果。

技术特征：

1.一种语音增强网络的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取带噪语音信号和无噪语音信号，包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述无噪语音信号进行处理得到语音特征信息，包括；

4.根据权利要求3所述的方法，其特征在于，所述基于所述语音特征信息和所述第一语音信号获取损失函数，包括：

5.根据权利要求4所述的方法，其特征在于，所述语音特征信息包括lpc系数，所述利用所述语音特征信息对所述第一语音信号进行处理得到第一语音损失，利用所述语音特征信息对所述第二语音信号进行处理得到第二语音损失，包括：

6.根据权利要求3所述的方法，其特征在于，所述利用所述损失函数对所述语音增强网络进行参数调整，以完成对所述语音增强网络的训练，包括：

7.根据权利要求6所述的方法，其特征在于，所述获取其他损失，包括：

8.一种语音增强方法，其特征在于，所述方法包括：

9.一种电子设备，其特征在于，包括存储器和处理器，所述存储器用于存储程序数据，所述程序数据能够被所述处理器执行，以实现如权利要求1-8任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，存储有程序数据，能够被处理器执行，以实现如权利要求1-8任一项所述的方法。

技术总结本申请公开了一种语音增强网络的训练方法、语音增强方法、电子设备及计算机可读存储介质。该方法包括获取带噪语音信号和无噪语音信号，带噪语音信号基于带噪语音得到，无噪语音信号基于无噪语音得到，带噪语音基于无噪语音得到；将带噪语音信号输入至预构建语音增强网络中获取第一语音信号，对无噪语音信号进行处理得到语音特征信息；基于语音特征信息和第一语音信号获取损失函数；利用损失函数对语音增强网络进行参数调整，以完成对语音增强网络的训练。通过上述方式，本申请能够提高语音增强网络的性能，改善语音增强的效果。技术研发人员：薛晗,黄景标,林聚财,方瑞东,毛亚朋,黄威震,王国龙,殷俊受保护的技术使用者：浙江大华技术股份有限公司技术研发日：技术公布日：2024/4/29