技术新讯 > 乐器声学设备的制造及制作,分析技术 > 远场语音增强处理方法、装置、计算机设备和存储介质与流程  >  正文

远场语音增强处理方法、装置、计算机设备和存储介质与流程

  • 国知局
  • 2024-06-21 10:39:12

本申请涉及云,特别是涉及一种远场语音增强处理方法、装置、计算机设备和存储介质。

背景技术:

1、随着云技术的发展,以及各类智能语音设备的广泛应用,对于语音识别准确度以及识别效率等的要求日益提升,出现了语音降噪增强技术。其中,语音增强技术的本质在于语音降噪,即由于语音采集设备比如麦克风等,所采集的语音通常带有不同噪声,通过利用语音增强技术,可以对带噪声的语音进行降噪处理,以得到不携带噪声的纯净语音。

2、其中,语音增强技术通常可以分为近场语音增强和远场语音增强,针对远场语音,通常采用由多个麦克风组成阵列进行语音拾取和降噪处理,麦克风阵列的配置一般有比如双麦、四麦以及六麦等不同情况,以便后续对经降噪处理后的语音数据进行识别和分析。

3、但发明人发现,远场语音增强和近场语音增强相比,由于距离更远,信噪比更低,所采集的语音通常伴有混响,面临着回声干扰、室内混响、多信号源干扰以及非平稳噪声等干扰因素,其降噪难度更大,降噪效果差,导致所采集到的语音数据质量低,识别准确度仍有待提升。

技术实现思路

1、基于此,有必要针对上述技术问题,提供一种能够提升远场语音的语音降噪效果和语音识别准确度的远场语音增强处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

2、第一方面,本申请提供了一种远场语音增强处理方法。所述方法包括:

3、获取携带有噪声数据和混响数据的远场语音数据,提取所述远场语音数据的带噪语音特征;

4、基于训练好的语音增强处理模型,确定与所述带噪语音特征对应的纯净掩码,根据所述纯净掩码和所述带噪语音特征进行降噪去混响处理,获得所述远场语音数据中的纯净语音;

5、其中,所述训练好的语音增强处理模型,是根据预先训练的第一降噪去混响模型,对预先训练的第二降噪去混响模型进行知识蒸馏训练得到的;所述第一降噪去混响模型和所述第二降噪去混响模型的网络层级结构相同,且所述第一降噪去混响模型的层级节点数大于所述第二降噪去混响模型中同一层级的层级节点数。

6、第二方面,本申请还提供了一种远场语音增强处理装置。所述装置包括:

7、带噪语音特征提取模块,用于获取携带有噪声数据和混响数据的远场语音数据,提取所述远场语音数据的带噪语音特征;

8、纯净语音获得模块,用于基于训练好的语音增强处理模型,确定与所述带噪语音特征对应的纯净掩码,根据所述纯净掩码和所述带噪语音特征进行降噪去混响处理,获得所述远场语音数据中的纯净语音;其中,所述训练好的语音增强处理模型,是根据预先训练的第一降噪去混响模型,对预先训练的第二降噪去混响模型进行知识蒸馏训练得到的;所述第一降噪去混响模型和所述第二降噪去混响模型的网络层级结构相同,且所述第一降噪去混响模型的层级节点数大于所述第二降噪去混响模型中同一层级的层级节点数。

9、第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:

10、获取携带有噪声数据和混响数据的远场语音数据,提取所述远场语音数据的带噪语音特征;

11、基于训练好的语音增强处理模型,确定与所述带噪语音特征对应的纯净掩码,根据所述纯净掩码和所述带噪语音特征进行降噪去混响处理,获得所述远场语音数据中的纯净语音;

12、其中,所述训练好的语音增强处理模型,是根据预先训练的第一降噪去混响模型,对预先训练的第二降噪去混响模型进行知识蒸馏训练得到的;所述第一降噪去混响模型和所述第二降噪去混响模型的网络层级结构相同,且所述第一降噪去混响模型的层级节点数大于所述第二降噪去混响模型中同一层级的层级节点数。

13、第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:

14、获取携带有噪声数据和混响数据的远场语音数据,提取所述远场语音数据的带噪语音特征;

15、基于训练好的语音增强处理模型,确定与所述带噪语音特征对应的纯净掩码,根据所述纯净掩码和所述带噪语音特征进行降噪去混响处理,获得所述远场语音数据中的纯净语音;

16、其中,所述训练好的语音增强处理模型,是根据预先训练的第一降噪去混响模型,对预先训练的第二降噪去混响模型进行知识蒸馏训练得到的;所述第一降噪去混响模型和所述第二降噪去混响模型的网络层级结构相同,且所述第一降噪去混响模型的层级节点数大于所述第二降噪去混响模型中同一层级的层级节点数。

17、第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:

18、获取携带有噪声数据和混响数据的远场语音数据,提取所述远场语音数据的带噪语音特征;

19、基于训练好的语音增强处理模型,确定与所述带噪语音特征对应的纯净掩码,根据所述纯净掩码和所述带噪语音特征进行降噪去混响处理,获得所述远场语音数据中的纯净语音;

20、其中,所述训练好的语音增强处理模型,是根据预先训练的第一降噪去混响模型,对预先训练的第二降噪去混响模型进行知识蒸馏训练得到的;所述第一降噪去混响模型和所述第二降噪去混响模型的网络层级结构相同,且所述第一降噪去混响模型的层级节点数大于所述第二降噪去混响模型中同一层级的层级节点数。

21、上述远场语音增强处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品中,通过获取携带有噪声数据和混响数据的远场语音数据,提取远场语音数据的带噪语音特征,进而基于训练好的语音增强处理模型,确定与带噪语音特征对应的纯净掩码,根据纯净掩码和带噪语音特征进行降噪去混响处理,获得远场语音数据中的纯净语音。由于训练好的语音增强处理模型,是根据预先训练的第一降噪去混响模型,对预先训练的第二降噪去混响模型进行知识蒸馏训练得到的,第一降噪去混响模型和第二降噪去混响模型的网络层级结构相同,且第一降噪去混响模型的层级节点数大于第二降噪去混响模型中同一层级的层级节点数,进而可通过知识蒸馏训练处理,使得第二降噪去混响模型,可学习到层级节点数更大的第一降噪去混响模型的降噪去混响的性能,进而提升训练得到的语音增强处理模型的去噪去混响性能。同时,由于无需对层级节点数更大的第一降噪去混响模型进行二次训练,可减少模型训练过程中的训练量和计算量,并提升最终得到的语音增强处理模型的降噪去混响效果,进一步提升后续对所得到的纯净语音数据的语音识别准确度。

技术特征:

1.一种远场语音增强处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,训练得到所述语音增强处理模型的方式,包括:

3.根据权利要求2所述的方法,其特征在于,所述根据所述第一降噪去混响模型,对所述第二降噪去混响模型进行知识蒸馏训练,获得训练好的语音增强处理模型,包括:

4.根据权利要求2或3所述的方法,其特征在于,所述第一原始降噪去混响模型和第二原始降噪去混响模型,均包括共享层、深度聚类层以及掩码推断层;所述第一降噪去混响模型和第二降噪去混响模型的训练方式相同;所述训练方式,包括:

5.根据权利要求4所述的方法,其特征在于,所述根据所述分类预测结果和所述掩码推断结果,确定模型降噪损失函数,包括:

6.根据权利要求3所述的方法,其特征在于,基于训练好的语音增强处理模型,确定与所述带噪语音特征对应的纯净掩码,包括:

7.根据权利要求1至3任意一项所述的方法,其特征在于,所述获取携带有噪声数据和混响数据的远场语音数据,提取所述远场语音数据的带噪语音特征,包括:

8.一种远场语音增强处理装置,其特征在于,所述装置包括:

9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

11.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

技术总结本申请涉及一种远场语音增强处理方法、装置、计算机设备和存储介质。所述方法涉及云技术,包括:获取携带有噪声数据和混响数据的远场语音数据,提取远场语音数据的带噪语音特征,基于训练好的语音增强处理模型,确定与带噪语音特征对应的纯净掩码,根据纯净掩码和带噪语音特征进行降噪去混响处理,获得远场语音数据中的纯净语音。训练好的语音增强处理模型,根据预先训练的第一降噪去混响模型,对预先训练的第二降噪去混响模型进行知识蒸馏训练得到。采用本方法可使得第二降噪去混响模型,学习到层级节点数更大的第一降噪去混响模型的性能,减少模型训练量和计算量,提升语音增强处理模型的降噪去混响效果,以及对纯净语音数据的语音识别准确度。技术研发人员:黄俊,王燕南受保护的技术使用者:腾讯科技(深圳)有限公司技术研发日:技术公布日:2024/1/15

本文地址:https://www.jishuxx.com/zhuanli/20240618/20949.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。