技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音增强模型的训练方法及装置、存储介质及电子装置与流程  >  正文

语音增强模型的训练方法及装置、存储介质及电子装置与流程

  • 国知局
  • 2024-06-21 11:33:34

本技术涉及智慧家庭,具体而言,涉及一种语音增强模型的训练方法及装置、存储介质及电子装置。

背景技术:

1、相关技术中,语音增强方法大多以提升语音可懂度为目的,对于语音增强方法的主观和客观的评价方法主要围绕语音质量来进行。语音增强后除了为了让语音听起来更加清晰,还需要让语音识别系统在复杂的噪声环境下保持一定的鲁棒性。因此语音识别系统的评价指标—词错误率和字错误率也是侧面反映噪声环境下语音增强性能的好坏。目前较为先进的语音增强方案以神经网络和深度学习方法为主,应用深度学习的模型主要用最小均方误差,将信号噪声比和信号失真比来作为损失函数的输入,这样的方法只考虑到了信号的失真程度,而语音失真度和语音识别率有时并不是强相关的。因此在实际应用场景中,即使音频在主客观评教标准中获得了较好的分数,但语音识别率却不一定会得到提升,甚至可能下降。

2、针对语音识别率得不到提升的问题,现有的工程应用中往往把经过语音增强处理后的音频加入到语音识别模型的训练集中来补偿这一差距。但由于语音识别模型往往较大,训练周期较长,这样的做法相对耗时耗力,可行性低。

3、针对相关技术中,现有的语音增强模型仅考虑语音失真度,导致语音增强模型的输出结果准确度不高等问题,尚未提出有效的解决方案。

4、因此,有必要对相关技术予以改良以克服相关技术中的所述缺陷。

技术实现思路

1、本发明实施例提供了一种语音增强模型的训练方法及装置、存储介质及电子装置,以至少解决相关技术中现有的语音增强模型仅考虑语音失真度,导致语音增强模型的输出结果准确度不高的问题。

2、根据本发明实施例的一方面,提供一种语音增强模型的训练方法,包括:获取预设编码器对第一语音数据的第一编码结果,以及所述预设编码器对第二语音数据的第二编码结果;其中,所述第一语音数据为原始音频经过语音增强模型处理后的语音数据,所述第二语音数据为纯净语音数据,所述第一语音数据为添加噪声后的第二语音数据;对所述第一编码结果和所述第二编码结果进行计算,以确定所述第一编码结果和所述第二编码结果的第一差异数据;至少通过所述第一差异数据对所述语音增强模型进行训练,得到训练后的语音增强模型。

3、在一个示例性的实施例中,获取预设编码器对第一语音数据的第一编码结果之前,所述方法还包括:获取所述语音增强模型对所述原始音频进行处理所输出的第一时频掩膜;将所述第一时频掩膜和所述原始音频的相乘结果作为所述第一语音数据。

4、在一个示例性的实施例中,获取预设编码器对第一语音数据的第一编码结果之前,所述方法还包括:对所述原始音频进行特征提取,得到特征提取后的频率特征;将所述频率特征输入到所述语音增强模型中,得到原始音频对应的第二时频掩膜;将所述第二时频掩膜和所述原始音频的相乘结果作为所述第一语音数据。

5、在一个示例性的实施例中,对所述第一编码结果和所述第二编码结果进行计算,以确定所述第一编码结果和所述第二编码结果的第一差异数据,包括:确定损失函数对应的目标算法,其中,所述目标算法至少包括:最小均方误差算法;将所述第一编码结果和所述第二编码结果输入到所述目标算法中,以根据所述目标算法确定所述第一编码结果和所述第二编码结果的第一差异数据。

6、在一个示例性的实施例中,至少通过所述第一差异数据对所述语音增强模型进行训练,得到训练后的语音增强模型之后,所述方法还包括:在所述第一差异数据大于预设阈值的情况下,执行以下训练步骤:将所述原始音频输入到所述训练后的语音增强模型进行处理,并将得到的第三语音数据输入到预设编码器中进行编码,以得到第三编码结果;对所述第三编码结果和所述第二编码结果进行计算,以确定所述第三编码结果和所述第二编码结果的第二差异数据;通过所述第二差异数据对所述训练后的语音增强模型进行训练,得到再次训练后的语音增强模型。

7、在一个示例性的实施例中,通过所述第二差异数据再次对所述语音增强模型进行训练,得到再次训练后的语音增强模型之后,所述方法还包括:在所述第二差异数据大于所述预设阈值的情况下,再次执行所述训练步骤;在所述第二差异数据小于所述预设阈值的情况下,确定所述再次训练后的语音增强模型为训练完成的语音增强模型。

8、在一个示例性的实施例中,确定所述再次训练后的语音增强模型为训练完成的语音增强模型之后,所述方法还包括:在再次接收到所述原始音频的情况下,根据所述训练完成的语音增强模型对再次接收到的原始音频进行处理,得到所述原始音频的增强语音。

9、在一个示例性的实施例中,确定所述再次训练后的语音增强模型为训练完成的语音增强模型之后,所述方法还包括:在再次接收到所述原始音频的情况下,根据所述训练完成的语音增强模型对再次接收到的原始音频进行处理,得到估计语音数据;将所述估计语音数据映射到所述原始音频的语音频域,得到映射语音特征;将所述映射语音特征进行逆傅里叶变换,得到所述原始音频的增强语音。

10、在一个示例性的实施例中,获取预设编码器对第一语音数据的第一编码结果,以及所述预设编码器对第二语音数据的第二编码结果,包括:获取端到端语音识别框架中的编码器对第一语音数据的第一编码结果,以及所述端到端语音识别框架中的编码器对第二语音数据的第二编码结果。

11、根据本发明实施例的另一方面,还提供了一种语音增强模型的训练装置,包括:第一获取模块,用于获取预设编码器对第一语音数据的第一编码结果,以及所述预设编码器对第二语音数据的第二编码结果;其中,所述第一语音数据为原始音频经过语音增强模型处理后的语音数据,所述第二语音数据为纯净语音数据,所述第一语音数据为添加噪声后的第二语音数据;用于对所述第一编码结果和所述第二编码结果进行计算,以确定所述第一编码结果和所述第二编码结果的第一差异数据;训练模块,用于至少通过所述第一差异数据对所述语音增强模型进行训练,得到训练后的语音增强模型。

12、根据本发明实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述语音增强模型的训练方法。

13、根据本发明实施例的又一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述语音增强模型的训练方法。

14、通过本发明,获取预设编码器对第一语音数据的第一编码结果,以及所述预设编码器对第二语音数据的第二编码结果;其中,所述第一语音数据为原始音频经过语音增强模型处理后的语音数据,所述第二语音数据为纯净语音数据,所述第一语音数据为添加噪声后的第二语音数据;对所述第一编码结果和所述第二编码结果进行计算,以确定所述第一编码结果和所述第二编码结果的第一差异数据;至少通过所述第一差异数据对所述语音增强模型进行训练,得到训练后的语音增强模型;采用上述技术方案,解决了相关技术中现有的语音增强模型仅考虑语音失真度,导致语音增强模型的输出结果准确度不高的问题;实现了提升语音增强模型输出结果的准确度的技术效果。

本文地址:https://www.jishuxx.com/zhuanli/20240618/22237.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。