技术新讯 > 乐器声学设备的制造及制作,分析技术 > 回声消除、模型训练方法、装置、电子设备及存储介质与流程  >  正文

回声消除、模型训练方法、装置、电子设备及存储介质与流程

  • 国知局
  • 2024-06-21 11:37:34

本发明涉及人工智能,尤其涉及一种回声消除、模型训练方法、装置、电子设备及存储介质。

背景技术:

1、声学回声消除(acoutic echo cancellation,aec)旨在利用远端信号等参考信号,消除麦克风语音中的回声。回声消除算法的最佳目标是做到回声完全消除,同时目标语音不出现失真现象。

2、在实际系统中,常用的自适应滤波器,例如卡尔曼滤波器(kalman filter,kf)、最小均方滤波(least mean square,lms)以及多延迟块频域自适应滤波器(multidelayblock frequency domain adaptive filter,(mdf))等,对于回声的消除能力有限,特别是在延迟出现抖动、扬声器和录音设备存在非线性的场景,为此通常还需要级联一个非线性残余回声抑制模块。

3、随着深度学习的发展,深度神经网络展现出了强大的非线性拟合能力,深度学习被应用在越来越多的场景中,将其作为aec后滤波模块来消除残余回声也得到越来越多的关注。但是在提高回声抑制量的同时,深度神经网络学习可能会趋于消除目标语音,出现过度抑制的现象。为避免过度抑制,相关技术中,往往通过增加惩罚过度抑制的损失函数训练神经网络来促使神经网络学习趋于避免消除目标语音。但由于深度神经网络并没有学习到什么时候应该抑制或者不抑制,导致模型性能存在不稳定的风险。

技术实现思路

1、本发明实施例提供一种回声消除、模型训练方法、装置、电子设备及存储介质,以解决相关技术中由于深度神经网络并没有学习到什么时候应该抑制或者不抑制,导致模型性能存在不稳定的风险的技术问题。

2、本发明实施例提供了一种非线性回声消除模型训练方法,所述方法包括:获取训练样本,所述训练样本包括样本麦克风频谱信号、样本线性滤波输出频谱信号和样本线性回声频谱信号;将所述样本麦克风频谱信号、所述样本线性滤波输出频谱信号和所述样本线性回声频谱信号输入多任务模型,所述多任务模型包括非线性回声消除模型和语音端点检测模型,得到所述非线性回声消除模型输出的预测近端频谱信号,以及得到所述语音端点检测模型输出的预测语音标签概率数据;根据所述预测语音标签概率数据、所述预测近端频谱信号以及所述样本麦克风频谱信号对应的真实语音标签和真实近端频谱信号确定训练目标不同的多个损失函数;基于多个损失函数更新所述多任务模型的参数,得到训练后的多任务模型;将训练后的多任务模型中的非线性回声消除模型确定为训练后的非线性回声消除模型,以完成对所述非线性回声消除模型的训练。

3、于本发明一实施例中,所述根据所述预测语音标签概率数据、所述预测近端频谱信号以及所述样本麦克风频谱信号对应的真实语音标签和真实近端频谱信号确定训练目标不同的多个损失函数包括:

4、根据所述预测语音标签概率数据和所述样本麦克风频谱信号对应的真实语音标签确定语音标签损失函数;根据所述预测语音标签概率数据、预设权重因子、所述预测近端频谱信号和所述样本麦克风频谱信号对应的真实近端频谱信号确定辅助估计损失函数;根据所述预测近端频谱信号和所述样本麦克风频谱信号对应的真实近端频谱信号确定估计近端干净信号损失函数;其中,所述多个损失函数至少包括所述语音标签损失函数、所述辅助估计损失函数和所述估计近端干净信号损失函数。

5、于本发明一实施例中,根据所述预测语音标签概率数据、预设权重因子、所述预测近端频谱信号和所述样本麦克风频谱信号对应的真实近端频谱信号确定辅助估计损失函数,包括:对所述预测语音标签概率数据进行离散随机变量的重参数化,得到重参数化结果,基于所述重参数化结果和预设权重因子确定语音标签权重;基于样本麦克风频谱信号频数、样本麦克风频谱信号帧数、所述语音标签权重、所述预测近端频谱信号和所述样本麦克风频谱信号对应的真实近端频谱信号确定所述辅助估计损失函数。

6、于本发明一实施例中,根据所述预测语音标签概率数据和所述样本麦克风频谱信号对应的真实语音标签确定语音标签损失函数,包括:根据所述预测语音标签概率数据和所述样本麦克风频谱信号对应的真实语音标签之间的交叉熵损失确定所述语音标签损失函数。

7、于本发明一实施例中,所述方法还包括:根据所述语音标签损失函数、第一预设损失平衡参数与所述辅助估计损失函数、第二预设损失平衡参数与所述估计近端干净信号损失函数确定所述多个损失函数。

8、于本发明一实施例中,获取训练样本之前,所述方法还包括:获取样本麦克风信号和样本远端信号,所述样本麦克风信号至少包括样本近端语音信号和样本声学回声信号;将所述样本麦克风信号和所述样本远端信号进行频域转换,得到样本麦克风频谱信号和样本远端频谱信号;将所述样本麦克风频谱信号和所述样本远端频谱信号进行线性滤波,得到样本线性滤波输出频谱信号和样本线性回声频谱信号;将所述样本麦克风频谱信号、样本线性滤波输出频谱信号和样本线性回声频谱信号作为所述训练样本。

9、本发明实施例还提供了一种回声消除方法,所述方法包括:获取远端信号和麦克风信号;将所述远端信号和麦克风信号进行频域转换,得到麦克风频谱信号和远端频谱信号;通过预设线性滤波器对样本麦克风频谱信号和所述远端频谱信号进行线性滤波,得到线性滤波输出频谱信号和线性回声频谱信号;将所述麦克风频谱信号、样本线性滤波输出频谱信号和样本线性回声频谱信号输入训练后的非线性回声消除模型以对所述麦克风信号进行回声信号消除,其中,所述训练后的非线性回声消除模型通过如上述任一项实施例所述的非线性回声消除模型训练方法训练得到。

10、本发明实施例还提供了一种非线性回声消除模型训练装置,所述装置包括:样本获取模块,用于获取训练样本,所述训练样本包括样本麦克风频谱信号、样本线性滤波输出频谱信号和样本线性回声频谱信号;模型训练模块,用于将所述样本麦克风频谱信号、所述样本线性滤波输出频谱信号和所述样本线性回声频谱信号输入多任务模型,所述多任务模型包括非线性回声消除模型和语音端点检测模型,得到所述非线性回声消除模型输出的预测近端频谱信号,以及得到所述语音端点检测模型输出的预测语音标签概率数据;根据所述预测语音标签概率数据、所述预测近端频谱信号以及所述样本麦克风频谱信号对应的真实语音标签和真实近端频谱信号确定训练目标不同的多个损失函数;基于多个损失函数更新所述多任务模型的参数,得到训练后的多任务模型;模型确定模块,用于将训练后的多任务模型中的非线性回声消除模型确定为训练后的非线性回声消除模型,以完成对所述非线性回声消除模型的训练。

11、本发明实施例还提供了一种回声消除装置,所述装置包括:信号获取模块,用于获取远端信号和麦克风信号;频域转换模块,用于将所述远端信号和麦克风信号进行频域转换,得到麦克风频谱信号和远端频谱信号;预设线性滤波器,用于对样本麦克风频谱信号和所述远端频谱信号进行线性滤波,得到线性滤波输出频谱信号和线性回声频谱信号;非线性回声消除模块,用于将所述麦克风频谱信号、样本线性滤波输出频谱信号和样本线性回声频谱信号输入训练后的非线性回声消除模型以对所述麦克风信号进行回声信号消除,其中,所述训练后的非线性回声消除模型通过如任一项实施例所述的非线性回声消除模型训练方法训练得到。

12、本发明实施例还提供了一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一项实施例所述的方法。

13、本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述任一项实施例所述的方法。

14、上述提供的回声消除、模型训练方法、装置、电子设备及存储介质所实现的方案中,该回声消除模型训练方法通过将样本麦克风频谱信号、样本线性滤波输出频谱信号和样本线性回声频谱信号作为训练样本对包括有非线性回声消除模型和语音端点检测模型的多任务模型进行训练根据预测语音标签概率数据、预测近端频谱信号以及样本麦克风频谱信号对应的真实语音标签和真实近端频谱信号确定训练目标不同的多个损失函数,并通过多个损失函数更新多任务模型的参数,将训练后的多任务模型中的非线性回声消除模型确定为训练后的非线性回声消除模型,以完成对非线性回声消除模型的训练,通过在非线性回声消除模型训练过程中,使用vad模块(语音端点检测模型)作为辅助任务,由于vad模块能够减少后滤波模型的过度抑制,回声加权的损失函数使得模型学习趋于增加回声抑制量并且不会对语音过度抑制,能够有效增加回声抑制量并且不会对语音过度抑制。由于增加了vad模块作为辅助任务,使得模型可以区分语音帧和非语音帧,对非语音帧减少了回声抑制效果,对语音帧正常进行回声抑制,还能够实现后滤波模型(非线性回声消除模型)过度抑制减少,后端识别效果提升,有效提升了后端识别效果和模型稳定性。

本文地址:https://www.jishuxx.com/zhuanli/20240618/22519.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。