技术新讯 > 乐器声学设备的制造及制作,分析技术 > 用于使用递归神经网络进行统一声学回声抑制的技术的制作方法 > 正文

用于使用递归神经网络进行统一声学回声抑制的技术的制作方法

国知局
2024-09-11 14:36:57

与本公开的示例实施例一致的装置和方法总体上涉及利用神经网络的数据处理和用于语音增强的深度学习。具体地，实施例涉及训练神经回声(neuralecho)模型和统一模型中的自动增益控制(agc)任务以执行声学回声消除(aec)并改善回声和噪声抑制。相关技术的描述声学回声消除(aec)在全双工语音通信以及在扬声器播放时的条件下用于识别的前端语音增强中起重要作用。在相关技术中，已经研究了用于估计声学回声路径和线性回声消除的自适应滤波方法。归一化最小均方滤波器(例如，频域自适应滤波器和多延迟块频域自适应滤波器)由于其稳健性和低复杂度而被广泛使用。非线性后处理通常被级联用于残余回声抑制。然而，这些方法对于非线性回声失真、回声路径变化和非平稳噪声并不有效。因此，已经采用深度神经网络(例如，复值dnn、长短期记忆网络和多头自注意力)来开发回声抑制系统，以更好地处理非线性回声失真和回声路径延迟。在相关技术中，采用线性自适应滤波，继之以基于神经网络的残余回声抑制，以形成用于aec系统设计的混合系统，并且取得了有希望的结果。相关技术还描述了两阶段多通道联合aec和波束成形以及支持音频前端aec、噪声抑制和agc的nn3a模型。aec还被公式化为一种端到端监督语音增强问题，其中采用神经网络来预测用于提取近端目标说话者的掩码。在一些相关技术中，aec任务采用双信号变换lstm网络(dtln)，并且提出一种基于wave-u-net的具有注意力机制的声学回声消除来联合抑制声学回声和背景噪声。使用复杂神经网络和频率-时间-lstm(f-t-lstm)提供了重要的相位信息建模和时间建模，优于aec中的最佳方法。

背景技术：

技术实现思路

1、根据实施例，提供了用于经由neuralecho模型和在统一模型中训练的自动增益控制(agc)进行声学回声抑制的方法，以执行声学回声消除(aec)并改善回声和噪声抑制。

2、根据本公开的一方面，提供了一种由至少一个处理器执行的用于使用递归神经网络进行声学回声抑制的方法。该方法包括：接收麦克风信号和远端参考信号；基于麦克风信号和远端参考信号来估计回声抑制信号和回声信号；基于回声抑制信号和回声信号来估计用于麦克风信号的增强滤波器；基于增强滤波器来生成增强信号；以及使用自动增益控制(agc)来调整增强信号并且输出经调整的信号。

3、该方法可以进一步包括第一阶段和第二阶段，其中由第一阶段估计回声抑制信号和回声信号，并且由第二阶段估计增强滤波器。

4、在第一阶段中，该方法可以进一步包括：基于麦克风信号和远端参考信号来计算第一协方差矩阵；通过第一线性投影滤波器处理第一协方差矩阵，并且对第一线性投影滤波器的结果进行编码以估计第一阶段滤波器；将第一阶段滤波器应用于时间-频率移位的麦克风信号和远端参考信号；以及输出回声抑制信号和回声信号。

5、在第二阶段中，该方法可以进一步包括：基于第一线性投影滤波器和回声抑制信号和回声信号的归一化对数功率谱来生成第二阶段输入特征；通过第二线性投影滤波器处理第二阶段输入特征；对第二线性投影滤波器的结果进行编码以估计第二阶段滤波器，并且应用第二阶段滤波器以估计目标语音和麦克风噪声的通道；基于目标语音和麦克风噪声的估计通道来计算第二协方差矩阵；以及通过递归神经网络处理第二协方差矩阵并且输出增强滤波器。

6、该方法可以进一步包括其中麦克风信号包括目标语音、失真远端参考信号和麦克风噪声。

7、该方法可以进一步包括基于时域中的尺度不变信号失真比和增强信号与目标信号之间的频谱幅度差的l1范数来计算损失函数。

8、该方法可以进一步包括其中调节增强信号包括：对增强信号幅度进行编码以预测agc幅度；基于增强信号的相位在时域中生成agc信号；以及基于agc信号来调整增强信号。

9、根据本公开的另一方面，一种用于使用递归神经网络进行声学回声抑制的装置包括：至少一个存储器，该至少一个存储器被配置为存储程序代码；以及至少一个处理器，该至少一个处理器被配置为读取该程序代码并且按照该程序代码的指示进行操作。该程序代码包括：接收代码，该接收代码被配置为使至少一个处理器接收麦克风信号和远端参考信号；信号估计代码，该信号估计代码被配置为使至少一个处理器基于麦克风信号和远端参考信号来估计回声抑制信号和回声信号；滤波器估计代码，该滤波器估计代码被配置为使至少一个处理器基于回声抑制信号和回声信号来估计用于麦克风信号的增强滤波器；生成代码，该生成代码被配置为使至少一个处理器基于增强滤波器来生成增强信号；以及调整代码，该调整代码被配置为使至少一个处理器使用自动增益控制(agc)来调整增强信号并且输出经调整的信号。

10、该装置可以进一步包括第一阶段和第二阶段，其中由第一阶段估计回声抑制信号和回声信号，并且由第二阶段估计增强滤波器。

11、在第一阶段中，该装置可以进一步包括：计算代码，该计算代码被配置为使至少一个处理器基于麦克风信号和远端参考信号来计算第一协方差矩阵；处理代码，该处理代码被配置为使至少一个处理器通过第一线性投影滤波器处理第一协方差矩阵并且对第一线性投影滤波器的结果进行编码以估计第一阶段滤波器；应用代码，该应用代码被配置为使至少一个处理器将第一阶段滤波器应用于时间-频率移位的麦克风信号和远端参考信号；以及输出代码，该输出代码被配置为使至少一个处理器输出回声抑制信号和回声信号。

12、在第二阶段中，该装置可以进一步包括：第二生成代码，该第二生成代码被配置为使至少一个处理器基于第一线性投影滤波器以及回声抑制信号和回声信号的归一化对数功率谱来生成第二阶段输入特征；第二处理代码，该第二处理代码被配置为使至少一个处理器通过第二线性投影滤波器处理第二阶段输入特征，对第二线性投影滤波器的结果进行编码以估计第二阶段滤波器，并且应用第二阶段滤波器以估计目标语音和麦克风噪声的通道；第二计算代码，该第二计算代码被配置为使至少一个处理器基于目标语音和麦克风噪声的估计通道来计算第二协方差矩阵；以及第三处理代码，该第三处理代码被配置为使至少一个处理器通过递归神经网络处理第二协方差矩阵并且输出增强滤波器。

13、该装置可以进一步包括其中麦克风信号包括目标语音、失真远端参考信号和麦克风噪声。

14、该装置可以进一步包括计算代码，该计算代码被配置为使至少一个处理器基于时域中的尺度不变信号失真比和增强信号与目标信号之间的频谱幅度差的l1范数来计算损失函数。

15、该装置可以进一步包括：在调整代码中的编码代码，该编码代码被配置为使至少一个处理器对增强信号幅度进行编码以预测agc幅度；在调整代码中的agc生成代码，该agc生成代码被配置为使至少一个处理器基于增强信号的相位在时域中生成agc信号；以及在调整代码中的第二调整代码，该第二调整代码被配置为使至少一个处理器基于agc信号来调整增强信号。

16、根据本公开的另一方面，一种存储指令的非易失性计算机可读介质，该指令由用于使用递归神经网络进行声学回声抑制的装置的至少一个处理器执行。该指令使至少一个处理器生成麦克风信号和远端参考信号；基于麦克风信号和远端参考信号来估计回声抑制信号和回声信号；基于回声抑制信号和回声信号来估计用于麦克风信号的增强滤波器；基于增强滤波器来生成增强信号；以及使用自动增益控制(agc)来调整增强信号并且输出经调整的信号。

17、该非易失性计算机可读介质可以进一步包括第一阶段和第二阶段，其中由第一阶段估计回声抑制信号和回声信号，并且由第二阶段估计增强滤波器。

18、该非易失性计算机可读介质可以进一步包括其中在第一阶段中，该指令进一步使至少一个处理器：基于麦克风信号和远端参考信号来计算第一协方差矩阵；通过第一线性投影滤波器处理第一协方差矩阵，并且对第一线性投影滤波器的结果进行编码以估计第一阶段滤波器；将第一阶段滤波器应用于时间-频率移位的麦克风信号和远端参考信号；以及输出回声抑制信号和回声信号。

19、该非易失性计算机可读介质可以进一步包括其中在第二阶段中，该指令进一步使至少一个处理器：基于第一线性投影滤波器和回声抑制信号和回声信号的归一化对数功率谱来生成第二阶段输入特征；通过第二线性投影滤波器处理第二阶段输入特征；对第二线性投影滤波器的结果进行编码以估计第二阶段滤波器，并且应用第二阶段滤波器以估计目标语音和麦克风噪声的通道；基于目标语音和麦克风噪声的估计通道来计算第二协方差矩阵；以及通过递归神经网络处理第二协方差矩阵并且输出增强滤波器。

20、该非易失性计算机可读介质可以进一步包括其中麦克风信号包括目标语音、失真远端参考信号和麦克风噪声。

21、该非易失性计算机可读介质可以进一步包括其中该指令进一步使至少一个处理器基于时域中的尺度不变信号失真比和增强信号与目标信号之间的频谱幅度差的l1范数来计算损失函数。

22、附加的实施例将在随后的描述中阐述，并且部分地将从描述中显而易见，和/或可以通过实践本公开的所呈现的实施例来实现。