技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种回声消除方法及系统、一种语音通信设备及介质与流程 > 正文

一种回声消除方法及系统、一种语音通信设备及介质与流程

国知局
2024-06-21 10:44:05

本发明涉及音频处理和深度学习，特别是涉及一种回声消除方法及系统、一种语音通信设备及介质。

背景技术：

1、人们在远距离实时语音通信时，从拾音、编码、传输到放音的双向链路过程中往往会受到各种各样影响语音质量的干扰，其中声学回声就是一种典型干扰。声学回声是严重影响语音通信品质的一种突出干扰，基于传统信号处理的方法无法处理残余的非线性回声。而近些年，随着深度学习技术的发展，其得到了越来越广泛的应用。由于其强大的非线性建模能力，深度学习的最新进展在声学回声消除方面显示出巨大的潜力。因此，如何基于深度学习进行回声消除，是当前亟需解决的问题。

技术实现思路

1、鉴于以上所述现有技术的缺点，本发明的目的在于提供一种回声消除方法及系统、一种语音通信设备及介质，用于解决现有技术中传统信号处理方法无法处理残余的非线性回声的问题。

2、为实现上述目的及其他相关目的，本发明提供一种回声消除方法，包括以下步骤：

3、对第一语音信号进行短时傅里叶变换，得到第一频域信号；以及，对第二语音信号进行短时傅里叶变换，得到第二频域信号；其中，所述第一语音信号和所述第二语音信号分别由处于不同地理位置的语音通信设备生成，且所述第一语音信号包含目标语音信号和回声信号；

4、将所述第一频域信号和所述第二频域信号输入至自适应滤波器中进行回声路径模拟，得到估计回声频域信号；

5、基于所述估计回声频域信号对所述第一频域信号进行线性回声信号消除，得到误差频域信号；

6、将所述第一频域信号、所述估计回声频域信号和所述误差频域信号，输入至用于进行非线性回声信号消除的深度学习模型中，并对所述深度学习模型的输出结果进行逆短时傅里叶变换，得到消除线性回声信号和消除非线性回声信号的目标语音信号。

7、于本发明的一实施例中，所述深度学习模型的生成过程包括：

8、将训练输入信号和训练输出信号同时输入至预先或实时确定的神经网络中，对所述神经网络进行非线性回声信号消除训练；其中，所述训练输入信号基于所述第一频域信号、所述估计回声频域信号和所述误差频域信号得到，所述训练输出信号基于消除非线性回声信号后的目标语音信号得到；

9、通过预设损失函数计算所述神经网络的训练输出信号的频域表示与目标语音信号的频域表示的损失值；以及，

10、通过反向传播算法更新所述神经网路的权重，并在更新权重后持续多个训练周期，直至损失值在所述多个训练周期内的降低幅度小于预设阈值，则停止更新神经网路的权重，获得所述深度学习模型。

11、于本发明的一实施例中，将训练输入信号和训练输出信号同时输入至预先或实时确定的神经网络前，所述方法还包括：

12、将所述第一频域信号、所述估计回声频域信号和所述误差频域信号进行合并，作为训练输入信号，记为w，其中，w＝wr+j*wii，且w∈r6×t×f；式中，r为实数，t为帧数，f为频点数，j为虚数单位；

13、将消除非线性回声信号后的目标语音信号作为训练输出信号，记为o，其中，o＝or+j*oi，o∈r2×t×f。

14、于本发明的一实施例中，将训练输入信号和训练输出信号同时输入至预先或实时确定的神经网络前，所述方法还包括：

15、将所述第一频域信号和所述估计回声频域信号进行合并，作为训练输入信号，以及，将消除非线性回声信号后的目标语音信号作为训练输出信号；

16、或者，将所述第一频域信号和所述误差频域信号进行合并，作为训练输入信号，以及，将消除非线性回声信号后的目标语音信号作为训练输出信号。

17、于本发明的一实施例中，对第二语音信号进行短时傅里叶变换的过程包括：

18、以第一语音信号为参考信号，对第二语音信号进行时域对齐；

19、利用完成时域对齐后的第二语音信号进行短时傅里叶变换，得到第二频域信号。

20、于本发明的一实施例中，对第一语音信号进行短时傅里叶变换，以及，对第二语音信号进行短时傅里叶变换前，所述方法还包括：

21、建立近端语音通信设备与远端语音通信设备的通信连接；其中，所述近端语音通信设备与所述远端语音通信设备处于不同地理位置；

22、将通过所述近端语音通信设备中麦克风得到的语音信号作为所述第一语音信号；

23、将通过所述远端语音通信设备中麦克风得到的语音信号作为第二语音信号。

24、于本发明的一实施例中，所述自适应滤波器包括：卡尔曼滤波器、最小均方滤波或者多延迟块频域自适应滤波器。

25、本发明还提供一种回声消除系统，包括有：

26、信号变换模块，用于对第一语音信号进行短时傅里叶变换，得到第一频域信号；以及，对第二语音信号进行短时傅里叶变换，得到第二频域信号；其中，所述第一语音信号和所述第二语音信号分别由处于不同地理位置的语音通信设备生成，且所述第一语音信号包含目标语音信号和回声信号；

27、线性回声消除模块，用于将所述第一频域信号和所述第二频域信号输入至自适应滤波器中进行回声路径模拟，得到估计回声频域信号；以及，基于所述估计回声频域信号对所述第一频域信号进行线性回声信号消除，得到误差频域信号；

28、非线性回声消除模块，用于将所述第一频域信号、所述估计回声频域信号和所述误差频域信号，输入至用于进行非线性回声信号消除的深度学习模型中，并对所述深度学习模型的输出结果进行逆短时傅里叶变换，得到消除线性回声信号和消除非线性回声信号的目标语音信号。

29、本发明还提供一种语音通信设备，包括：

30、处理器；和，存储有指令的计算机可读介质，当所述处理器执行所述指令时，使得所述设备执行如上述中任一所述的回声消除方法。

31、本发明还提供一种计算机可读介质，其上存储有指令，所述指令由处理器加载并执行如上述中任一所述的回声消除方法。

32、如上所述，本发明提供一种回声消除方法及系统、一种语音通信设备及介质，具有以下有益效果：本发明通过对第一语音信号进行短时傅里叶变换，得到第一频域信号；以及，对第二语音信号进行短时傅里叶变换，得到第二频域信号；其中，第一语音信号和第二语音信号分别由处于不同地理位置的语音通信设备生成，且第一语音信号包含目标语音信号和回声信号；然后将第一频域信号和第二频域信号输入至自适应滤波器中进行回声路径模拟，得到估计回声频域信号；再基于估计回声频域信号对第一频域信号进行线性回声信号消除，得到误差频域信号；最后将第一频域信号、估计回声频域信号和误差频域信号，输入至用于进行非线性回声信号消除的深度学习模型中，并对深度学习模型的输出结果进行逆短时傅里叶变换，得到消除线性回声信号和消除非线性回声信号的目标语音信号。由此可知，本发明首先通过自适应滤波器进行信号估计，然后进行线性回声信号消除，再然后基于深度学习技术的非线性建模能力，将进行线性回声信号消除后的语音信号作为深度学习模型的输入，通过预先或实时训练的用于进行非线性回声信号消除的深度学习模型来消除残余的非线性回声信号。所以，本发明通过自适应滤波器与深度学习模型形成级联，不仅可以消除线性回声信号，还可以消除非线性回声信号，从而在语音传输过程中获得更好的听感，提升用户体验。