技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音增强网络的后滤波方法及系统与流程 > 正文

一种语音增强网络的后滤波方法及系统与流程

国知局
2024-06-21 10:41:13

本申请实施例涉及语音处理，尤其涉及一种语音增强网络的后滤波方法及系统。

背景技术：

1、目前，在移动端的网络直播连麦、游戏语音交互等场景中，用户之间处于全双工的通信状态。在全双工通信过程中，当用户手机处于外放状态，手机扬声器播放出来的声音会被手机的麦克风采集回去进而形成声学回声。此外，当用户进行交流时，其声音往往受到周围环境噪声的干扰。回声和噪声的存在，极大地降低了语音通话质量。为此，通常会在语音处理时通过语音增强网络的enc模块(echo and noise cancellation,回声和噪声消除器)进行回声和噪声消除，以提升用户的语音通话质量。

2、但是，受限于算力和内存，移动端模型的参数量和计算量通常相对较小。enc模块容易因为训练数据无法匹配现实数据而产生性能劣化的情况，导致经语音增强网络处理后的语音信号仍旧存在持续的回声残留，影响用户的语音通话体验。

技术实现思路

1、本申请实施例提供一种语音增强网络的后滤波方法及系统，能够对语音信号进行回声过估计，解决语音增强网络中语音信号存在残留回声的技术问题。

2、在第一方面，本申请实施例提供了一种语音增强网络的后滤波方法，包括：

3、获取enc模块输出的麦克风信号的第一语音掩蔽值，第一语音掩蔽值基于麦克风信号和扬声器待播放信号生成，麦克风信号和扬声器待播放信号对齐；

4、确定麦克风信号的第一残余回声掩蔽值，基于第一语音掩蔽值和第一残余回声掩蔽值计算麦克风信号的噪声掩蔽值，对第一残余回声掩蔽值进行过估计，得到第二残余回声掩蔽值；

5、根据噪声掩蔽值和第二残余回声掩蔽值输出第二语音掩蔽值，以基于第二语音掩蔽值合成麦克风信号的语音增强信号。

6、在第二方面，本申请实施例提供了一种语音增强网络的后滤波系统，包括：

7、获取模块，配置为获取enc模块输出的麦克风信号的第一语音掩蔽值，第一语音掩蔽值基于麦克风信号和扬声器待播放信号生成，麦克风信号和扬声器待播放信号对齐；

8、过估计模块，配置为确定麦克风信号的第一残余回声掩蔽值，基于第一语音掩蔽值和第一残余回声掩蔽值计算麦克风信号的噪声掩蔽值，对第一残余回声掩蔽值进行过估计，得到第二残余回声掩蔽值；

9、输出模块，配置为根据噪声掩蔽值和第二残余回声掩蔽值输出第二语音掩蔽值，以基于第二语音掩蔽值合成麦克风信号的语音增强信号。

10、在第三方面，本申请实施例提供了一种语音增强网络的后滤波设备，包括：

11、存储器以及一个或多个处理器；

12、所述存储器，配置为存储一个或多个程序；

13、当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的语音增强网络的后滤波方法。

14、在第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令在由计算机处理器执行时配置为执行如第一方面所述的语音增强网络的后滤波方法。

15、在第五方面，本申请实施例提供了一种计算机程序产品，所述计算机程序产品中包含有指令，当指令在计算机或处理器上运行时，使得计算机或处理器执行如第一方面所述的语音增强网络的后滤波方法。

16、本申请实施例通过获取enc模块输出的麦克风信号的第一语音掩蔽值，第一语音掩蔽值基于麦克风信号和扬声器待播放信号生成，麦克风信号和扬声器待播放信号对齐；确定麦克风信号的第一残余回声掩蔽值，基于第一语音掩蔽值和第一残余回声掩蔽值计算麦克风信号的噪声掩蔽值，对第一残余回声掩蔽值进行过估计，得到第二残余回声掩蔽值；根据噪声掩蔽值和第二残余回声掩蔽值输出第二语音掩蔽值，以基于第二语音掩蔽值合成麦克风信号的语音增强信号。采用上述技术手段，通过确定麦克风信号的残余回声掩蔽值并进行过估计，以修正麦克风信号的语音掩蔽值，使得以此生成的语音增强信号能够过滤掉语音信号中的回声残留，提升语音增强网络的可靠性，提升语音增强效果，并优化用户的语音通话体验。

技术特征：

1.一种语音增强网络的后滤波方法，其特征在于，包括：

2.根据权利要求1所述的语音增强网络的后滤波方法，其特征在于，在对所述第一残余回声掩蔽值进行过估计之前，还包括：

3.根据权利要求2所述的语音增强网络的后滤波方法，其特征在于，对所述第一残余回声掩蔽值进行过估计，包括：

4.根据权利要求1所述的语音增强网络的后滤波方法，其特征在于，在获取enc模块输出的麦克风信号的第一语音掩蔽值之后，还包括：

5.根据权利要求4所述的语音增强网络的后滤波方法，其特征在于，对所述麦克风信号进行回声判断，包括：

6.根据权利要求4所述的语音增强网络的后滤波方法，其特征在于，对所述扬声器待播信号进行指定非平稳帧判断，包括：

7.根据权利要求1所述的语音增强网络的后滤波方法，其特征在于，确定所述麦克风信号的第一残余回声掩蔽值，包括：

8.一种语音增强网络的后滤波系统，其特征在于，包括：

9.一种语音增强网络的后滤波设备，其特征在于，包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令在由计算机处理器执行时配置为执行如权利要求1-7任一所述的语音增强网络的后滤波方法。

11.一种计算机程序产品，其特征在于，所述计算机程序产品中包含有指令，当所述指令在计算机或处理器上运行时，使得所述计算机或处理器执行如权利要求1-7任一所述的语音增强网络的后滤波方法。

技术总结本申请实施例公开了一种语音增强网络的后滤波方法及系统。本申请实施例提供的技术方案，通过获取ENC模块输出的麦克风信号的第一语音掩蔽值，第一语音掩蔽值基于麦克风信号和扬声器待播放信号生成，麦克风信号和扬声器待播放信号对齐；确定麦克风信号的第一残余回声掩蔽值，基于第一语音掩蔽值和第一残余回声掩蔽值计算麦克风信号的噪声掩蔽值，对第一残余回声掩蔽值进行过估计，得到第二残余回声掩蔽值；根据噪声掩蔽值和第二残余回声掩蔽值输出第二语音掩蔽值，以基于第二语音掩蔽值合成麦克风信号的语音增强信号。采用上述技术手段，能够过滤掉语音信号中的回声残留，提升语音增强网络的可靠性，提升语音增强效果，并优化用户的语音通话体验。技术研发人员：何莹男受保护的技术使用者：广州市百果园信息技术有限公司技术研发日：技术公布日：2024/1/25