技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音信号增强方法、装置、芯片及模组设备与流程 > 正文

语音信号增强方法、装置、芯片及模组设备与流程

国知局
2024-06-21 10:39:18

本发明涉及语音信号处理领域，尤其涉及一种语音信号增强方法、装置、芯片及模组设备。

背景技术：

1、在日常生活中，噪声是影响语音通话质量的重要因素之一。语音增强技术通过消除噪声并提取干净语音，从而提高语音质量和可懂度，在移动通信、耳机、会议系统、语音交互等应用中具有巨大价值。

2、在语音降噪的过程中，传统降噪算法对平稳噪声有较为出色的降噪效果，且算法鲁棒性较强，在不同环境中的性能相对稳定，但存在对非平稳噪声的跟踪性不足、估计能力不佳的问题；近年来，以深度学习为代表的人工智能(artificial intelligence，ai)语音增强技术无需像传统语音增强算法一样对信号特性进行假设，在非平稳噪声上的表现取得了显著提升，但ai降噪算法对未知噪声环境的表现往往不够理想，含噪语音中的噪声残留明显，可见，现有的语音降噪方案针对各种平稳噪音和非平稳噪音的降噪场景的降噪估计不准确且降噪场景受限。

技术实现思路

1、本技术提供一种语音信号增强方法、装置、芯片及模组设备，通过结合传统噪声估计和语音模型对通信语音信号进行双重噪音估计，提升电子设备进行语音降噪的全面性和准确性。

2、第一方面，本技术提供一种语音信号增强方法，其特征在于，包括：获取通信语音信号；以及，对该通信语音信号进行信号分析，得到该通信语音信号的第一语音频谱；对该第一语音频谱进行噪音估计，得到第一噪音频谱；将该第一语音频谱导入预先训练好的ai神经网络模型，得到第二噪音频谱和该通信语音信号的第一频谱掩码；该噪音估计对平稳噪声的降噪强度大于该ai神经网络模型对平稳噪声的降噪强度，该噪音估计对非平稳噪声的降噪强度小于该ai神经网络模型对非平稳噪声的降噪强度，该平稳噪声是指声级起伏小于或者等于第一分贝的噪声，该非平稳噪声是指声级起伏大于第一分贝的噪声；对该第一噪音频谱和该第二噪音频谱进行特征拼接，得到拼接后的第三噪音频谱；确定与该第三噪音频谱对应的联合降噪增益；根据该联合降噪增益和该第一频谱掩码对该通信语音信号进行降噪处理，得到该通信语音信号的降噪语音信号。

3、基于第一方面所描述的方法，将带噪信号经过传统噪声估计，并将噪声谱估计结果和神经网络训练的噪声谱输出进行特征拼接，来实现针对语音数据的降噪，即是，结合传统噪声估计和神经网络对不同噪音的处理优势，增强电子设备进行语音降噪的全面性和准确性。

4、在一种可能的实现方式中，对该第一噪音频谱和该第二噪音频谱进行特征拼接，得到拼接后的第三噪音频谱，包括：获取与该第一噪音频谱对应的第一权重以及与该第二噪音频谱对应的第二权重；根据该第一权重和该第二权重，对该第一噪音频谱和该第二噪音频谱进行加权平均，得到拼接后的第三噪音频谱。

5、在一种可能的实现方式中，根据该联合降噪增益和该第一频谱掩码对该通信语音信号进行降噪处理，得到该通信语音信号的降噪语音信号，包括：将该联合估计增益与该第一频谱掩码进行加权，得到加权后的第二频谱掩码；将该第二频谱掩码与该第一语音频谱相乘，得到第二语音频谱；对该第二语音频谱进行反傅里叶变换，得到参考语音信号；对该参考语音信号进行叠接相加，得到该通信语音信号的降噪语音信号。

6、在一种可能的实现方式中，该信号分析包括分帧加窗处理和短时傅里叶变化stft。

7、在一种可能的实现方式中，该方法还包括：获取第一语音信号、第二语音信号以及第三语音信号，该第一语音信号为纯净语音信号，第二语音信号为纯噪音信号，该第三语音信号为该第一语音信号和第二语音信号的混合语音信号；以及，分别对该第一语音信号、该第二语音信号以及该第三语音信号进行分帧加窗和短时傅里叶变化stft，得到第一频谱、第二频谱和第三频谱；将该第三频谱输入ai神经网络模型进行模型训练，得到该第三语音信号的第四频谱和第三频谱掩码；对第三频谱进行噪音估计，得到第五频谱；根据该第一频谱、该第二频谱、该第四频谱、该第五频谱和该第三频谱掩码确定联合损失；根据该联合损失对该ai神经网络模型的参数进行调节，以进行该ai神经网络模型的训练。

8、在一种可能的实现方式中，根据该第一频谱、该第二频谱、该第四频谱、该第五频谱和该第三频谱掩码确定联合损失，包括：将该第四频谱和该第五频谱进行特征拼接，得到拼接后的第六频谱；对该第二频谱和该第六频谱进行损失计算，得到第一损失；将该第三频谱掩码和该第三频谱进行相乘，得到第七频谱；对该第七频谱和该第一频谱进行损失计算，得到第二损失；对该第一损失和该第二损失进行加权求和，得到联合损失。

9、在一种可能的实现方式中，该将该第三频谱输入ai神经网络模型进行模型训练，得到该第三语音信号的第四频谱和第三频谱掩码，包括：将该第三频谱依次通过编码器和特征提取器，得到第三频谱的深度特征；通过噪声谱解码器从该深度特征中提取该第三语音信号的第四频谱；通过语音掩码向量解码器将该深度特征解码为该第三语音信号的第三频谱掩码。

10、第二方面，本技术提供一种语音信号增强装置，该装置包括：获取单元，用于获取通信语音信号；信号分析单元，用于对该通信语音信号进行信号分析，得到该通信语音信号的第一语音频谱；噪音估计单元，用于对该第一语音频谱进行噪音估计，得到第一噪音频谱；该噪音估计单元，还用于将该第一语音频谱导入预先训练好的ai神经网络模型，得到第二噪音频谱和该通信语音信号的第一频谱掩码；该噪音估计对平稳噪声的降噪强度大于该ai神经网络模型对平稳噪声的降噪强度，该噪音估计对非平稳噪声的降噪强度小于该ai神经网络模型对非平稳噪声的降噪强度，该平稳噪声是指声级起伏小于或者等于第一分贝的噪声，该非平稳噪声是指声级起伏大于第一分贝的噪声；拼接单元，用于对该第一噪音频谱和该第二噪音频谱进行特征拼接，得到拼接后的第三噪音频谱；确定单元，用于确定与该第三噪音频谱对应的联合降噪增益；降噪单元，用于根据该联合降噪增益和该第一频谱掩码对该通信语音信号进行降噪处理，得到该通信语音信号的降噪语音信号。

11、第三方面，本技术提供了一种芯片，该芯片包括处理器和通信接口，处理器被配置用于使芯片执行上述第一方面或其任一种可能的实现方式中的方法。

12、第四方面，本技术提供了一种模组设备，该模组设备包括通信模组、电源模组、存储模组以及芯片，其中：该电源模组用于为该模组设备提供电能；该存储模组用于存储数据和指令；该通信模组用于进行模组设备内部通信，或者用于该模组设备与外部设备进行通信；该芯片用于执行上述第一方面或其任一种可能的实现方式中的方法。

13、第五方面，本发明实施例公开了一种语音信号增强装置，该语音信号增强装置包括存储器和处理器，该存储器用于存储计算机程序，该计算机程序包括程序指令，该处理器被配置用于调用该程序指令，执行上述第一方面或其任一种可能的实现方式中的方法。

14、第六方面，本技术提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机可读指令，当该计算机可读指令在语音信号增强装置上运行时，使得该语音信号增强装置执行上述第一方面或其任一种可能的实现方式中的方法。

15、第七方面，本技术提供一种计算机程序或计算机程序产品，包括代码或指令，当代码或指令在计算机上运行时，使得计算机执行如第一方面或其任一种可能的实现方式中的方法。