回声消除方法、装置、音频设备及存储介质与流程
- 国知局
- 2024-06-21 11:37:20
本技术涉及语音处理领域,具体而言,涉及一种回声消除方法、装置、音频设备及存储介质。
背景技术:
1、在语音通话过程中,扬声器播放的声音可能会被麦克风采集,从而使得麦克风采集的语音数据中携带有扬声器播放的声音,即存在声学回声的现象,影响语音通话的质量。
2、声学回声包括线性回声和非线性回声,传统声学回声消除方法通常只能消除线性回声部分,输出结果中仍会存在非线性回声,也即存在残余回声。
3、目前,会使用残余回声抑制器对进行传统声学回声消除方法的输出结果中的残余回声进行消除。然而,残余回声抑制器在处理信号时,可能导致信号失真,影响语音信号的质量,以及,残余回声抑制器无法对较多场景的残余回声均具有较好的消除效果。
技术实现思路
1、有鉴于此,本技术旨在提供一种回声消除方法、装置、音频设备及存储介质,以提高对不同场景下的麦克风数据进行残余回声消除后的信号质量。
2、第一方面,本技术实施例中提供一种回声消除方法,包括:获取麦克风数据经线性回声消除后的初始回声消除结果;将远端语音数据和所述初始回声消除结果输入到预设的深度学习残余回声消除网络,得到所述深度学习残余回声消除网络输出的频域信号掩码;所述深度学习残余回声消除网络用于以所述远端语音数据为参考信号,确定出所述初始回声消除结果中的非线性回声部分,所述频域信号掩码表征所述初始回声消除结果中需被抑制的信息和/或需保留的信息;基于所述频域信号掩码对所述初始回声消除结果进行残余回声消除,得到残余回声消除后的麦克风数据。
3、初始回声消除结果为线性回声消除后的结果,其还包括残余回声(非线性回声),在本技术实施例中,利用深度学习残余回声消除网络确定频域信号掩码,频域信号掩码表征初始回声消除结果中需被抑制的信息和/或需保留的信息,也即表征残余回声,再利用频域信号掩码对初始回声消除结果进行残余回声消除,由此,可以减少直接对初始回声消除结果进行处理导致的信号失真,由此,可以提高回声消除后麦克风数据的质量。此外,相较于残余回声抑制器,深度学习残余回声消除网络可以由不同场景的语音数据训练得到,由此,可以有效提高对不同场景下残余回声消除的准确性,提高对不同场景下的麦克风数据进行残余回声消除后的信号质量。此外,相较于直接利用深度学习网络对麦克风数据进行回声消除,先对麦克风数据进行线性回声消除可以有效降低数据的复杂度,进而降低计算复杂度,使得该回声消除的方法可以布设于一些计算资源有限的设备中,扩展使用范围。
4、一实施例中,所述将远端语音数据和所述初始回声消除结果输入到预设的深度学习残余回声消除网络之前,所述方法还包括:分别将所述远端语音数据和所述初始回声消除结果转换为梅尔频谱;对应地,所述将远端语音数据和所述初始回声消除结果输入到预设的深度学习残余回声消除网络中,包括:将所述将远端语音数据和所述初始回声消除结果各自的梅尔频谱输入到所述深度学习残余回声消除网络。
5、深度学习的方式对芯片的计算能力要求高,在本技术实施例中,通过将远端语音数据和初始回声消除结果转换为梅尔频谱,而由于梅尔频谱更符合人类的听觉感知,更能反映声音信号的能量分布与本质特征,因此,使用梅尔频谱可以将每个频率通道压缩到几个有限的象征频率通道中,从而降低数据的复杂度,进而降低深度学习残余回声消除网络的计算工作量,使得该深度学习残余回声消除网络可以应用于算力资源有限的音频设备中。
6、一实施例中,所述分别将所述远端语音数据和所述初始回声消除结果转换为梅尔频谱,包括:将所述远端语音数据和所述初始回声消除结果分别输入到预设的梅尔滤波器,得到所述远端语音数据的梅尔频谱和所述初始回声消除结果的梅尔频谱。
7、本技术实施例中,预设的梅尔滤波器可以将语音数据转换为梅尔频谱,使用梅尔滤波器对远端语音数据和初始回声消除结果进行转换,可以有效降低转换梅尔频谱的复杂度,减少计算资源消耗,同时可以提高转换效率。
8、一实施例中,所述获取麦克风数据经线性回声消除后的初始回声消除结果,包括:对所述麦克风数据和所述远端语音数据进行短时傅里叶变换,得到所述麦克风数据的频域数据和所述远端语音数据的频域数据;将所述麦克风数据的频域数据和所述远端语音数据的频域数据输入预设的自适应滤波器进行滤波,得到所述自适应滤波器输出的所述初始回声消除结果;所述自适应滤波器被配置为以所述远端语音数据的频域数据作为参考信号,消除所述麦克风数据的频域数据的线性回声部分。
9、本技术实施例中,使用预设的自适应滤波器对数据进行滤波,可以有效简化线性回声消除的复杂度,减少线性回声消除所需的计算资源。
10、一实施例中,所述自适应滤波器包括自适应卡尔曼滤波器。
11、自适应卡尔曼滤波器在进行滤波的同时,会不断地由滤波本身去判断系统的动态是否有变化,对模型参数和噪声统计特性进行估计和修正,以改进滤波设计、缩小滤波的实际误差,相较于其他自适应滤波器,在本技术实施例中,使用自适应卡尔曼滤波器进行滤波,可以有效提高线性回声消除的准确性,提高初始回声消除结果的质量。
12、一实施例中,所述基于所述频域信号掩码对所述初始回声消除结果进行残余回声消除,包括:将所述频域信号掩码与所述初始回声消除结果相乘,得到乘积;对所述乘积进行逆傅里叶变换,得到所述残余回声消除后的麦克风数据。
13、本技术实施例中,频域信号掩码表征初始回声消除结果中需被抑制的信息和/或需保留的信息,则将初始回声消除结果与频域信号掩码相乘,消除初始回声消除结果的残余回声和/或保留除残余回声之外其余语音信号。该方式实现简单,可以有效降低残余回声消除的复杂度,减少计算资源的消耗。
14、一实施例中,所述深度学习残余回声消除网络通过如下方式得到:获取双讲回声数据集,所述双讲回声数据集包括不同场景下采集的麦克风语音训练数据的频域数据和远端语音训练数据的频域数据;将所述双讲回声数据集输入所述深度学习残余回声消除网络,得到所述深度学习残余回声消除网络的学习结果;基于所述学习结果和所述双讲回声数据集计算损失函数;若所述损失函数大于预设阈值,则调整所述深度学习残余回声消除网络的参数,并重复上述获取双讲回声数据集至计算损失函数的训练过程;直至所述损失函数低于预设阈值,确定所述深度学习残余回声消除网络训练完成。
15、本技术实施例中,通过对深度学习残余回声消除网络进行训练,并且直至损失函数低于预设阈值后确定训练完成,由此,可以使得深度学习残余回声消除网络确定的频域信号掩码能够具有较高的准确性,提高残余回声消除的效率与提高残余回声消除后的麦克风数据的质量。
16、第二方面,本技术实施例提供一种回声消除装置,包括:线性回声消除模块,用于获取麦克风数据经线性回声消除后的初始回声消除结果;深度学习模块,用于将远端语音数据和所述初始回声消除结果输入到预设的深度学习残余回声消除网络,得到所述深度学习残余回声消除网络输出的频域信号掩码;所述深度学习残余回声消除网络用于以所述远端语音数据为参考信号,确定出所述初始回声消除结果中的非线性回声部分,所述频域信号掩码表征所述初始回声消除结果中需被抑制的信息和/或需保留的信息;残余回声消除模块,用于基于所述频域信号掩码对所述初始回声消除结果进行残余回声消除,得到残余回声消除后的麦克风数据。
17、第三方面,本技术实施例提供一种音频设备,包括:扬声器;麦克风;处理器,用于执行如第一方面任一项所述的回声消除方法。
18、第四方面,本技术实施例提供一种可读存储介质,所述可读存储介质中存储有程序,当所述程序在处理器上运行时,使得所述处理器执行如第一方面任一项所述的回声消除方法。
本文地址:https://www.jishuxx.com/zhuanli/20240618/22496.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。