一种基于时域神经网络的单通道语音回声消除方法
- 国知局
- 2024-08-05 11:51:20
本发明涉及回声消除,特别是一种基于时域神经网络的单通道语音回声消除方法。
背景技术:
1、在当今通信技术飞速发展的背景下,电子通信设备已经成为我们生活和工作中不可或缺的一部分,而双向通信平台如zoom、skype和腾讯会议则极大地提升了沟通效率和便利性。然而,随着通信技术的普及和使用频率的增加,用户对通话质量的要求也随之提高,其中语音通信质量成为关键因素之一。在双端通话中,声学回声问题尤为突出,不仅干扰正常沟通,而且严重影响通话清晰度,尤其在免提模式下更为明显。
2、为了解决这一问题,声学回声消除技术应运而生。该技术旨在识别并消除通话中的回声,从而提高通话质量。虽然声学回声消除技术已取得显著进展,但在实际应用中,如何有效消除回声、处理背景噪声和非线性失真,以及实现实时回声消除仍是关键挑战。因此,研究和开发更高效、更稳定、适应性更强的声学回声消除解决方案成为通信技术领域的重要研究方向之一。
3、在此背景下,提出了一种基于时域神经网络的单通道语音回声消除方法。该方法利用神经网络在时域上对语音信号进行处理,以识别和消除回声,从而提高通话质量。因此,基于时域神经网络的单通道语音回声消除方法有望成为未来通信技术领域的重要发展方向之一,为用户提供更加清晰和稳定的通话体验。
技术实现思路
1、鉴于现有的声学回声消除技术存在的问题,提出了本发明。
2、因此,本发明所要解决的问题在于如何提高声学回声消除技术的处理能力,特别是在处理背景噪声和非线性失真方面,同时确保在实时通话中的稳定性和效果。
3、为解决上述技术问题,本发明提供如下技术方案:
4、第一方面,本发明实施例提供了一种基于时域神经网络的单通道语音回声消除方法,其包括,对采集麦克风信号进行分帧和数值归一化,提取时域帧序列特征;基于时域帧序列特征建立并训练时域神经网络模型;将采集麦克风信号输入至时域神经网络模型进行性能分析,并通过u-net的u型编解码处理,输出回声消除后的语音序列;所述麦克风信号包括近端语音信号和远端语音信号;所述时域帧序列特征包括近端时域序列和远端时域序列特征。
5、作为本发明所述基于时域神经网络的单通道语音回声消除方法的一种优选方案,其中:所述分帧包括帧长和帧移;所述提取时域帧序列特征包括以下步骤:将采集麦克风信号划分成若干帧,对分帧的帧长和帧移设定样点;所述分帧的相关公式如下:
6、;
7、其中,为第i帧采集麦克风信号,n为当前帧内的样点索引,i为分帧数量。
8、同时对若干帧进行数值归一化,提取近端时域序列和远端时域序列特征,构建时域神经网络模型;所述数值归一化的具体公式如下:
9、;
10、其中,为归一化之后的第i帧采集麦克风信号,为第i帧的均值,i为分帧数量。作为本发明所述基于时域神经网络的单通道语音回声消除方法的一种优选方案,其中:所述构建时域神经网络模型包括以下步骤:选定端到端时域网络模型wave-u-net作为基线架构;在时域回声消除网络中,编码器和解码器均采用分组卷积技术设置高分辨率特征提取模块;通过编码路径、辅助编码路径和注意力融合机制区分并处理近端语音信号和远端语音信号;将辅助编码器的输出和前一层编码器的输出通过注意力融合机制将时域帧序列特征进行融合,并通过跳跃连接传输至当前层的编码器中进行编码特征提取;将编码器的输出特征通过跳跃连接和相同层的解码器进行拼接,同时通过和编码器相同的解码操作进行特征提取,逐层计算回声消除后的语音序列特征。
11、作为本发明所述基于时域神经网络的单通道语音回声消除方法的一种优选方案,其中:所述高分辨率特征提取模块包括以下步骤:将近端语音信号输入特征经过卷积核大小为1的一维卷积和relu激活函数操作,获取新特征张量;将新特征张量按通道分组,使输入特征与输出通道数相匹配;对每个分组的特征,进行卷积核大小为3的卷积层和relu激活操作,获取若干处理后的特征;将若干处理后的特征进行拼接,得到合并后的特征张量,并进行批归一化和relu激活操作;通过残差连接将激活后的特征张量和输入特征进行相加,得到最终高分辨率特征提取模块的输出特征。
12、作为本发明所述基于时域神经网络的单通道语音回声消除方法的一种优选方案,其中:所述注意力融合机制包括以下步骤:对输入的时域帧序列特征通过卷积核大小为1的一维卷积和批归一化层操作,进行特征处理,并将卷积后的特征在通道维度中进行拼接;将拼接后的特征通过leakyrelu激活函数处理,再次进行卷积核大小为1的一维卷积操作,并通过sigmoid激活函数,获取注意力权重;根据当前从远端特征提取回声特征的任务,动态调整注意力权重;通过双路径处理远端语音信号,提取远端语音信号的多维特征;所述双路径包括:主编码路径和辅助编码路径;当远端语音信号多维特征在某一时刻的相关性高时,则注意力融合注意力机制增加从辅助路径传递的特征权重;当远端语音信号多维特征在某一时刻的相关性低时,则辅助路径传递的特征权重值趋向于零;在特征拼接阶段,通过下采样将主编码路径的输出尺寸调整至辅助路径输出尺寸;使用一维卷积层混合特征流,并通过leakyrelu激活函数处理;将初始远端特征和注意力权重相乘,得到最终融合注意力机制的输出特征;基于最终高分辨率特征提取模块的输出特征和最终注意力融合注意力机制的输出特征,输出最终回声消除效果;通过数据集评估时域神经网络模型的最终回声消除效果。
13、作为本发明所述基于时域神经网络的单通道语音回声消除方法的一种优选方案,其中:所述时域神经网络模型包括编码器、辅助编码器和解码器,其中编码器和辅助编码器相同,均包括一维卷积层、批归一化层、elu激活函数以及高分辨率特征提取模块;所述编码器包括下采样层和瓶颈层;所述解码器包括上采样层和输出层。
14、作为本发明所述基于时域神经网络的单通道语音回声消除方法的一种优选方案,其中:所述下采样层通过对输出的三维张量,将输出的三维张量在第三维中按步长为2进行间隔取样;所述上采样层通过对输出的三维张量,沿着第三维度扩大两倍,并使用线性插值方法进行填充,同时保持角点对齐;所述瓶颈层包括卷积核大小为15和步长为7的一维卷积层、批归一化层和relu激活函数层;所述输出层包括卷积核大小为1和步长为1的一维卷积层、归一化层和激活函数层。
15、第二方面,本发明实施例提供了一种基于时域神经网络的单通道语音回声消除系统,其包括:特征提取模块,用于对采集麦克风信号进行分帧和数值归一化,提取时域帧序列特征;构建模块,基于时域帧序列特征建立并训练aec神经网络模型;输出模块,将采集麦克风信号输入至时域神经网络模型进行性能分析,并通过u-net的u型编解码处理,输出回声消除后的语音序列。
16、第三方面,本发明实施例提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其中:所述计算机程序指令被处理器执行时实现如本发明第一方面所述的基于时域神经网络的单通道语音回声消除方法的步骤。
17、第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其中:所述计算机程序指令被处理器执行时实现如本发明第一方面所述的基于时域神经网络的单通道语音回声消除方法的步骤。
18、本发明有益效果为:本发明通过对麦克风信号进行分帧和归一化处理,提取一致的时域特征,提高神经网络的训练效率和稳定性;构建并训练基于wave-u-net架构的时域神经网络,通过分组卷积和注意力机制,增强回声消除的效果和适应复杂环境的能力;将信号输入模型进行性能分析,并通过u-net的u型编解码结构进行特征提取和重构,利用跳跃连接保留特征信息,实现高效回声消除和语音重构,提高语音清晰度和自然度。
本文地址:https://www.jishuxx.com/zhuanli/20240802/259724.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表