一种目标噪声分离方法、系统及终端设备与流程
- 国知局
- 2024-06-21 11:37:27
本发明涉及目标噪声分离,尤其涉及一种目标噪声分离方法、系统及终端设备。
背景技术:
1、随着噪声治理需求的增长,识别噪声源的类别已成为监测设备的核心功能,而噪声分离又是噪声识别中不可缺少的一环。由于噪声所在的音频环境大多复杂,混合有多种类的自然环境声,如:鸟鸣、风声、雨声等,且多种不同声音混合成一个声道,使得噪声分离工作越来越困难。
2、当前技术上通常采用深度神经网络模型来实现噪声分离,这种方法相对传统方法具有更强的提取特征和学习能力。一般会在模型中增加卷积层和池化层,从声频信号更深层次上提取声源特征信息,从而提高识别准确率。
3、但是,随着卷积和池化层数的增加,也会引入更多的非线性处理,从而使分离结果出现更大程度的失真。即,现有技术在噪声分离任务中,难以兼顾准确度高和分离结果的音频质量。
技术实现思路
1、本发明的目的之一在于提供一种目标噪声分离方法、系统及终端设备,其能够提升目标噪声分离的准确度和音频质量。本发明的实施例可以这样实现:
2、第一方面,本发明提供一种目标噪声分离方法,所述方法包括:步骤s1,基于编码器构建深度神经网络模型,并对所述深度神经网络模型进行训练得到深度神经网络音轨分离模型;所述编码器设置有融合层;步骤s2,获取待分离混合音频信号;其中,所述待分离混合音频信号具有目标噪声和环境噪声;步骤s3,依据所述待分离混合音频信号,得到混合噪声幅度特征时域图;步骤s4,将所述混合噪声幅度特征时域图输入深度神经网络音轨分离模型中,通过所述编码器从所述混合噪声幅度特征时域图中提取上下文特征和幅度特征,并通过所述融合层将所述上下文特征和所述幅度特征进行融合,得到所述目标噪声的幅度特征时域图;其中,所述上下文特征表征所述待分离混合音频信号中各个声源的分布结构信息;步骤s5,依据所述目标噪声的幅度特征时域图得到所述目标噪声的时域信号。
3、在可选的实施方式中,所述编码器包括编码部分和解码部分;所述编码部分包括输入层和多组第一网络层,每组所述第一网络层均包括两层卷积层和一层最大池化层,所述解码部分包括输出层和多组第二网络层,每组所述第二网络层均包括一层上采样层、一层所述融合层和两层卷积层。
4、在可选的实施方式中,步骤s1具体包括以下步骤:步骤s11,获取训练样本;所述训练样本包括所述目标噪声和至少一种环境噪声;步骤s12,将所述训练样本输入所述深度神经网络模型中进行训练,得到所述深度神经网络音轨分离模型。
5、在可选的实施方式中,所述步骤s11具体包括以下步骤:步骤s111,获取所述目标噪声和至少一种所述环境噪声各自的音频信号;步骤s112,将所述目标噪声与至少一种所述环境噪声各自的音频信号进行混合,得到多种混合音频信号;步骤s113,对每种所述混合音频信号的幅度进行放大或缩小,得到不同音强状态下的混合音频信号,并将所述不同音强状态下的混合音频信号作为所述训练样本。
6、在可选的实施方式中,所述步骤s3具体包括以下步骤:步骤s31,将待分离混合音频信号进行降采样处理,得到降采样处理后的混合音频信号;步骤s32,将降采样处理后的混合音频信号进行短时傅里叶变换,得到所述混合噪声幅度特征时域图。
7、在可选的实施方式中,所述步骤s5具体包括以下步骤:步骤s51,将所述目标噪声的幅度特征时域图进行逆短时傅里叶变换,得到初始时域信号;步骤s52,按照所述深度神经网络音轨分离模型的采样率,对所述初始时域信号进行上采样处理,得到所述目标噪声的时域信号。
8、第二方面,本发明提供一种目标噪声分离方法系统,包括:构建和训练模块,用于基于编码器构建深度神经网络模型,并对所述深度神经网络模型进行训练得到深度神经网络音轨分离模型;所述编码器设置有融合层;获取模块,还用于获取待分离混合音频信号;其中,所述待分离混合音频信号具有目标噪声和环境噪声;变换模块,用于依据所述待分离混合音频信号,得到混合噪声幅度特征时域图;分离模块,用于将所述混合噪声幅度特征时域图输入深度神经网络音轨分离模型中,通过所述编码器从所述混合噪声幅度特征时域图中提取上下文特征和幅度特征,并通过所述融合层将所述上下文特征和所述幅度特征进行融合,得到所述目标噪声的幅度特征时域图;其中,所述上下文特征表征所述待分离混合音频信号中各个声源的分布结构信息;所述获取模块,还用于依据所述目标噪声的幅度特征时域图得到所述目标噪声的时域信号。
9、在可选的实施方式中,所述编码器包括编码部分和解码部分;所述编码部分包括输入层和多组第一网络层,每组所述第一网络层均包括两层卷积层和一层最大池化层,所述解码部分包括输出层和多组第二网络层,每组所述第二网络层均包括一层上采样层、一层所述融合层和两层卷积层。
10、在可选的实施方式中,所述获取模块,具体用于:获取训练样本;所述训练样本包括所述目标噪声和至少一种环境噪声;将所述训练样本输入所述深度神经网络模型中进行训练,得到所述深度神经网络音轨分离模型。
11、第三方面,本发明提供一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现前述实施方式中任一项所述的目标噪声分离方法。
12、本发明提供的一种目标噪声分离方法、系统及终端设备,首先基于编码器构建深度神经网络模型,并对所述深度神经网络模型进行训练得到深度神经网络音轨分离模型,然后将待分离混合音频信号的混合噪声幅度特征时域图输入到该深度神经网络音轨分离模型中,通过编码器提取并融合上下文特征和幅度特征,上下文特征信息可以表征信号各声源分布结构,有助于定位和识别目标噪声,幅度特征精细表达时间域变化细节,有利于准确重构目标信号时域波形,充分利用多维信息能够提高分离效果,通过融合层实现特征层次结合,得到目标噪声的幅度特征图,既包含全局上下文又包含局部细节信息。根据目标噪声的幅度特征图能精细还原目标噪声的时域信号,大幅提高分离质量。本发明的深度神经网络音轨分离模型不仅能获得高精度的幅度特征外,还获得了上下文特征,进而能够更好地分离环境噪声和目标噪声,并实现保真的效果,解决了现有技术无法同时兼顾准确度和保真的缺陷。
技术特征:1.一种目标噪声分离方法,其特征在于,所述方法包括:
2.根据权利要求1所述的一种目标噪声分离方法,其特征在于,所述编码器包括编码部分和解码部分;所述编码部分包括输入层和多组第一网络层,每组所述第一网络层均包括两层卷积层和一层最大池化层,所述解码部分包括输出层和多组第二网络层,每组所述第二网络层均包括一层上采样层、一层所述融合层和两层卷积层。
3.根据权利要求1所述的一种目标噪声分离方法,其特征在于,步骤s1具体包括以下步骤:
4.根据权利要求3所述的一种目标噪声分离方法,其特征在于,所述步骤s11具体包括以下步骤:
5.根据权利要求1所述的一种目标噪声分离方法,其特征在于,所述步骤s3具体包括以下步骤:
6.根据权利要求1所述的一种目标噪声分离方法,其特征在于,所述步骤s5具体包括以下步骤:
7.一种目标噪声分离系统,其特征在于,包括:
8.根据权利要求7所述的一种目标噪声分离系统,其特征在于,所述编码器包括编码部分和解码部分;所述编码部分包括输入层和多组第一网络层,每组所述第一网络层均包括两层卷积层和一层最大池化层,所述解码部分包括输出层和多组第二网络层,每组所述第二网络层均包括一层上采样层、一层所述融合层和两层卷积层。
9.根据权利要求7所述的一种目标噪声分离系统,其特征在于,所述获取模块,具体用于:获取训练样本;所述训练样本包括所述目标噪声和至少一种环境噪声;将所述训练样本输入所述深度神经网络模型中进行训练,得到所述深度神经网络音轨分离模型。
10.一种终端设备,其特征在于,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1-6中任一项所述的一种目标噪声分离方法。
技术总结本发明提供的一种目标噪声分离方法、系统及终端设备,包括:基于编码器构建深度神经网络模型并训练得到深度神经网络音轨分离模型;获取具有目标噪声和环境噪声的待分离混合音频信号,将其混合噪声幅度特征时域图输入深度神经网络音轨分离模型中,通过编码器的融合层将从混合噪声幅度特征时域图中提取的上下文特征和幅度特征进行融合得到目标噪声的幅度特征时域图;上下文特征表征待分离混合音频信号中各个声源的分布结构信息;依据目标噪声的幅度特征时域图得到目标噪声的时域信号。本发明利用深度神经网络音轨分离模型能获得高精度的幅度特征和上下文特征,能转准确分离环境噪声和目标噪声,解决了目前无法同时兼顾准确度和保真的缺陷。技术研发人员:袁文怡,王弘越,陈炳辉,罗峥尹受保护的技术使用者:广州伏羲智能科技有限公司技术研发日:技术公布日:2024/3/21本文地址:https://www.jishuxx.com/zhuanli/20240618/22506.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表