音频处理方法、装置、存储介质及电子设备与流程
- 国知局
- 2024-06-21 10:40:37
本技术涉及音频处理,具体涉及一种音频处理方法、装置、存储介质及电子设备。
背景技术:
1、很多场景中存在对待处理音频通过音频处理进行调节的需求,例如,调大待处理音频中人声而降低背景声,或降低待处理音频中人声而调大背景声等等。
2、相关技术中,音频处理方式通常是采用分离网络分离出待处理音频中的语音和背景声后,采用增强网络对分离出语音进行增强,来实现调节。相关技术中,一方面,分离网络通常是针对幅度谱的实数网络,分离效果差强人意,经常是背景声失真或者夹杂大量人声在里面;另一方面,增强网络通常是针对幅度谱的实数网络,输出依然是幅度谱,然后用输入的相位谱去合成语音,语音增强效果也较差,特别是低信噪比的时候增强后语音会有呼吸噪声,压缩损伤或截止频段会引入失真。
3、因此,目前相关音频处理方案中,整体上音频增强效果较差,用户体验较差。
技术实现思路
1、本技术实施例提供一种音频处理方案,可以有效提升音频增强效果,提升用户体验。
2、本技术实施例提供以下技术方案:
3、根据本技术的一个实施例,一种音频处理方法,其包括:采用复数分离网络对待处理音频进行分离,得到语音频域信号和背景声频域信号;采用实数增强网络对所述语音频域信号进行增强,得到增强实部谱和增强虚部谱,其中,所述实数增强网络将所述增强实部谱和所述增强虚部谱统一到一个损失函数中;将所述增强实部谱和增强虚部谱合成复数形式的增强语音频域信号;将所述背景声频域信号和所述增强语音频域信号进行信号混合处理,得到语音增强音频。
4、在本技术的一些实施例中,所述将所述背景声频域信号和所述增强语音频域信号进行信号混合处理,得到语音增强音频,包括:获取用户自定义调节参数;根据所述用户自定义调节参数混合所述背景声频域信号和所述增强语音频域信号,得到增强频域信号;将所述增强频域信号进行时域转换,得到所述语音增强音频。
5、在本技术的一些实施例中,所述采用复数分离网络对待处理音频进行分离,得到语音频域信号和背景声频域信号,包括:提取所述待处理音频的输入音频信号;采用所述复数分离网络,对所述输入音频信号进行复数编码及复数解码,得到分离滤波系数;以及,将所述输入音频信号与所述滤波系数进行复数相乘,得到所述背景声频域信号;以及,将所述输入音频信号与所述背景声频域信号进行复数相减,得到所述语音频域信号。
6、在本技术的一些实施例中,所述对所述输入音频信号进行复数编码及复数解码,得到滤波系数,包括:对所述输入音频信号进行第一复数卷积处理,得到第一复数卷积结果;对所述第一复数卷积结果进行第一复数池化处理,得到第一复数池化结果;对所述第一复数池化结果进行第二复数卷积处理,得到第二复数卷积结果;对所述第二复数卷积结果进行第二复数池化处理,得到第二复数池化结果;对所述第二复数池化结果进行第三复数卷积处理,得到第三复数卷积结果;对所述第三复数卷积结果进行复数循环神经网络编码处理,得到复数编码结果;将所述复数编码结果和所述第三复数卷积结果拼接后进行第一复数反卷积处理,得到第一复数反卷积结果;将所述第一复数反卷积结果和所述第二复数卷积结果拼接后进行第二复数反卷积处理,得到第二复数反卷积结果;将所述第二复数反卷积结果和所述第一复数卷积结果拼接后进行第三复数反卷积处理,得到第三复数反卷积结果;对所述第三复数反卷积结果进行第四复数卷积处理,得到所述滤波系数。
7、在本技术的一些实施例中,所述采用实数增强网络对所述语音频域信号进行增强,得到增强实部谱和增强虚部谱,包括:将所述语音频域信号拆分为输入实部谱和输入虚部谱;采用所述实数增强网络,对输入实部谱和输入虚部谱进行实数编码及实数解码,得到增强滤波系数;将所述输入实部谱和所述输入虚部谱与所述增强滤波系数进行实数相乘,得到所述增强实部谱和所述增强虚部谱。
8、在本技术的一些实施例中,所述对输入实部谱和输入虚部谱进行实数编码及实数解码,得到增强滤波系数,包括:对所述输入实部谱和输入虚部谱进行第一卷积处理,得到第一卷积结果;对所述第一卷积结果进行第一池化处理,得到第一池化结果;对所述第一池化结果进行第二卷积处理,得到第二卷积结果;对所述第二卷积结果进行第二池化处理,得到第二池化结果;对所述第二池化结果进行第三卷积处理,得到第三卷积结果;对所述第三卷积结果进行循环神经网络编码处理,得到编码结果;将所述编码结果和所述第三卷积结果拼接后进行第一反卷积处理,得到第一反卷积结果;将所述第一反卷积结果和所述第二卷积结果拼接后进行第二反卷积处理,得到第二反卷积结果;将所述第二反卷积结果和所述第一卷积结果拼接后进行第三反卷积处理,得到第三反卷积结果;对所述第三反卷积结果进行第四卷积处理,得到所述增强滤波系数。
9、在本技术的一些实施例中,所述复数分离网络和所述实数增强网络为按照如下方式训练得到的:采用样本音频对预设复数分离网络进行训练,直至收敛,得到训练后的所述复数分离网络,所述样本音频设置有对应的纯语音拆分到的标签实部谱和标签虚部谱;将所述样本音频输入所述复数分离网络进行分离,得到样本语音频域信号;将所述样本语音频域信号拆分为样本实部谱和样本虚部谱作为预设实数增强网络的输入,并将所述标签实部谱和标签虚部谱作为所述预设实数增强网络的期望输出,对所述预设实数增强网络进行训练,直至收敛,得到训练后的所述实数增强网络。
10、根据本技术的一个实施例,一种音频处理装置,所述装置包括:分离单元,用于采用复数分离网络对待处理音频进行分离,得到语音频域信号和背景声频域信号;增强单元,用于采用实数增强网络对所述语音频域信号进行增强,得到增强实部谱和增强虚部谱,其中,所述实数增强网络将所述增强实部谱和所述增强虚部谱统一到一个损失函数中;合成单元,用于将所述增强实部谱和增强虚部谱合成复数形式的增强语音频域信号;混合单元,用于将所述背景声频域信号和所述增强语音频域信号进行信号混合处理,得到语音增强音频。
11、根据本技术的另一实施例,一种存储介质,其上存储有计算机程序,当所述计算机程序被计算机的处理器执行时,使计算机执行本技术实施例所述的方法。
12、根据本技术的另一实施例,一种电子设备可以包括:存储器,存储有计算机程序;处理器,读取存储器存储的计算机程序,以执行本技术实施例所述的方法。
13、根据本技术的另一实施例,一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本技术实施例所述的各种可选实现方式中提供的方法。
14、本技术实施例中,采用复数分离网络对待处理音频进行分离,得到语音频域信号和背景声频域信号;采用实数增强网络对所述语音频域信号进行增强,得到增强实部谱和增强虚部谱,其中,所述实数增强网络将所述增强实部谱和所述增强虚部谱统一到一个损失函数中;将所述增强实部谱和增强虚部谱合成复数形式的增强语音频域信号;将所述背景声频域信号和所述增强语音频域信号进行信号混合处理,得到语音增强音频。
15、以这种方式,采用复数分离网络对待处理音频进行分离,可以分离得到质量更好的语音频域信号和背景声频域信号,尤其背景声频域信号很少会失真或者夹杂大量人声在里面;进一步的,采用实数增强网络对语音频域信号进行增强,通过将增强实部谱和增强虚部谱统一到一个损失函数中,输出增强实部谱和增强虚部谱,计算量少且语音增强效果更好,低信噪比的时候增强后语音很少会有呼吸噪声以及压缩损伤或截止频段引入的失真;进而,将增强实部谱和增强虚部谱合成复数形式的增强语音频域信号后和背景声频域信号混合处理,可以得到音频增强效果良好的语音增强音频,整体上有效提升音频增强效果,提升用户体验。
本文地址:https://www.jishuxx.com/zhuanli/20240618/21123.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表