技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种伴奏与人声分离方法、系统、编码器、介质及设备与流程  >  正文

一种伴奏与人声分离方法、系统、编码器、介质及设备与流程

  • 国知局
  • 2024-06-21 11:30:02

本申请涉及音频编解码,特别涉及一种伴奏与人声分离方法、系统、编码器、介质及设备。

背景技术:

1、无线k歌已成为一种流行的娱乐方式,特别是基于蓝牙的k歌系统,因其低成本、低功耗的特性,使用特别广泛,是le audio中的基本应用。现有技术中,获取无线k歌的伴奏的一种方法是,在发射端(譬如手机、平板等设备)的k歌软件库里面搜索相应的伴奏音乐并通过无线蓝牙发送到接收端无线(蓝牙)麦克风。如果相应的歌曲没有伴奏音乐,则获取无线k歌伴奏的方法有:将原始歌曲发送到麦克风,部分蓝牙麦克风具有消除原声的功能。在现有技术的伴奏和人声分离的方法包括:使用左、右声道相减的一般处理方式;将音乐信号的左右声道信号先变换至频域,再使用主成分分析(pca)的方法先求出人声和立体音乐,再对人声进行去除。其中上述第一种方法是假定人声在声像的中间而左右声道的伴奏在两边,换句话说,人声在左右声道中的强度相似,而伴奏在两个声道中的强度有明显不同,但实际情形未必所有的歌曲都能满足此要求,导致实际应用时性能不稳定;上述第二种方法是比较传统的方法,计算量较大且性能一般,很难将人声去除干净,且将信号变换到频域处理的方法,为了确保重建后的音频平滑,通常会引入重叠相加,这就导致引入了额外的算法时延,降低了用户体验。另外,现有的深度学习网络的处理方法难以在le audio的实时场景应用;神经网络过于复杂,典型的层数为12层,远远大于一般应用于嵌入式系统的神经网络(3~6层),其运算量过大导致难以在嵌入式系统中进行部署。

技术实现思路

1、针对现有技术中,在进行伴奏和人声分离时存在的分离效果一般,同时现有的方法会增加算法延迟,从而降低用户体验以及无法适用低功耗蓝牙和嵌入式系统的问题,本申请提出一种伴奏与人声分离方法、系统、编码器、介质及设备。

2、第一方面,本申请提出一种伴奏与人声分离方法,包括:对混合音频信号中的音频帧进行编码的过程中,确定音频帧对应的混合幅度谱;将混合幅度谱输入到预训练神经网络模型中进行处理,得到对应的谱系数浮值掩膜;根据谱系数浮值掩膜对音频帧对应的混合谱系数进行分离,得到分离后的伴奏谱系数或人声谱系数;对伴奏谱系数或人声谱系数继续进行编码,得到对应的伴奏码流或人声码流。

3、可选的,预训练神经网络模型的训练过程包括:获取训练用伴奏音频信号和训练用混合音频信号;分别对训练用伴奏音频信号和训练用混合音频信号进行特征提取,得到伴奏音频幅度谱和混合音频幅度谱;根据伴奏音频幅度谱和混合音频幅度谱计算得到谱系数浮值掩膜真值;根据混合音频幅度谱和谱系数浮值掩膜真值对神经网络进行训练,输出谱系数浮值掩膜估计值,其中通过对神经网络进行训练,使得谱系数浮值掩膜估计值与谱系数浮值掩膜真值之间的误差在预设范围内。

4、可选的,获取训练用伴奏音频信号和训练用混合音频信号,包括:获取纯净人声信号;将训练用伴奏音频信号与纯净人声信号按帧进行叠加,得到训练用混合音频信号。

5、可选的,对混合音频信号中的音频帧进行编码的过程中,确定音频帧对应的混合幅度谱,包括:对音频帧分别进行离散余弦变换和离散正弦变换,得到相应的第一谱系数和第二谱系数;根据第一谱系数和第二谱系数确定音频帧对应的混合幅度谱。

6、可选的,根据谱系数浮值掩膜对音频帧对应的混合谱系数进行分离,得到分离后的伴奏谱系数或人声谱系数,包括:将谱系数浮值掩膜与混合谱系数进行点乘,得到伴奏谱系数。第二方面,本申请提出一种伴奏与人声分离系统,包括:用于对混合音频信号中的音频帧进行编码的过程中,确定音频帧对应的混合幅度谱的模块;用于将混合幅度谱输入到预训练神经网络模型中进行处理,得到对应的谱系数浮值掩膜的模块;用于根据谱系数浮值掩膜对音频帧对应的混合谱系数进行分离,得到分离后的伴奏谱系数或人声谱系数的模块;用于对伴奏谱系数或人声谱系数继续进行编码,得到对应的伴奏码流或人声码流的模块。

7、第三方面,本申请提出一种音频编码器,包括方案二中的伴奏与人声分离系统。

8、第四方面,本申请提供一种计算机可读存储介质,其存储有计算机程序,其中计算机程序被操作以执行方案一中的伴奏与人声分离方法。

9、第五方面,本申请提供一种计算机设备,其包括处理器和存储器,存储器存储有计算机程序,其中处理器操作计算机程序以执行方案一中的伴奏与人声分离方法。

10、本申请利用神经网络模型对音频信号进行伴奏和人声的分离,保证分离后的音质效果;同时利用现有编码过程的时频变换和重叠相加过程,避免增加算法延时,提高用户使用体验。

技术特征:

1.一种伴奏与人声分离方法,其特征在于,包括:

2.根据权利要求1所述的伴奏与人声分离方法,其特征在于,所述预训练神经网络模型的训练过程包括:

3.根据权利要求2所述的伴奏与人声分离方法,其特征在于,所述获取训练用伴奏音频信号和训练用混合音频信号,包括:

4.根据权利要求1-3任一所述的伴奏与人声分离方法,其特征在于,所述对混合音频信号中的音频帧进行编码的过程中,确定所述音频帧对应的混合幅度谱,包括:

5.根据权利要求1-3任一所述的伴奏与人声分离方法,其特征在于,所述根据所述谱系数浮值掩膜对所述音频帧对应的混合谱系数进行分离,得到分离后的伴奏谱系数或人声谱系数,包括:

6.一种伴奏与人声分离系统,其特征在于,包括:

7.根据权利要求6所述的伴奏与人声分离系统,其特征在于,所述预训练神经网络的训练过程包括:

8.一种音频编码器,其特征在于包括如权利要求6-7任一项所述的伴奏与人声分离系统。

9.一种计算机可读存储介质,其存储有计算机程序,其中所述计算机程序被操作以执行权利要求1-7中任一项所述的伴奏与人声分离方法。

10.一种计算机设备,其包括处理器和存储器,所述存储器存储有计算机程序,其中所述处理器操作所述计算机程序以执行权利要求1-7中任一项所述的伴奏与人声分离方法。

技术总结本申请公开了一种伴奏与人声分离方法、系统、编码器、介质及设备,属于音频编解码技术领域,该方法包括:对混合音频信号中的音频帧进行编码的过程中,确定音频帧对应的混合幅度谱;将混合幅度谱输入到预训练神经网络模型中进行处理,得到对应的谱系数浮值掩膜;根据谱系数浮值掩膜对音频帧对应的混合谱系数进行分离,得到分离后的伴奏谱系数或人声谱系数;对伴奏谱系数或人声谱系数继续进行编码,得到对应的伴奏码流或人声码流。本申请利用神经网络模型对音频信号进行伴奏和人声的分离,保证音质效果;同时利用现有编码过程的时频变换和重叠相加过程,避免了增加算法延时,提高用户使用体验。技术研发人员:李强,王凌志,叶东翔,朱勇受保护的技术使用者:深圳百瑞互联技术有限公司技术研发日:技术公布日:2024/2/25

本文地址:https://www.jishuxx.com/zhuanli/20240618/21880.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。