音频处理方法、装置、设备及存储介质与流程
- 国知局
- 2024-06-21 11:38:55
本申请涉及音频处理,特别涉及一种音频处理方法、装置、设备及存储介质。
背景技术:
1、随着电子产品的发展,用户在使用真无线立体声(true wireless stereo,tws)耳机、虚拟现实(virtual reality,vr)设备等电子产品的过程中,存在将音频中某种乐器移动到某个角度的声场定制化需求。针对这种需求,若声源种不同乐器处于不同的声道时,相对容易实现,但如果声源仅为单声道或双声道时,其实现的难度就大幅增加。并且目前针对乐器识别的方法相对较多,但是对于乐器分离的技术仍然需要提升。
技术实现思路
1、本申请提供了一种音频处理方法、装置、设备及存储介质,能够为声源识别以及分离技术在音频播放设备上的实现提供了可能性,并且可以实现音频声场的定制化修改。该技术方案如下:
2、一方面,本申请实施例提供了一种音频处理方法,包括:
3、提取待处理音频的基频信息;
4、基于所述基频信息进行声源识别,生成声源识别结果,所述声源识别结果用于指示所述待处理音频中包含的声源种类;
5、基于所述声源识别结果对所述待处理音频进行信号分离处理,生成各个种类的声源对应的单声源音轨;
6、通过所述单声源音轨调整所述目标声源在声场中的方位和距离,并基于声源调整后的音轨合成目标音频。
7、可选的,所述基于所述基频信息进行声源识别,生成声源识别结果,包括:
8、基于所述基频信息生成所述待处理音频的第一特征向量;
9、将所述第一特征向量输入声源识别模型,生成所述声源识别结果;
10、所述基于所述声源识别结果对所述待处理音频进行信号分离处理,生成各个种类的声源对应的单声源音轨,包括:
11、基于所述声源识别结果以及所述待处理音频的频谱数据,生成各个种类的声源对应的第二特征向量;
12、将所述第二特征向量输入频谱分离模型,得到各个种类的声源对应的频谱信息;
13、基于所述频谱信息以及所述待处理音频的相位信息对所述待处理音频进行信号分离处理,生成所述单声源音轨。
14、可选的,所述提取待处理音频的基频信息,包括:
15、通过计算所述待处理音频的自相关函数,提取所述基频信息,所述基频信息为所述自相关函数中两波峰之间时间差的倒数;
16、所述基于所述基频信息生成所述待处理音频的第一特征向量,包括:
17、基于所述基频信息计算所述待处理音频的谐波频率;
18、对所述基频信息和所述谐波频率进行短时傅里叶变换处理,计算生成各个谐波与基频之间的能量比值;
19、基于各个谐波的所述能量比值生成所述第一特征向量。
20、可选的,所述声源识别模型是通过将样本音频的基频谐波能量比值输入初始识别模型,基于所述样本音频的声源标签以及模型输出结果计算声源识别率和损失函数,以及采用反向传播算法基于所述声源识别率和所述损失函数对模型参数进行校正训练得到的。
21、可选的,所述基于所述声源识别结果以及所述待处理音频的频谱数据,生成各个种类的声源对应的第二特征向量,包括:
22、基于所述声源识别结果计算各个种类的声源对应的增益因子;
23、基于所述增益因子、所述能量比值以及所述待处理音频的梅尔频率倒谱系数mfcc和gammatone滤波器倒谱系数gtcc,生成所述第二特征向量;
24、所述将所述第二特征向量输入频谱分离模型,得到各个种类的声源对应的频谱信息,包括:
25、将所述第二特征向量输入所述频谱分离模型,得到所述频谱分离模型输出的增益系数;
26、基于所述增益系数以及所述待处理音频的信号频谱,生成各个种类的声源对应的频谱信息。
27、可选的,所述频谱分离模型是通过将样本声源的增益因子,能量比值以及样本音频的mfcc和gtcc输入初始分离模型,基于模型输出的增益系数以及所述样本音频的信号频谱生成所述样本声源的频谱信息,并基于所述频谱信息与样本频谱的差进行模型修正训练得到的。
28、可选的,所述通过所述单声源音轨调整所述目标声源在声场中的方位和距离,并基于声源调整后的音轨合成目标音频,包括:
29、基于声源调整操作生成声源调整指令,所述声源调整指令用于指示所述目标声源对应的目标方位角和目标距离;
30、基于所述声源调整指令调整所述单声源音轨中所述目标声源对应的声道延时差以及声音幅度;
31、对声源调整后的所述目标声源的单声源音轨以及其它声源的单声源音轨进行叠加处理,生成所述目标音频。
32、另一方面,本申请实施例提供了一种音频处理装置,包括:
33、提取模块,用于提取待处理音频的基频信息;
34、生成模块,用于基于所述基频信息进行声源识别,生成声源识别结果,所述声源识别结果用于指示所述待处理音频中包含的声源种类;
35、所述生成模块,还用于基于所述声源识别结果对所述待处理音频进行信号分离处理,生成各个种类的声源对应的单声源音轨;
36、调整模块,用于通过所述单声源音轨调整所述目标声源在声场中的方位和距离,并基于声源调整后的音轨合成目标音频。
37、另一方面,本申请实施例提供了一种电子设备,所述电子设备包括存储器和处理器;所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时实现如上述方面所述的方法。
38、另一方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序由处理器加载并执行以实现如上述方面所述的方法。
39、本申请提供的技术方案至少包括以下有益效果:
40、本申请提供的音频处理方法、装置、设备及存储介质,通过获取基频信息进行声源识别,识别出音频中包含的声源种类人,然后基于声源种类对音频进行信号分离处理,将其拆分得到各个声源对应的音轨,基于单声源音轨对其中目标声源的方位和距离进行调整,最终合成声源方位调整后的新品,可以降低传统声音识别方法所需的参数量,为声源识别以及分离技术在音频播放设备上的实现提供了可能性,并且可以实现音频声场的定制化修改。
技术特征:1.一种音频处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述基频信息进行声源识别,生成声源识别结果,包括:
3.根据权利要求2所述的方法,其特征在于,所述提取待处理音频的基频信息,包括:
4.根据权利要求3所述的方法,其特征在于,所述声源识别模型是通过将样本音频的基频谐波能量比值输入初始识别模型,基于所述样本音频的声源标签以及模型输出结果计算声源识别率和损失函数,以及采用反向传播算法基于所述声源识别率和所述损失函数对模型参数进行校正训练得到的。
5.根据权利要求3所述的方法,其特征在于,所述基于所述声源识别结果以及所述待处理音频的频谱数据,生成各个种类的声源对应的第二特征向量,包括:
6.根据权利要求5所述的方法,其特征在于,所述频谱分离模型是通过将样本声源的增益因子,能量比值以及样本音频的mfcc和gtcc输入初始分离模型,基于模型输出的增益系数以及所述样本音频的信号频谱生成所述样本声源的频谱信息,并基于所述频谱信息与样本频谱的差进行模型修正训练得到的。
7.根据权利要求1至6任一所述的方法,其特征在于,所述通过所述单声源音轨调整所述目标声源在声场中的方位和距离,并基于声源调整后的音轨合成目标音频,包括:
8.一种音频处理装置,其特征在于,包括:
9.一种电子设备,其特征在于,包括存储器和处理器;所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,存储有计算机程序,所述计算机程序由处理器加载并执行以实现如权利要求1至7中任一项所述的方法。
技术总结本申请提供了一种音频处理方法、装置、设备及存储介质,属于音频处理技术领域。该方法包括:提取待处理音频的基频信息;基于基频信息进行声源识别,生成声源识别结果;基于声源识别结果对待处理音频进行信号分离处理,生成各个种类的声源对应的单声源音轨;通过单声源音轨调整目标声源在声场中的方位和距离,并基于声源调整后的音轨合成目标音频。可以降低传统声音识别方法所需的参数量,为声源识别以及分离技术在音频播放设备上的实现提供了可能性,并且可以实现音频声场的定制化修改。技术研发人员:燕斌受保护的技术使用者:珠海格力电器股份有限公司技术研发日:技术公布日:2024/3/24本文地址:https://www.jishuxx.com/zhuanli/20240618/22666.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表