技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音频处理方法、装置、存储介质及电子设备与流程  >  正文

音频处理方法、装置、存储介质及电子设备与流程

  • 国知局
  • 2024-06-21 10:40:41

本技术涉及互联网,具体涉及一种音频处理方法、装置、存储介质及电子设备。

背景技术:

1、在嘈杂环境下录制视频时,通常录制的视频中目标对象的声音容易出现识别不清、声音较小、其他嘈杂声音较多的情况发生。通常具有增强录制的视频中目标对象的声音的需求,可以提升视频录制效果。

2、目前,相关技术中,存在通过检测音频中非人发出声音(例如风声等)并弱化的方案,目前的方式下,一方面,如果目标对象的声音录制的本就不清晰,则对于目标对象的声音增强效果有限,另一方面,如果录制场景下有很多人的声音,部分人作为需要增强的目标对象也依旧不能有效增强其声音。

3、因此,目前的方案下,在录制视频时对于目标对象的声音的增强效果较差,用户体验较差。

技术实现思路

1、本技术实施例提供一种方案,可以有效提升录制视频时对于目标对象的声音的增强效果,提升用户体验。

2、本技术实施例提供以下技术方案:

3、根据本技术的一个实施例,一种音频处理方法,其包括:在视频录制过程中,采用预设唇语识别模型,追踪录制的视频画面中的目标嘴唇,以及,识别追踪到的所述目标嘴唇对应的唇语内容特征,并在录制的音频中匹配所述目标嘴唇的嘴唇音频对应的嘴唇音频特征;采用预设音频预测模型,根据所述唇语内容特征及所述嘴唇音频特征生成补充音频;基于所述补充音频对所述嘴唇音频进行增强处理,以输出包含增强后嘴唇音频的录制视频。

4、在本技术的一些实施例中,所述根据所述唇语内容特征及所述嘴唇音频特征生成补充音频,包括:根据所述唇语内容特征及所述嘴唇音频特征,检测所述嘴唇音频中的不清晰部分;针对所述不清晰部分,预测生成所述不清晰部分的发声音频,所述补充音频包括所述发声音频。

5、在本技术的一些实施例中,所述根据所述唇语内容特征及所述嘴唇音频特征生成补充音频,包括:根据所述唇语内容特征及所述嘴唇音频特征,检测所述嘴唇音频中与当前录制场景匹配的渲染部分;针对所述渲染部分,预测生成所述渲染部分对应的渲染音频,所述补充音频包括所述渲染音频。

6、在本技术的一些实施例中,所述基于所述补充音频对所述嘴唇音频进行增强处理,以输出包含增强后嘴唇音频的录制视频,包括:从录制的音频中分离出所述嘴唇音频及剩余音频;将所述补充音频与所述嘴唇音频合并,得到增强后嘴唇音频;将所述增强后嘴唇音频与所述剩余音频合并,以输出录制视频。

7、在本技术的一些实施例中,所述将所述增强后嘴唇音频与所述剩余音频合并,以输出录制视频,包括:对所述剩余音频进行弱化处理,得到弱化背景音频;将所述增强后嘴唇音频与所述弱化背景音频合并,以输出录制视频。

8、在本技术的一些实施例中,所述预设唇语识别模型为按照以下方式训练得到的:获取第一训练样本数据,所述第一训练样本数据包括视频样本以及所述视频样本对应的待追踪嘴唇所发出音频的样本语言信息,所述视频样本中各视频帧中标记所述待追踪嘴唇;采用待训练唇语识别模型,通过嘴唇追踪网络追踪各所述视频帧中的所述待追踪嘴唇,以及,通过唇语识别网络识别所述待追踪嘴唇的样本唇语内容特征,并在所述视频样本的音频中匹配所述待追踪嘴唇的嘴唇音频对应的样本嘴唇音频特征;根据所述样本唇语内容特征及所述样本嘴唇音频特征生成预测语言信息;根据所述预测语言信息与所述样本语言信息,调整所述待训练唇语识别模型,直至符合预定训练结束条件,得到所述预设唇语识别模型。

9、在本技术的一些实施例中,所述预设音频预测模型为按照以下方式训练得到的:获取第二训练样本数据,所述第二训练样本数据包括样本唇语内容特征及所述样本唇语内容特征对应的样本嘴唇音频特征和样本补充音频;采用待训练音频预测模型,基于所述样本唇语内容特征及所述样本嘴唇音频特征生成预测补充音频;根据所述预测补充音频及所述样本补充音频,调整所述待训练音频预测模型,直至符合预定训练结束条件,得到所述预设音频预测模型。

10、根据本技术的一个实施例,一种音频处理装置,所述装置包括:追踪匹配模块,用于在视频录制过程中,采用预设唇语识别模型,追踪录制的视频画面中的目标嘴唇,以及,识别追踪到的所述目标嘴唇对应的唇语内容特征,并在录制的音频中匹配所述目标嘴唇的嘴唇音频对应的嘴唇音频特征;音频生成模块,用于采用预设音频预测模型,根据所述唇语内容特征及所述嘴唇音频特征生成补充音频;音频增强模块,用于基于所述补充音频对所述嘴唇音频进行增强处理,以输出包含增强后嘴唇音频的录制视频。

11、在本技术的一些实施例中,所述音频生成模块,用于:根据所述唇语内容特征及所述嘴唇音频特征,检测所述嘴唇音频中的不清晰部分;针对所述不清晰部分,预测生成所述不清晰部分的发声音频,所述补充音频包括所述发声音频。

12、在本技术的一些实施例中,所述音频生成模块,用于:根据所述唇语内容特征及所述嘴唇音频特征,检测所述嘴唇音频中与当前录制场景匹配的渲染部分;针对所述渲染部分,预测生成所述渲染部分对应的渲染音频,所述补充音频包括所述渲染音频。

13、在本技术的一些实施例中,所述音频增强模块,用于:从录制的音频中分离出所述嘴唇音频及剩余音频;将所述补充音频与所述嘴唇音频合并,得到增强后嘴唇音频;将所述增强后嘴唇音频与所述剩余音频合并,以输出录制视频。

14、在本技术的一些实施例中,所述音频增强模块,用于:对所述剩余音频进行弱化处理,得到弱化背景音频;将所述增强后嘴唇音频与所述弱化背景音频合并,以输出录制视频。

15、在本技术的一些实施例中,所述预设唇语识别模型为按照以下方式训练得到的:获取第一训练样本数据,所述第一训练样本数据包括视频样本以及所述视频样本对应的待追踪嘴唇所发出音频的样本语言信息,所述视频样本中各视频帧中标记所述待追踪嘴唇;采用待训练唇语识别模型,通过嘴唇追踪网络追踪各所述视频帧中的所述待追踪嘴唇,以及,通过唇语识别网络识别所述待追踪嘴唇的样本唇语内容特征,并在所述视频样本的音频中匹配所述待追踪嘴唇的嘴唇音频对应的样本嘴唇音频特征;根据所述样本唇语内容特征及所述样本嘴唇音频特征生成预测语言信息;根据所述预测语言信息与所述样本语言信息,调整所述待训练唇语识别模型,直至符合预定训练结束条件,得到所述预设唇语识别模型。

16、在本技术的一些实施例中,所述预设音频预测模型为按照以下方式训练得到的:获取第二训练样本数据,所述第二训练样本数据包括样本唇语内容特征及所述样本唇语内容特征对应的样本嘴唇音频特征和样本补充音频;采用待训练音频预测模型,基于所述样本唇语内容特征及所述样本嘴唇音频特征生成预测补充音频;根据所述预测补充音频及所述样本补充音频,调整所述待训练音频预测模型,直至符合预定训练结束条件,得到所述预设音频预测模型。

17、根据本技术的另一实施例,一种存储介质,其上存储有计算机程序,当所述计算机程序被计算机的处理器执行时,使计算机执行本技术实施例所述的方法。

18、根据本技术的另一实施例,一种电子设备可以包括:存储器,存储有计算机程序;处理器,读取存储器存储的计算机程序,以执行本技术实施例所述的方法。

19、根据本技术的另一实施例,一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本技术实施例所述的各种可选实现方式中提供的方法。

20、本技术实施例中,在视频录制过程中,采用预设唇语识别模型,追踪录制的视频画面中的目标嘴唇,以及,识别追踪到的所述目标嘴唇对应的唇语内容特征,并在录制的音频中匹配所述目标嘴唇的嘴唇音频对应的嘴唇音频特征;采用预设音频预测模型,根据所述唇语内容特征及所述嘴唇音频特征生成补充音频;基于所述补充音频对所述嘴唇音频进行增强处理,以输出包含增强后嘴唇音频的录制视频。

21、以这种方式,在视频录制过程中,通过预设唇语识别模型追踪目标嘴唇以及识别其唇语内容特征并匹配其嘴唇音频对应的嘴唇音频特征,进一步,采用预设音频预测模型根据唇语内容特征及嘴唇音频特征生成补充音频,基于补充音频对嘴唇音频进行增强处理,使得录制的视频中的音频中目标嘴唇发出的那部分声音得以准确有效增强,一方面,如果目标对象的目标嘴唇的声音不清晰,可以进行有效增强,另一方面,若录制场景下有很多人的声音,可以单独针对目标嘴唇的声音实现准确有效增强,进而,本技术整体上可以有效提升录制视频时对于目标对象的声音的增强效果,提升用户体验。

本文地址:https://www.jishuxx.com/zhuanli/20240618/21136.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。