技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种音视频的生成方法、装置、设备及存储介质与流程  >  正文

一种音视频的生成方法、装置、设备及存储介质与流程

  • 国知局
  • 2024-06-21 10:38:32

本发明涉及人工智能领域,尤其涉及一种音视频的生成方法、装置、设备及存储介质。

背景技术:

1、随着互联网的快速发展,人物面部口型驱动技术越来越广泛的应用于各类互联网产品中,如播报数字人、问答数字人等,提高了人机交互的体验感。在口型驱动技术的发展中,深度学习的面部口型驱动技术具有极大优势。当前常见的利用深度学习的面部口型驱动方法主要有两种。一种是通过训练好的神经网络模型生成嘴部动作及周边位置的一个视频,再将生成的视频贴回原始视频的嘴部及周边位置,另一种是先将图片中的人脸利用3dmorphable models (3dmm) 技术重建为3d人脸,再利用训练好的神经网络模型驱动生成的3d人脸的口型或眼睛等部位,最后将生成完成的3d人脸贴回2d图像中。

2、但在这两种面部口型驱动方法中,需要将各个部分分别用对应的算法进行驱动,对计算资源的消耗很大,而且利用不同的算法进行驱动时,对于面部整体而言,很难达到一个自然的效果以及感觉。

技术实现思路

1、本技术实施例所要解决的技术问题在于,提供一种音视频的生成方法、装置、设备及存储介质,实现了对二维人脸图像的面部五官进行整体驱动,使人脸表情变化自然流畅,更加拟人化。

2、第一方面,本技术实施例提供了一种音视频生成方法,包括:

3、获取预先构建的初始二维人脸图像,以及所述初始二维人脸图像对应的匹配三维人脸模型;其中,所述初始二维人脸图像包括至少一个第一人脸关键点,所述匹配三维人脸模型包括至少一个第二人脸关键点,任一第一人脸关键点对应所述至少一个第二人脸关键点中的一个或者多个第二人脸关键点;

4、对音频数据进行特征提取,得到所述音频数据的语音特征,并根据所述语音特征和所述匹配三维人脸模型,预测和所述音频数据对齐的目标三维人脸动作序列,得到所述音频数据对应的多个目标三维人脸模型;

5、针对任一目标三维人脸模型,根据所述任一目标三维人脸模型中的各个第二人脸关键点的参数信息,所述匹配三维人脸模型中的各个第二人脸关键点的参数信息,以及所述至少一个第一人脸关键点和所述匹配三维人脸模型中的至少一个第二人脸关键点的对应关系,对所述至少一个第一人脸关键点的参数信息进行调整,得到与所述任一目标三维人脸模型匹配的目标二维人脸图像;

6、将与所述多个目标三维人脸模型匹配的多个目标二维人脸图像进行拼接,得到与所述音频数据对齐的视频数据;

7、将所述视频数据与所述音频数据合成,得到目标音视频。

8、可见,本技术实施例中,获取预先构建的初始二维人脸图像,以及该初始二维人脸图像对应的匹配三维人脸模型,提取音频数据的语音特征,根据该语音特征和该匹配三维人脸模型,预测和该音频数据对齐的目标三维人脸动作序列,得到多个对应的目标三维人脸模型,针对任一目标三维人脸模型,根据该任一目标三维人脸模型中的各个第二人脸关键点的参数信息,该匹配三维人脸模型中的各个第二人脸关键点的参数信息,以及该至少一个第一人脸关键点和该匹配三维人脸模型中的至少一个第二人脸关键点的对应关系,对该至少一个第一人脸关键点的参数信息进行调整,得到与该任一目标三维人脸模型匹配的目标二维人脸图像,将与该多个目标三维人脸模型匹配的多个目标二维人脸图像进行拼接,得到与该音频数据对齐的视频数据,实现对二维人脸图像面部五官的整体驱动,将该视频数据与该音频数据合成,得到目标音视频,因此该目标音视频包含的人脸表情变化自然流畅,更加拟人化。

9、在一种可选的实施方式中,根据所述任一目标三维人脸模型中的各个第二人脸关键点的参数信息,所述匹配三维人脸模型中的各个第二人脸关键点的参数信息,以及所述至少一个第一人脸关键点和所述匹配三维人脸模型中的至少一个第二人脸关键点的对应关系,对所述至少一个第一人脸关键点的参数信息进行调整,得到与所述任一目标三维人脸模型匹配的目标二维人脸图像,包括:

10、根据所述任一目标三维人脸模型中的各个第二人脸关键点的参数信息,以及所述匹配三维人脸模型中的各个第二人脸关键点的参数信息,得到所述任一目标三维人脸模型中的各个第二人脸关键点相对所述匹配三维人脸模型中的相应第二人脸关键点的变化量;

11、根据所述任一目标三维人脸模型中的各个第二人脸关键点相对所述匹配三维人脸模型中的相应第二人脸关键点的变化量,所述至少一个第一人脸关键点和所述匹配三维人脸模型中的至少一个第二人脸关键点的对应关系,对所述至少一个第一人脸关键点的参数信息进行调整,得到与所述任一目标三维人脸模型匹配的目标二维人脸图像。

12、在一种可选的实施方式中,参数信息包括坐标信息;

13、所述根据所述任一目标三维人脸模型中的各个第二人脸关键点的参数信息,所述匹配三维人脸模型中的各个第二人脸关键点的参数信息,以及所述至少一个第一人脸关键点和所述匹配三维人脸模型中的至少一个第二人脸关键点的对应关系,对所述至少一个第一人脸关键点的参数信息进行调整,得到与所述任一目标三维人脸模型匹配的目标二维人脸图像,包括:

14、根据所述任一目标三维人脸模型中的各个第二人脸关键点的坐标信息,所述匹配三维人脸模型中的各个第二人脸关键点的坐标信息,以及所述至少一个第一人脸关键点和所述匹配三维人脸模型中的至少一个第二人脸关键点的对应关系,对所述至少一个第一人脸关键点的坐标信息进行调整,得到与所述任一目标三维人脸模型匹配的目标二维人脸图像。

15、在一种可选的实施方式中,所述初始二维人脸图像对应的匹配三维人脸模型的获取方式,包括:

16、获取预先构建的初始三维人脸模型;

17、将所述初始三维人脸模型从三维平面投影到二维平面上,得到所述初始三维人脸模型对应的候选二维人脸图像;

18、计算所述候选二维人脸图像的人脸属性参数相对所述初始二维人脸图像的人脸属性参数的偏差;

19、基于所述偏差,以及所述候选二维人脸图像和所述初始三维人脸模型的对应关系,对所述初始三维人脸模型的人脸属性参数进行调整,得到与所述初始二维人脸图像对应的匹配三维人脸模型。

20、在一种可选的实施方式中,基于所述偏差,以及所述候选二维人脸图像和所述初始三维人脸模型的对应关系,对所述初始三维人脸模型的人脸属性参数进行调整,得到与所述初始二维人脸图像对应的匹配三维人脸模型,包括:

21、基于所述偏差,以及所述候选二维人脸图像和所述初始三维人脸模型的对应关系,对所述初始三维人脸模型的人脸属性参数进行调整,得到调整后的三维人脸模型;

22、将所述调整后的三维人脸模型从三维平面投影到二维平面上,得到所述调整后的三维人脸模型对应的候选二维人脸图像;

23、计算当前得到的候选二维人脸图像的人脸属性参数相对所述初始二维人脸图像的人脸属性参数的偏差;

24、基于当前计算的偏差,以及所述当前得到的候选二维人脸图像和所述初始三维人脸模型的对应关系,对所述初始三维人脸模型的人脸属性参数进行调整,得到调整后的三维人脸模型,直至当前得到的调整后的三维人脸模型对应的候选二维人脸图像的人脸属性参数相对所述初始二维人脸图像的人脸属性参数的偏差小于预设阈值,则将当前得到的调整后的三维人脸模型作为与所述初始二维人脸图像对应的匹配三维人脸模型。

25、在一种可选的实施方式中,所述多个目标三维人脸模型是通过训练后的人脸驱动预测模型得到的,其中所述训练后的人脸驱动预测模型的训练方式包括:

26、获取训练音视频,所述训练音视频包括训练视频和训练音频数据,所述训练视频包括多帧训练二维人脸图像;

27、获取各帧训练二维人脸图像对应的训练三维人脸模型中的各个第二人脸关键点的参数信息;

28、对所述训练音频数据进行特征提取,得到所述训练音频数据的语音特征;

29、基于偏向跨模态多头注意力机制,将所述训练视频和训练音频数据对齐;

30、获取所述训练音频数据的各个语音特征和与所述各个语音特征对齐的训练三维人脸模型中的各个第二人脸关键点的参数信息的对齐偏差;

31、按照减小所述对齐偏差的方向,对所述人脸驱动预测模型进行训练。

32、在一种可选的实施方式中,按照减小所述对齐偏差的方向,对所述人脸驱动预测模型进行训练包括:

33、基于偏向因果多头注意力机制,以及所述训练视频中与目标帧相邻的前n帧,预测得到所述目标帧包含的各个第二人脸关键点的预测参数信息;其中,n为正整数,所述目标帧为所述训练视频中的任一帧;

34、计算所述目标帧中的各个第二人脸关键点的参数信息与所述目标帧中的相应第二人脸关键点的预测参数信息的预测偏差;

35、按照减小所述预测偏差的方向,以及所述对齐偏差的方向,对所述人脸驱动预测模型进行训练。

36、在一种可选的实施方式中,对音频数据进行特征提取,得到所述音频数据的语音特征,包括:

37、实时采集所述音频数据,在获取到所述音频数据的一个语音片段时,对所述语音片段进行特征提取,得到所述语音片段的语音特征,并触发执行所述根据所述语音特征和所述匹配三维人脸模型,预测和所述音频数据对齐的目标三维人脸动作序列,得到所述音频数据对应的多个目标三维人脸模型;

38、所述将与所述多个目标三维人脸模型匹配的多个目标二维人脸图像进行拼接,得到与所述音频数据对齐的视频数据,包括:

39、将与所述多个目标三维人脸模型匹配的多个目标二维人脸图像进行拼接,得到与所述语音片段对齐的视频片段;

40、在获取到所述音频数据包含的各个语音片段对齐的视频片段之后,将获取到的各个视频片段进行拼接,得到与所述音频数据对齐的视频数据。

41、第二方面,本技术实施例提供了一种音视频的生成装置,该装置包括:

42、获取单元,用于获取预先构建的初始二维人脸图像,以及所述初始二维人脸图像对应的匹配三维人脸模型;其中,所述初始二维人脸图像包括至少一个第一人脸关键点,所述匹配三维人脸模型包括至少一个第二人脸关键点,任一第一人脸关键点对应所述至少一个第二人脸关键点中的一个或者多个第二人脸关键点;

43、提取单元,用于对音频数据进行特征提取,得到所述音频数据的语音特征;

44、预测单元,用于根据所述语音特征和所述匹配三维人脸模型,预测和所述音频数据对齐的目标三维人脸动作序列,得到所述音频数据对应的多个对应的目标三维人脸模型;

45、调整单元,用于针对任一目标三维人脸模型,根据所述任一目标三维人脸模型中的各个第二人脸关键点的参数信息,所述匹配三维人脸模型中的各个第二人脸关键点的参数信息,以及所述至少一个第一人脸关键点和所述匹配三维人脸模型中的至少一个第二人脸关键点的对应关系,对所述至少一个第一人脸关键点的参数信息进行调整,得到与所述任一目标三维人脸模型匹配的目标二维人脸图像;

46、拼接单元,用于将与所述多个目标三维人脸模型匹配的多个目标二维人脸图像进行拼接,得到与所述音频数据对齐的视频数据;

47、合成单元,用于将所述视频数据与所述音频数据合成,得到目标音视频。

48、第三方面,本发明实施例提供了一种服务器,该服务器包括存储器、通信接口以及处理器,其中,存储器、通信接口和处理器相互连接;存储器存储有计算机程序,处理器调用所述存储器中存储的计算机程序,用于实现上述第一方面的方法。

49、第四方面,本发明实施例提供了一种终端设备,该终端设备包括存储器、通信接口以及处理器,其中,存储器、通信接口和处理器相互连接;存储器存储有计算机程序,处理器调用存储器中存储的计算机程序,用于实现上述第一方面的方法。

50、第五方面,本发明实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述第一方面所述的方法。

51、第六方面,本发明实施例提供了一种计算机程序产品,该计算机程序产品包括计算机程序代码,当该计算机程序代码在计算机上运行时,使得计算机执行上述第一方面所述的方法。

52、第七方面,本发明实施例提供了一种计算机程序,该计算机程序包括计算机程序代码,当该计算机程序代码在计算机上运行时,使得计算机执行上述第一方面所述的方法。

本文地址:https://www.jishuxx.com/zhuanli/20240618/20880.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。