技术新讯 > 乐器声学设备的制造及制作,分析技术 > 面部生成方法和装置与流程  >  正文

面部生成方法和装置与流程

  • 国知局
  • 2024-06-21 11:39:31

本申请属于数字人领域,尤其涉及一种面部生成方法和装置。

背景技术:

1、数字人技术不断发展,数字人逐渐替代真人应用于介绍以及互动等场景。在数字人生成领域中,相关技术中,往往使用大规模口播数据集训练音频驱动口型模型,使模型具有更高的泛化性,但该方法会导致模型在不同形象上推理时口型风格一致,不利于个性化风格的实现。

技术实现思路

1、本申请旨在至少解决现有技术中存在的技术问题之一。为此,本申请提出一种面部生成方法和装置,可以生成不同风格且风格差异较大的不同的口型特征,有利于个性化风格的实现。

2、第一方面,本申请提供了一种面部生成方法,该方法包括:

3、获取目标音频和目标风格特征序列;所述目标风格特征序列为目标风格对象在口播任意音频情况下对应的面部特征序列;

4、基于所述目标音频和所述目标风格特征序列,预测得到目标口型特征;所述目标口型特征为所述目标风格对象对应的唇形风格下与所述目标音频匹配的口型特征;

5、基于所述目标口型特征和所述目标风格特征序列,生成整体面部特征序列。

6、根据本申请的面部生成方法,通过对目标风格特征进行风格迁移,得到目标风格对象在口播目标音频时的目标口型特征,能够在基于目标音频生成与目标音频所包括的每一音频帧对应的口型特征的基础上,进一步结合所需生成的目标风格对象的唇形风格,生成与该唇形风格相匹配的目标口型特征,对于同一目标音频,可以生成不同风格且风格差异较大的不同的口型特征,显著提高所生成的面部特征的真实程度,且有利于个性化风格的实现。

7、根据本申请的一个实施例,所述基于所述目标口型特征和所述目标风格特征序列,生成整体面部特征序列,包括:

8、将从所述目标风格特征序列对应的初始面部特征中提取到的其他五官特征与所述目标口型特征进行融合,得到所述整体面部特征序列;所述其他五官特征为所述初始面部特征中除唇部特征外的特征。

9、根据本申请的一个实施例,所述将从所述目标风格特征序列对应的初始面部特征中提取到的其他五官特征与所述目标口型特征进行融合,得到所述整体面部特征序列,包括:

10、对所述初始面部特征中唇部区域进行掩码遮盖,得到第一面部特征;

11、融合所述目标口型特征和所述第一面部特征,得到所述整体面部特征序列。

12、根据本申请的一个实施例,所述融合所述目标口型特征和所述第一面部特征,得到所述整体面部特征序列,包括:

13、将所述目标口型特征和所述第一面部特征输入至渲染模块,获取所述渲染模块输出的整体面部特征序列;其中,

14、所述渲染模块为以样本口型特征和样本面部掩码特征序列为样本,以与所述样本口型特征和所述样本面部掩码特征序列对应的样本整体面部特征序列为样本标签,基于第一目标损失函数训练得到的。

15、根据本申请的一个实施例,所述基于所述目标音频和所述目标风格特征序列,预测得到目标口型特征,包括:

16、将所述目标音频和所述目标风格特征序列输入至口型风格迁移模块,获取所述口型风格迁移模块输出的目标口型特征;其中,

17、所述口型风格迁移模块为基于第二目标损失函数训练得到的,所述第二目标损失函数包括口型特征损失函数和口型关键点损失函数中的至少一种。

18、根据本申请的一个实施例,所述口型风格迁移模块通过如下步骤训练得到:

19、获取样本音频以及与所述样本音频对应的多种不同样本风格特征下的口播数据集;

20、基于所述样本音频和多种不同样本风格特征中目标样本风格特征对应的口播数据集构建训练样本,得到多个训练样本;

21、基于所述多个训练样本,训练所述口型风格迁移模块。

22、第二方面,本申请提供了一种面部生成装置,该装置包括:

23、第一处理模块,用于获取目标音频和目标风格特征序列;所述目标风格特征序列为目标风格对象在口播任意音频情况下对应的面部特征序列;

24、第二处理模块,用于基于所述目标音频和所述目标风格特征序列,得到目标口型特征;所述目标口型特征为所述目标风格对象对应的唇形风格下与所述目标音频匹配的口型特征;

25、第三处理模块,用于基于所述目标口型特征和所述目标风格特征序列,生成整体面部特征序列。

26、根据本申请的面部生成装置,通过对目标风格特征进行风格迁移,得到目标风格对象在口播目标音频时的目标口型特征,能够在基于目标音频生成与目标音频所包括的每一音频帧对应的口型特征的基础上,进一步结合所需生成的目标风格对象的唇形风格,生成与该唇形风格相匹配的目标口型特征,对于同一目标音频,可以生成不同风格且风格差异较大的不同的口型特征,显著提高所生成的面部特征的真实程度,且有利于个性化风格的实现。

27、第三方面,本申请提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的面部生成方法。

28、第四方面,本申请提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的面部生成方法。

29、第五方面,本申请提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的面部生成方法。

30、本申请实施例中的上述一个或多个技术方案,至少具有如下技术效果之一:

31、通过对目标风格特征进行风格迁移,得到目标风格对象在口播目标音频时的目标口型特征,能够在基于目标音频生成与目标音频所包括的每一音频帧对应的口型特征的基础上,进一步结合所需生成的目标风格对象的唇形风格,生成与该唇形风格相匹配的目标口型特征,对于同一目标音频,可以生成不同风格且风格差异较大的不同的口型特征,显著提高所生成的面部特征的真实程度,且有利于个性化风格的实现。

32、进一步地,通过对初始面部特征中唇部区域进行掩码遮盖以得到其他五官特征,然后对掩码遮盖后的图像与目标口型特征进行融合,操作简单便捷,且能够避免在大角度换脸时所导致的严重失真等问题。

33、更进一步地,通过口型特征损失函数和口型关键点损失函数训练口型风格迁移模块,可以提高口型风格迁移模块的处理精度,有效降低口型合成过程中的失真,保证口型张合与目标音频同步且口型连续性高。

34、更进一步地,通过重建损失函数和感知损失函数训练渲染模块,可以提高渲染模块的渲染流畅性,有效降低口型合成过程中的失真,使得最终生成的整体面部特征中,口型张合与目标音频同步且口型连续性高,且具有较高的逼真度。

35、本申请的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。

技术特征:

1.一种面部生成方法,其特征在于,包括:

2.根据权利要求1所述的面部生成方法,其特征在于,所述基于所述目标口型特征和所述目标风格特征序列,生成整体面部特征序列,包括:

3.根据权利要求2所述的面部生成方法,其特征在于,所述将从所述目标风格特征序列对应的初始面部特征中提取到的其他五官特征与所述目标口型特征进行融合,得到所述整体面部特征序列,包括:

4.根据权利要求3所述的面部生成方法,其特征在于,所述融合所述目标口型特征和所述第一面部特征,得到所述整体面部特征序列,包括:

5.根据权利要求1-4任一项所述的面部生成方法,其特征在于,所述基于所述目标音频和所述目标风格特征序列,预测得到目标口型特征,包括:

6.根据权利要求5所述的面部生成方法,其特征在于,所述口型风格迁移模块通过如下步骤训练得到:

7.一种面部生成装置,其特征在于,包括:

8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6任一项所述面部生成方法。

9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-6任一项所述的面部生成方法。

10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-6任一项所述面部生成方法。

技术总结本申请公开了一种面部生成方法和装置,属于数字人领域。所述面部生成方法,包括:获取目标音频和目标风格特征序列;目标风格特征序列为目标风格对象在口播任意音频情况下对应的面部特征序列;基于目标音频和目标风格特征序列,预测得到目标口型特征;目标口型特征为目标风格对象对应的唇形风格下与目标音频匹配的口型特征;基于目标口型特征和目标风格特征序列,生成整体面部特征序列。本申请的面部生成方法,可以生成不同风格且风格差异较大的不同的口型特征,有利于个性化风格的实现。技术研发人员:王利华,彭鹏,李爱军,姚荣国,李卓霖受保护的技术使用者:广电运通集团股份有限公司技术研发日:技术公布日:2024/3/27

本文地址:https://www.jishuxx.com/zhuanli/20240618/22721.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。