技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种语音驱动三维人脸动画方法  >  正文

一种语音驱动三维人脸动画方法

  • 国知局
  • 2024-10-21 14:30:55

本申请涉及三维人脸动画,具体地,涉及一种语音驱动三维人脸动画方法。

背景技术:

1、随着数字虚拟人的发展,三维人脸动画技术成为目前虚拟人交互的研究热点。三维人脸动画赋予三维人脸模型动态表达和情感传达的能力,增强了真实感和互动体验。三维人脸动画技术的目标是根据语音、文本或者视频信息等去生成音唇同步的人脸动画,这种动画的面部动作需要自然且流畅,然而,由于人脸结构的复杂性,基于语音驱动的人脸动画有时会导致面部表情不自然的扭曲现象,目前的研究虽然取得了一些进展,但还是有很多的难点需要克服。高质量的人脸模型的建模是三维人脸动画技术的关键,要得到一个逼真的人脸模型,必须精确的呈现面部的各种特征和细节,如人脸的表情、皱纹以及头发等,目前三维人体动画主流的方法在很大程度上严重依赖人为设定,通常需要使用动作捕捉设备和三维扫描设备等硬件设备驱动,无法得到更加真实的三维人脸模型。

技术实现思路

1、为了克服现有技术中的至少一个不足,本申请提供一种语音驱动三维人脸动画方法。

2、第一方面,提供一种语音驱动三维人脸动画方法,包括:

3、对人脸二维图像进行粗重建,得到具有粗糙形状的三维人脸模型;

4、对人脸二维图像进行细重建,得到用于描述人脸在不同表情下的形态变化的位移图;位移图作用于具有粗糙形状的三维人脸模型,得到具有细节形状的三维人脸模型;

5、提取人脸二维图像的面部纹理,并对面部纹理进行矫正,得到纹理贴图;

6、根据纹理贴图和具有细节形状的三维人脸模型,得到最终的三维人脸模型;

7、基于最终的三维人脸模型建立一组表情基;

8、对语音信号进行特征提取,得到blendshapes系数;

9、将blendshapes系数作为表情基的权重作用于一组表情基,实现语音驱动三维人脸动画。

10、在一个实施例中,对人脸二维图像进行粗重建,得到具有粗糙形状的三维人脸模型,包括:

11、将人脸二维图像输入到第一编码器中,得到隐编码,隐编码包括flame参数;flame参数包括相机参数、反照率参数、光照参数、形状参数、姿势参数和表情参数;

12、将flame参数应用于flame模型,得到具有粗糙形状的三维人脸模型。

13、在一个实施例中,对人脸二维图像进行细重建,得到用于描述人脸在不同表情下的形态变化的位移图,包括:

14、将人脸二维图像输入到第二编码器中,得到隐编码,隐编码包括身份信息、表情参数和静态参数;

15、基于隐编码采用3d人脸解耦的方法,得到位移图。

16、在一个实施例中,提取人脸二维图像的面部纹理,并对面部纹理进行矫正,得到纹理贴图,包括:

17、根据人脸二维图像,得到多视角的人脸图像;

18、对多视角的人脸图像进行纹理提取,得到多视角的纹理图像;

19、采用预测的mask区域去除多视角的纹理图像的非面部区域,得到处理后的多视角的纹理图像;

20、将处理后的多视角的纹理图像进行线性混合,得到初步的纹理贴图;

21、采用纹理模版填充的方法对初步的纹理贴图进行非面部区域填充,得到最终的纹理贴图。

22、在一个实施例中,对语音信号进行特征提取,得到blendshapes系数,包括:

23、基于语音信号提取时域特征和频域特征;

24、将时域特征和频域特征输入到第一特征提取器中,得到情绪潜空间;

25、将时域特征和频域特征输入到第二特征提取器中,得到内容潜空间;

26、将情绪潜空间和内容潜空间输入到多头注意力机制中进行特征增强,得到增强后的特征;

27、将增强后的特征输入到解码器中,得到blendshapes系数。

28、第二方面,提供一种语音驱动三维人脸动画装置,包括:

29、粗重建模块,用于对人脸二维图像进行粗重建,得到具有粗糙形状的三维人脸模型;

30、细重建模块,用于对人脸二维图像进行细重建,得到用于描述人脸在不同表情下的形态变化的位移图;位移图作用于具有粗糙形状的三维人脸模型,得到具有细节形状的三维人脸模型;

31、纹理贴图获取模块,用于提取人脸二维图像的面部纹理,并对面部纹理进行矫正,得到纹理贴图;

32、三维人脸模型获取模块,用于根据纹理贴图和具有细节形状的三维人脸模型,得到最终的三维人脸模型;

33、表情基构建模块,用于基于最终的三维人脸模型建立一组表情基;

34、系数获取模块,用于对语音信号进行特征提取,得到blendshapes系数;

35、语音驱动模块,用于将blendshapes系数作为表情基的权重作用于一组表情基,实现语音驱动三维人脸动画。

36、在一个实施例中,粗重建模块还用于:

37、将人脸二维图像输入到第一编码器中,得到隐编码,隐编码包括flame参数;flame参数包括相机参数、反照率参数、光照参数、形状参数、姿势参数和表情参数;

38、将flame参数应用于flame模型,得到具有粗糙形状的三维人脸模型。

39、在一个实施例中,细重建模块还用于:

40、将人脸二维图像输入到第二编码器中,得到隐编码,隐编码包括身份信息、表情参数和静态参数;

41、基于隐编码采用静动解耦的方法,得到位移图。

42、第三方面,提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时,以实现上述的语音驱动三维人脸动画方法。

43、第四方面,提供一种计算机程序产品,包括计算机程序/指令,计算机程序/指令被处理器执行时,以实现上述的语音驱动三维人脸动画方法。

44、相对于现有技术而言,本申请具有以下有益效果:本申请的语音驱动三维人脸动画方法,基于位移图精细化调整具有粗糙形状的三维人脸模型,得到栩栩如生的具有细节形状的三维人脸模型;通过纹理提取与矫正,得到高质量的纹理贴图;将纹理贴图精准的映射到三维人脸模型上,从而得到一个纹理细腻、高质量的三维人脸模型;为了进一步增强模型的表达能力,建立一组表情基,得到人脸的丰富表情变化,并将blendshapes系数应用于表情基上,实现语音驱动人脸模型的动态动画效果。

技术特征:

1.一种语音驱动三维人脸动画方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,其中,对人脸二维图像进行粗重建,得到具有粗糙形状的三维人脸模型,包括:

3.如权利要求1所述的方法,其特征在于,其中,对所述人脸二维图像进行细重建,得到用于描述人脸在不同表情下的形态变化的位移图,包括:

4.如权利要求1所述的方法,其特征在于,其中,提取所述人脸二维图像的面部纹理,并对所述面部纹理进行矫正,得到纹理贴图,包括:

5.如权利要求1所述的方法,其特征在于,其中,对语音信号进行特征提取,得到blendshapes系数,包括:

6.一种语音驱动三维人脸动画装置,其特征在于,包括:

7.如权利要求6所述的装置,其特征在于,所述粗重建模块还用于:

8.如权利要求6所述的装置,其特征在于,所述细重建模块还用于:

9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时,以实现权利要求1-5任意一项所述的语音驱动三维人脸动画方法。

10.一种计算机程序产品,其特征在于,包括计算机程序/指令,所述计算机程序/指令被处理器执行时,以实现权利要求1-5任意一项所述的语音驱动三维人脸动画方法。

技术总结本申请涉及一种语音驱动三维人脸动画方法,该方法基于位移图精细化调整具有粗糙形状的三维人脸模型,得到栩栩如生的具有细节形状的三维人脸模型;通过纹理提取与矫正,得到高质量的纹理贴图;将纹理贴图精准的映射到三维人脸模型上,从而得到一个纹理细腻、高质量的三维人脸模型;为了进一步增强模型的表达能力,建立一组表情基,得到人脸的丰富表情变化,并将Blendshapes系数应用于表情基上,实现语音驱动人脸模型的动态动画效果。技术研发人员:王小凤,李治权,张娇,董兴宇,申一凡,杨瑞龙,李湛涛,郭红波,张雨禾受保护的技术使用者:西北大学技术研发日:技术公布日:2024/10/17

本文地址:https://www.jishuxx.com/zhuanli/20241021/318412.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。