技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种语音驱动三维人脸动画方法 > 正文

一种语音驱动三维人脸动画方法

国知局
2024-10-21 14:30:55

本申请涉及三维人脸动画，具体地，涉及一种语音驱动三维人脸动画方法。

背景技术：

1、随着数字虚拟人的发展，三维人脸动画技术成为目前虚拟人交互的研究热点。三维人脸动画赋予三维人脸模型动态表达和情感传达的能力，增强了真实感和互动体验。三维人脸动画技术的目标是根据语音、文本或者视频信息等去生成音唇同步的人脸动画，这种动画的面部动作需要自然且流畅，然而，由于人脸结构的复杂性，基于语音驱动的人脸动画有时会导致面部表情不自然的扭曲现象，目前的研究虽然取得了一些进展，但还是有很多的难点需要克服。高质量的人脸模型的建模是三维人脸动画技术的关键，要得到一个逼真的人脸模型，必须精确的呈现面部的各种特征和细节，如人脸的表情、皱纹以及头发等，目前三维人体动画主流的方法在很大程度上严重依赖人为设定，通常需要使用动作捕捉设备和三维扫描设备等硬件设备驱动，无法得到更加真实的三维人脸模型。

技术实现思路

1、为了克服现有技术中的至少一个不足，本申请提供一种语音驱动三维人脸动画方法。

2、第一方面，提供一种语音驱动三维人脸动画方法，包括：

3、对人脸二维图像进行粗重建，得到具有粗糙形状的三维人脸模型；

4、对人脸二维图像进行细重建，得到用于描述人脸在不同表情下的形态变化的位移图；位移图作用于具有粗糙形状的三维人脸模型，得到具有细节形状的三维人脸模型；

5、提取人脸二维图像的面部纹理，并对面部纹理进行矫正，得到纹理贴图；

6、根据纹理贴图和具有细节形状的三维人脸模型，得到最终的三维人脸模型；

7、基于最终的三维人脸模型建立一组表情基；

8、对语音信号进行特征提取，得到blendshapes系数；

9、将blendshapes系数作为表情基的权重作用于一组表情基，实现语音驱动三维人脸动画。

10、在一个实施例中，对人脸二维图像进行粗重建，得到具有粗糙形状的三维人脸模型，包括：

11、将人脸二维图像输入到第一编码器中，得到隐编码，隐编码包括flame参数；flame参数包括相机参数、反照率参数、光照参数、形状参数、姿势参数和表情参数；

12、将flame参数应用于flame模型，得到具有粗糙形状的三维人脸模型。

13、在一个实施例中，对人脸二维图像进行细重建，得到用于描述人脸在不同表情下的形态变化的位移图，包括：

14、将人脸二维图像输入到第二编码器中，得到隐编码，隐编码包括身份信息、表情参数和静态参数；

15、基于隐编码采用3d人脸解耦的方法，得到位移图。

16、在一个实施例中，提取人脸二维图像的面部纹理，并对面部纹理进行矫正，得到纹理贴图，包括：

17、根据人脸二维图像，得到多视角的人脸图像；

18、对多视角的人脸图像进行纹理提取，得到多视角的纹理图像；

19、采用预测的mask区域去除多视角的纹理图像的非面部区域，得到处理后的多视角的纹理图像；

20、将处理后的多视角的纹理图像进行线性混合，得到初步的纹理贴图；

21、采用纹理模版填充的方法对初步的纹理贴图进行非面部区域填充，得到最终的纹理贴图。

22、在一个实施例中，对语音信号进行特征提取，得到blendshapes系数，包括：

23、基于语音信号提取时域特征和频域特征；

24、将时域特征和频域特征输入到第一特征提取器中，得到情绪潜空间；

25、将时域特征和频域特征输入到第二特征提取器中，得到内容潜空间；

26、将情绪潜空间和内容潜空间输入到多头注意力机制中进行特征增强，得到增强后的特征；

27、将增强后的特征输入到解码器中，得到blendshapes系数。

28、第二方面，提供一种语音驱动三维人脸动画装置，包括：

29、粗重建模块，用于对人脸二维图像进行粗重建，得到具有粗糙形状的三维人脸模型；

30、细重建模块，用于对人脸二维图像进行细重建，得到用于描述人脸在不同表情下的形态变化的位移图；位移图作用于具有粗糙形状的三维人脸模型，得到具有细节形状的三维人脸模型；

31、纹理贴图获取模块，用于提取人脸二维图像的面部纹理，并对面部纹理进行矫正，得到纹理贴图；

32、三维人脸模型获取模块，用于根据纹理贴图和具有细节形状的三维人脸模型，得到最终的三维人脸模型；

33、表情基构建模块，用于基于最终的三维人脸模型建立一组表情基；

34、系数获取模块，用于对语音信号进行特征提取，得到blendshapes系数；

35、语音驱动模块，用于将blendshapes系数作为表情基的权重作用于一组表情基，实现语音驱动三维人脸动画。

36、在一个实施例中，粗重建模块还用于：

37、将人脸二维图像输入到第一编码器中，得到隐编码，隐编码包括flame参数；flame参数包括相机参数、反照率参数、光照参数、形状参数、姿势参数和表情参数；

38、将flame参数应用于flame模型，得到具有粗糙形状的三维人脸模型。

39、在一个实施例中，细重建模块还用于：

40、将人脸二维图像输入到第二编码器中，得到隐编码，隐编码包括身份信息、表情参数和静态参数；

41、基于隐编码采用静动解耦的方法，得到位移图。

42、第三方面，提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时，以实现上述的语音驱动三维人脸动画方法。

43、第四方面，提供一种计算机程序产品，包括计算机程序/指令，计算机程序/指令被处理器执行时，以实现上述的语音驱动三维人脸动画方法。

44、相对于现有技术而言，本申请具有以下有益效果：本申请的语音驱动三维人脸动画方法，基于位移图精细化调整具有粗糙形状的三维人脸模型，得到栩栩如生的具有细节形状的三维人脸模型；通过纹理提取与矫正，得到高质量的纹理贴图；将纹理贴图精准的映射到三维人脸模型上，从而得到一个纹理细腻、高质量的三维人脸模型；为了进一步增强模型的表达能力，建立一组表情基，得到人脸的丰富表情变化，并将blendshapes系数应用于表情基上，实现语音驱动人脸模型的动态动画效果。

技术特征：

1.一种语音驱动三维人脸动画方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，其中，对人脸二维图像进行粗重建，得到具有粗糙形状的三维人脸模型，包括：

3.如权利要求1所述的方法，其特征在于，其中，对所述人脸二维图像进行细重建，得到用于描述人脸在不同表情下的形态变化的位移图，包括：

4.如权利要求1所述的方法，其特征在于，其中，提取所述人脸二维图像的面部纹理，并对所述面部纹理进行矫正，得到纹理贴图，包括：

5.如权利要求1所述的方法，其特征在于，其中，对语音信号进行特征提取，得到blendshapes系数，包括：

6.一种语音驱动三维人脸动画装置，其特征在于，包括：

7.如权利要求6所述的装置，其特征在于，所述粗重建模块还用于：

8.如权利要求6所述的装置，其特征在于，所述细重建模块还用于：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时，以实现权利要求1-5任意一项所述的语音驱动三维人脸动画方法。

10.一种计算机程序产品，其特征在于，包括计算机程序/指令，所述计算机程序/指令被处理器执行时，以实现权利要求1-5任意一项所述的语音驱动三维人脸动画方法。

技术总结本申请涉及一种语音驱动三维人脸动画方法，该方法基于位移图精细化调整具有粗糙形状的三维人脸模型，得到栩栩如生的具有细节形状的三维人脸模型；通过纹理提取与矫正，得到高质量的纹理贴图；将纹理贴图精准的映射到三维人脸模型上，从而得到一个纹理细腻、高质量的三维人脸模型；为了进一步增强模型的表达能力，建立一组表情基，得到人脸的丰富表情变化，并将Blendshapes系数应用于表情基上，实现语音驱动人脸模型的动态动画效果。技术研发人员：王小凤,李治权,张娇,董兴宇,申一凡,杨瑞龙,李湛涛,郭红波,张雨禾受保护的技术使用者：西北大学技术研发日：技术公布日：2024/10/17