技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种数据集构建、模型训练、面部表情驱动方法及装置与流程 > 正文

一种数据集构建、模型训练、面部表情驱动方法及装置与流程

国知局
2024-07-31 23:25:04

本发明涉及人工智能，具体为一种关于三维模型的数据集构建、模型训练、面部表情驱动方法及装置。

背景技术：

1、随着科技发展，三维人物模型的质量越来越高，因此被广泛应用于电影、游戏、直播等领域，而由于其可以呈现出真实、细致的表情，所以面部表情控制的需求也越来越高。

2、当前的面部表情多由手工制作、调整，因此花费时间长、效率低下。相关技术多采用图像数据，难以采集到很多人的丰富表情，导致效果较差。相关技术仅使用单帧数据，未考虑时间连贯性，由于表情具有歧义性，因此造成结果不稳定。

技术实现思路

1、本发明提供了数据集构建、模型训练和面部表情驱动方法及装置。技术方案包括如下内容。

2、一种数据集构建方法，依次包括下述步骤：

3、s101.使用三维头部参数化模型拟合不同人物模型，得到大量自然分布且不相同的身份系数，所述人物模型是使用多相机系统采集人脸图像重建得到的模型。

4、s102.采集头部旋转矩阵和面部表情的blendshape系数。

5、s103.使用三维头部参数化模型，结合不同的身份系数和blendshape系数重建出对应不同人物和表情的三维模型，所述三维模型在本发明中是双线性参数化模型，可以如下表示：m＝cr×wexp×wid，其中cr是核心张量，wexp是表情系数，wid是身份系数。

6、s104.根据头部旋转矩阵将三维模型的点投影到二维空间，得到二维关键点数据，所述投影方法是弱透视投影，可以如下表示：pk＝s×r×vk+t，其中pk是二维关键点，vk是三维模型点，s是缩放比例，r是旋转矩阵，t是平移向量。

7、一种数据集构建装置，依次包括下述模块：

8、拟合模块，用于拟合不同人物的身份系数。

9、采集模块，用于采集头部旋转矩阵和面部表情blendshape系数。

10、重建模块，用于重建出对应表情的三维模型。

11、投影模块，用于将三维模型点投影到二维空间，得到二维关键点数据。

12、一种模型训练方法，依次包括下述步骤：

13、s301.基于所述数据集，读取连续多帧数据，包括二维关键点数据和对应blendshape系数。

14、s302.对每帧二维关键点进行预处理，所述预处理是指将关键点除以最大值，使得每个点的值分布在[0,1]之间。

15、s303.将预处理后的关键点输入神经网络模型得到blendshape系数和头部旋转矩阵，该神经网络模型包括但不限于：mlp(多层感知机)、resnet(深度残差网络)、transformer(自注意力模型)、rnn(循环神经网络)等模型。

16、s304.基于预测结果和数据的之间的损失对所述模型进行训练，该损失可以使用但不限于l1 loss(绝对误差)、mse loss(均方误差)或wingloss(翼误差)，经过调整合适的参数，所述参数包括优化器及其参数选择、学习率衰减策略、批量大小、学习率、迭代次数等，在满足收敛条件后得到训练后的模型，所述收敛条件包括达到迭代次数，损失足够小等。

17、一种模型训练装置，依次包括下述模块：

18、采集模块，用于获取连续帧数据。

19、处理模块，用于对数据进行预处理。

20、推理模块，用于得到神经网络模型的结果。

21、损失模块，用于根据神经网络模型的结果计算损失，调整参数来训练满足收敛条件的模型。

22、一种面部表情驱动方法，依次包括下述步骤：

23、s501.基于相机获取视频图像，该视频图像需要包含人脸。

24、s502.对照片进行预处理，所述预处理是将图像中每个像素值除以255，使得每个像素值都分布在[0,1]之间。

25、s503.将预处理的图片输入人脸识别模型，得到人脸识别模型的输出为包含人脸的框，将其进行处理，处理过程包括：将包含人脸的框进行一定比例的放大，获取合适的人脸位置和范围，再进行裁剪得到人脸图像，然后缩放到统一大小。

26、s504.将人脸图像输入到人脸关键点模型中，获取该人脸图像的人脸关键点，再将关键点进行上述预处理。

27、s505.将预处理后的关键点数据输入训练好的神经网络模型，得到blendshape系数和头部旋转矩阵。

28、s506.使用blendshape系数驱动人物模型做出表情。

29、一种面部表情驱动装置，依次包括下述模块：

30、采集模块，用于采集图像数据。

31、处理模块，用于对图像数据进行预处理。

32、识别模块，用于从图像中获取人脸位置。

33、关键点模块，用于从图像中获取人脸关键点位置。

34、推理模块，用于输入数据，得到模型输出的blendshape系数和头部旋转矩阵。

35、驱动模块，使用blendshape系数驱动人物模型的表情。

36、与现有技术相比，本发明的有益效果如下：

37、本发明通过拟合不同人物，可以得到大量符合自然分布且不相同的身份系数，从而构造出大量数据，无需人工标注和制作，节约了时间和成本。由于表情系数可控，因此能让数据分布更加均衡，每个模型都可以具有相同的表情。由于只需要存储模型关键点数据，而无需存储图像数据，因此可以节约内存空间；

38、本发明基于多帧数据的模型，可以更好的捕捉时域信息，输出更加稳定、自然的blendshape系数，再结合预测头部旋转矩阵，可以适应多种角度的表情捕捉，实现更好的效果；

39、本发明基于关键点的方案，使得本发明的方法及装置可以与任意关键点模型进行集成，快速应用于不同方案，同时可以驱动任意具有相同blendshape系数的三维模型。

技术特征：

1.一种数据集构建方法，其特征在于依次包括下述步骤：

2.一种数据集构建装置，其特征在于依次包括下述步骤：

3.一种模型训练方法，其特征在于依次包括下述步骤：

4.一种模型训练装置，其特征在于依次包括下述步骤：

5.一种面部表情驱动方法，其特征在于依次包括下述步骤：

6.一种面部表情驱动装置，其特征在于依次包括下述步骤：

7.一种计算机设备，其特征在于，所述计算机设备可以使用处理器执行根据权利要求1-6中任一项所述的方法。

8.一种计算机存储介质，其特征在于，所述计算机存储介质存储计算机程序，用于使处理器执行根据权利要求1-6中任一项所述的方法。

技术总结本发明提供了数据集构建、模型训练和面部表情驱动方法及装置，涉及人工智能领域。实现方法包括：使用三维头部参数化模型拟合不同人物得到大量自然分布且不相同的身份系数；采集头部旋转矩阵和blendshape系数；根据blendshape系数重建对应的三维模型；根据旋转矩阵将三维模型点投影到二维空间。本发明能够制作和训练出面部表情驱动模型，用于驱动模型表情。技术研发人员：孙昊,邱翔受保护的技术使用者：广州虚拟动力网络技术有限公司技术研发日：技术公布日：2024/7/29