技术新讯 > 电子通信装置的制造及其应用技术 > 一种音脸同步视频生成方法、装置、电子设备及存储介质与流程 > 正文

一种音脸同步视频生成方法、装置、电子设备及存储介质与流程

国知局
2024-09-19 14:44:41

本发明涉及人脸识别处理领域，更具体地，涉及一种音脸同步视频生成方法、装置、电子设备及存储介质。

背景技术：

1、随着直播平台正日益增长其市场份额和影响力，直播平台不断探索新型的直播形式，其中包括使用2d或3d数字人作为主播的技术，而数字人直播的核心需求之一是实现高度真实感的表达，特别是口型与所发声音的精确同步。这不仅关系到视觉效果的自然程度，更直接影响到观众的观看体验和直播内容的吸引力。在传统的虚拟人直播技术中，常见的做法是通过预录的动画或者简单的音频触发表情系统来模拟说话过程，但这些方法普遍存在同步精度低，表情僵硬、不自然的问题，无法满足日益挑剔的用户需求。

技术实现思路

1、本发明旨在克服上述现有技术的至少一种缺陷，提供一种音脸同步视频生成方法、装置、电子设备及存储介质，用于提供一种更精准，更自然的音脸同步视频生成方法、装置、电子设备及存储介质。

2、根据本申请的第一方面，提供了一种音脸同步视频生成方法，所述生成方法包括：

3、获取对象脸部的视频数据，根据所述视频数据获取对应的视频图像数据和音频数据；

4、根据所述视频图像数据获取所述对象原始脸部的原始信息；

5、构建脸部重建模型，根据所述视频图像数据和音频数据对所述脸部重建模型进行训练；所述训练包括：

6、将所述音频数据输入所述脸部重建模型进行预测，得到预测脸部的顶点信息；

7、根据所述视频图像数据的所述原始信息和所述预测脸部的顶点信息渲染预测3d对象脸部，计算所述预测3d对象脸部与所述原始脸部的形状损失；

8、根据计算的损失优化所述脸部重建模型的参数，得到训练好的所述脸部重建模型；

9、获取目标对象的音频数据，根据训练好的所述脸部重构模型和所述目标音频获取目标对象的脸部视频。

10、在可选的实施方式中，所述根据所述视频图像数据获取所述对象原始脸部的原始信息，具体包括：

11、获取所述视频图像数据中每一帧视频图像的所述对象原始脸部的原始外参矩阵。

12、在可选的实施方式中，所述脸部重建模型包括脸部重建网络和参数获取网络；

13、所述脸部重建网络用于根据所述音频数据预测所述预测脸部各帧的顶点信息；

14、所述参数获取网络用于根据所述预测脸部各帧的顶点信息获取所述预测脸部对应帧的预测参数信息。

15、在可选的实施方式中，所述根据所述视频图像数据的所述原始信息和所述预测脸部的顶点信息渲染预测3d对象脸部，具体包括：

16、将对应帧的所述预测脸部的顶点信息与所述对象原始脸部的原始外参矩阵相乘获取外参顶点信息，根据所述外参顶点信息进行纹理采样，获取纹理贴图，根据所述外参顶点信息和纹理贴图进行渲染，得到所述预测3d对象脸部。

17、在可选的实施方式中，所述计算所述预测3d对象脸部与所述原始脸部的形状损失，具体包括：

18、计算对应帧的所述预测脸部的所述预测3d对象脸部的rgb值与所述原始脸部的rgb值的l2损失，并将所有帧的l2损失进行累加平均，得到所述形状损失。

19、在可选的实施方式中，所述生成方法还包括根据所述视频图像数据获取所述对象原始脸部的原始参数信息；

20、所述训练还包括计算所述预测参数信息与所述原始信息的参数损失，具体包括：

21、计算对应帧的预测脸部的所述预测参数信息与所述原始脸部的所述原始参数信息的l2损失，并将所有帧的l2损失进行累加平均，得到所述参数损失。

22、在可选的实施方式中，所述训练还包括计算所述预测脸部的顶点信息的顶点损失，具体包括：

23、获取所述原始脸部各帧的顶点信息，并计算对应帧的所述预测脸部的顶点信息与所述原始脸部的顶点信息的l2损失，并将所有帧的l2损失进行累加平均，得到所述顶点损失。

24、根据本申请的第二方面，提供了一种音脸同步视频生成装置，所述生成装置包括：

25、视频采集模块，用于获取对象脸部的视频数据，根据所述视频数据获取对应的视频图像数据和音频数据；

26、视频信息获取模块，用于根据所述视频图像数据获取所述对象原始脸部的原始信息；

27、模型构建训练模块，用于构建脸部重建模型，根据所述视频图像数据和音频数据对所述脸部重建模型进行训练；

28、所述模型构建训练模块中包括模型预测单元、损失计算单元和模型优化单元；

29、所述模型预测单元用于通过所述脸部重建模型根据所述音频数据进行预测，得到预测脸部的顶点信息；

30、所述损失计算单元用于根据所述视频图像数据的所述原始信息和所述预测脸部的顶点信息渲染预测3d对象脸部，计算所述预测3d对象脸部与所述原始脸部的形状损失；

31、所述模型优化单元用于根据计算的损失优化所述脸部重建模型的参数，得到训练好的所述脸部重建模型；

32、视频获取模块，用于获取目标对象的音频数据，根据训练好的所述脸部重构模型和所述目标对象的音频数据获取目标对象的脸部视频。

33、根据本申请的第三方面，提供了一种电子设备，包括存储器和处理器，所述存储器上存储有计算机可读指令，所述处理器执行所述计算机可读指令，实现上述第一方面所述的一种音脸同步视频生成方法。

34、根据本申请的第四方面，提供了一种计算机存储介质，其上存储有计算机程序，所述计算机程序被执行时实现上述第一方面所述的一种音脸同步视频生成方法。

35、根据上述任意一个方面，本实施例提供的一种音脸同步视频生成方法、装置、电子设备及存储介质通过对象脸部的视频数据，并根据所述视频数据分离出用于训练的所述音频数据，以及用于对照的所述视频图像数据，构建所述脸部重构模型，根据所述音频数据对所述脸部重构模型进行训练，获取预测输出的预测脸部的顶点信息，根据所述视频图像数据的所述原始信息和所述预测脸部的所述顶点信息渲染预测3d对象脸部，将所述预测3d对象脸部与原始脸部进行形状损失计算，渲染得到的所述预测3d对象脸部直观地包含了所述预测脸部的顶点的形状、位置和颜色，通过计算所述形状损失，能够提高所述脸部重构模型捕捉微妙的表情变化，进一步提高预测的精度以及生成视频的同步率；

36、再者，根据上述任意一个方面，本实施例提供的一种音脸同步视频生成方法、装置、电子设备及存储介质进一步地根据所述视频图像数据提取的所述原始脸部的原始信息进行损失计算，在预测脸部的顶点信息的基础上，进一步的获取了所述预测脸部的所述预测参数信息，能够基于所述预测参数信息对不同的部位的训练分配不同权重，着重针对脸部的重要部位进行训练，进而提高了重要部位的预测精度，进而提高音脸的同步率。

技术特征：

1.一种音脸同步视频生成方法，其特征在于，所述生成方法包括：

2.根据权利要求1所述的一种音脸同步视频生成方法，其特征在于，所述根据所述视频图像数据获取所述对象原始脸部的原始信息，具体包括：

3.根据权利要求2所述的一种音脸同步视频生成方法，其特征在于，所述脸部重建模型包括脸部重建网络和参数获取网络；

4.根据权利要求2或3任一项所述的一种音脸同步视频生成方法，其特征在于，所述根据所述视频图像数据的所述原始信息和所述预测脸部的顶点信息渲染预测3d对象脸部，具体包括：

5.根据权利要求4所述的一种音脸同步视频生成方法，其特征在于，所述计算所述预测3d对象脸部与所述原始脸部的形状损失，具体包括：

6.根据权利要求3所述的一种音脸同步视频生成方法，其特征在于，所述生成方法还包括根据所述视频图像数据获取所述对象原始脸部的原始参数信息；

7.根据权利要求1所述的一种音脸同步视频生成方法，其特征在于，所述训练还包括计算所述预测脸部的顶点信息的顶点损失，具体包括：

8.一种音脸同步视频生成装置，其特征在于，所述生成装置包括：

9.一种电子设备，包括存储器和处理器，其特征在于，所述存储器上存储有计算机可读指令，所述处理器执行所述计算机可读指令，实现上述权利要求1-7任一项所述的一种音脸同步视频生成方法。

10.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被执行时实现上述权利要求1-7任一项所述的一种音脸同步视频生成方法。

技术总结本发明提供的一种音脸同步视频生成方法、装置、电子设备及存储介质，所述方法通过将视频数据分离出用于训练的所述音频数据，以及用于对照的所述视频图像数据，并视频图像数据中获取原始数据，通过所述音频数据获取预测人脸的顶点信息，根据所述原始信息和所述预测脸部的顶点信息渲染预测3D对象脸部，在训练的过程中将所述预测3D对象脸部与原始脸部进行形状损失计算。与现有技术相比，渲染得到的所述预测3D对象脸部直观地包含了所述预测脸部的顶点的形状、位置和颜色，本发明通过计算所述形状损失，能够提高所述脸部重构模型捕捉微妙的表情变化，进一步提高预测的精度以及生成视频的同步率。技术研发人员：陈铭钦,芦爱余受保护的技术使用者：广州虎牙科技有限公司技术研发日：技术公布日：2024/9/17