技术新讯 > 乐器声学设备的制造及制作,分析技术 > 数字人视频的生成方法、装置、终端设备和存储介质与流程 > 正文

数字人视频的生成方法、装置、终端设备和存储介质与流程

国知局
2024-06-21 11:52:14

本申请属于数字人，尤其涉及一种数字人视频的生成方法、装置、终端设备和存储介质。

背景技术：

1、数字人是一种通过数字技术模拟人类外形、声音、情感等特征的虚拟人物。它们具有高度的逼真度和灵活性，可以用于教育、医疗、游戏、娱乐、虚拟展览等应用场景。在相关技术中，数字人通常是根据模特(数字人的模仿对象)的外形以及声音生成的，因此生成的数字人发出的声音是与模特的声音类似。因此在相关技术中，难以生成可以跨音域、跨语种的数字人视频，例如如果模特是女生，则生成的数字人难以发出男声，如果模特说中文，则生成的数字人难以说英文。

技术实现思路

1、本申请实施例提供一种数字人视频的生成方法、装置、终端设备和存储介质，可以解决相关技术中难以生成可以跨音域、跨语种的数字人视频的问题。

2、第一方面，本申请实施例提供了一种数字人视频的生成方法，包括：

3、获取原始音频，并从所述原始音频中提取出第一语音特征向量；

4、将所述第一语音特征向量输入音唇同步网络，得到对应的第一3dmm人脸参数；

5、对所述第一3dmm人脸参数进行渲染，得到第一下半人脸渲染图；

6、获取原始视频，并从所述原始视频中提取出第一上半人脸图像；

7、将所述第一下半人脸渲染图以及所述第一上半人脸图像输入对抗神经网络，得到完整人脸图像；

8、基于所述完整人脸图像，生成数字人视频。

9、第二方面，本申请实施例提供了一种数字人视频的生成装置，包括：

10、第一获取模块，用于获取原始音频，并从所述原始音频中提取出第一语音特征向量；

11、第一输入模块，用于将所述第一语音特征向量输入音唇同步网络，得到对应的第一3dmm人脸参数；

12、渲染模块，用于对所述第一3dmm人脸参数进行渲染，得到第一下半人脸渲染图；

13、第二获取模块，用于获取原始视频，并从所述原始视频中提取出第一上半人脸图像；

14、第二输入模块，用于将所述第一下半人脸渲染图以及所述第一上半人脸图像输入对抗神经网络，得到完整人脸图像；

15、生成模块，用于基于所述完整人脸图像，生成数字人视频。

16、第三方面，本申请实施例提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述数字人视频的生成方法的步骤。

17、第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述数字人视频的生成方法的步骤。

18、第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述数字人视频的生成方法。

19、本申请实施例与现有技术相比的有益效果是：本申请实施例获取原始音频，并从原始音频中提取出第一语音特征向量，再将第一语音特征向量输入音唇同步网络，得到对应的第一3dmm人脸参数，然后对第一3dmm人脸参数进行渲染，得到第一下半人脸渲染图。再获取原始视频，并从原始视频中提取出第一上半人脸图像，并将第一下半人脸渲染图以及第一上半人脸图像输入对抗神经网络，得到完整人脸图像，最后基于完整人脸图像，生成数字人视频。当原始音频对应的模拟对象和原始视频对应的模拟对象是不同类型时，例如原始音频对应的模拟对象说的是英文，原始视频对应的模拟对象说的是中文，本申请实施例可以生成原始视频对应的模拟对象的形象(上半人脸图像)，同时又可以生成原始音频对应的口型(下半人脸渲染图)，二者结合得到的完整人脸图像，既保留了原始视频对应的模拟对象的形象，口型又与原始音频匹配，因此即便原始音频对应的模拟对象和原始视频对应的模拟对象是不同类型，最终生成的数字人视频也很自然、真实，使得生成的数字人视频可以跨音域、跨语种。

技术特征：

1.一种数字人视频的生成方法，其特征在于，包括：

2.如权利要求1所述的数字人视频的生成方法，其特征在于，在所述将所述第一语音特征向量输入音唇同步网络，得到对应的第一3dmm人脸参数之前，所述方法还包括：

3.如权利要求2所述的数字人视频的生成方法，其特征在于，所述对待训练的待训练音唇同步网络进行预训练，得到预训练音唇同步网络，包括：

4.如权利要求2所述的数字人视频的生成方法，其特征在于，所述对所述预训练音唇同步网络进行定制化训练，得到训练好的所述音唇同步网络，包括：

5.如权利要求1所述的数字人视频的生成方法，其特征在于，在所述将所述第一下半人脸渲染图以及所述第一上半人脸图像输入对抗神经网络，得到完整人脸图像之前，所述方法还包括：

6.如权利要求1所述的数字人视频的生成方法，其特征在于，所述对所述第一3dmm人脸参数进行渲染，得到第一下半人脸渲染图，包括：

7.如权利要求1所述的数字人视频的生成方法，其特征在于，所述获取原始视频，并从所述原始视频中提取出第一上半人脸图像，包括：

8.一种数字人视频的生成装置，其特征在于，包括：

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述数字人视频的生成方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述数字人视频的生成方法的步骤。

技术总结本申请适用于数字人技术领域，提供了一种数字人视频的生成方法、装置、终端设备和存储介质。上述数字人视频的生成方法包括：获取原始音频，并从原始音频中提取出第一语音特征向量；将第一语音特征向量输入音唇同步网络，得到对应的第一3DMM人脸参数；对第一3DMM人脸参数进行渲染，得到第一下半人脸渲染图；获取原始视频，并从原始视频中提取出第一上半人脸图像；将第一下半人脸渲染图以及第一上半人脸图像输入对抗神经网络，得到完整人脸图像；基于完整人脸图像，生成数字人视频。本申请实施例既保留了原始视频对应的模拟对象的形象，口型又与原始音频匹配，生成的数字人视频很自然、真实，使得生成的数字人视频可以跨音域、跨语种。技术研发人员：阮霁阳受保护的技术使用者：上海积图科技有限公司技术研发日：技术公布日：2024/5/16