技术新讯 > 计算推算,计数设备的制造及其应用技术 > 数字人生成方法、装置、设备及存储介质与流程 > 正文

数字人生成方法、装置、设备及存储介质与流程

国知局
2024-08-05 11:48:42

本技术涉及数字人，尤其涉及数字人生成方法、装置、设备及存储介质。

背景技术：

1、音频驱动的数字人生成方法是一个重要且富有挑战性的问题，它旨在通过输入任意一段音频来生成与音频对应的指定人物形象的说话视频，在虚拟现实、增强现实、电影制作、医疗仿真、人机交互、教育培训等场景中应用广泛。

2、传统的数字人生成方法是基于手工建模，它通过三维建模软件手工创建数字人模型，并赋予其表情、动作和其他属性的方法。该方法具有以下特点：（1）制作自由度高：可以根据需求创建各种风格和类型的数字人，并可以对每个细节进行精细调整；（2）作品质量可控：经验丰富的艺术家可以制作出高度逼真、栩栩如生的数字人；（3）适用于复杂场景：可以制作具有复杂表情和动作的数字人，应用于表演、演讲等场景。尽管目前数字人生成方法已经被广泛应用，但现有的方法仍存在：泛化性差、缺乏真实感、只能产生眨眼或简单的皱眉等表情，导致生成的数字人表情单一、且现有的方法中人物头部姿态从指定的视频中提取，与实际应用场景中的音频无关，这导致了生成的人物产生与音频不一致的头部运动。因此，如何提高数字人的生成效率成为了亟待解决的技术问题。

技术实现思路

1、本技术的主要目的在于提供一种数字人生成方法、装置、设备及存储介质，旨在解决现有技术生成的数字人缺乏真实感、表情单一的技术问题。

2、为实现上述目的，本技术提出一种数字人生成方法，所述数字人生成方法包括：

3、获取数字人音频，将所述数字人音频输入至预设audio2face模型中，得到所述预设audio2face模型输出的表情系数和头部姿态，所述audio2face模型用于根据输入的音频文件生成对应的表情系数和头部姿态；

4、根据所述表情系数和所述头部姿态确定目标图像的颜色和透明度；

5、基于所述目标图像的颜色和透明度渲染出目标图像，并根据渲染出的目标图像生成数字人。

6、可选地，所述获取数字人音频，将所述数字人音频输入至预设audio2face模型中，得到所述预设audio2face模型输出的表情系数和头部姿态的步骤之前，还包括：

7、获取样本人物数据集，提取所述样本人物数据集中目标人物的第一表情系数和第一头部姿态；

8、确定所述目标人物对应的音频特征；

9、基于初始audio2face模型确定所述音频特征对应的第二头部姿态和第二表情系数；

10、根据所述第一表情系数、所述第一头部姿态、所述第二头部姿态和所述第二表情系数确定模型损失值；

11、基于所述模型损失值更新所述初始audio2face模型中的模型参数，得到预设audio2face模型。

12、可选地，所述基于所述模型损失值更新所述初始audio2face模型中的模型参数，得到预设audio2face模型的步骤，包括：

13、将所述第二表情系数和所述音频特征输入至预设唇形鉴别器中，得到所述预设唇形鉴别器输出的唇形损失值；

14、基于所述唇形损失值和所述模型损失值更新所述初始audio2face模型中的模型参数，得到预设audio2face模型。

15、可选地，所述将所述第二表情系数和所述音频特征输入至预设唇形鉴别器中，得到所述预设唇形鉴别器输出的唇形损失值的步骤之前，还包括：

16、获取预训练唇形鉴别器数据集；

17、根据wav2vec算法提取所述预训练唇形鉴别器数据集中目标音频的音频特征；

18、根据faceverse算法提取所述目标音频对应的视频帧的faceverse表情系数；

19、根据所述音频特征和所述faceverse表情系数训练初始唇形鉴别器，得到预设唇形鉴别器。

20、可选地，所述根据所述表情系数和所述头部姿态确定目标图像的颜色和透明度的步骤，包括：

21、将所述表情系数和所述头部姿态输入至头部transformer模型中，得到所述头部transformer模型输出的头部采样点的颜色和透明度；

22、将所述头部姿态输入至躯干transformer模型中，得到所述躯干transformer模型输出的躯干采样点的颜色和透明度；

23、根据所述头部采样点的颜色和透明度和所述躯干采样点的颜色和透明度确定目标图像的颜色和透明度。

24、可选地，所述根据所述表情系数和所述头部姿态确定目标图像的颜色和透明度的步骤之前，还包括：

25、获取样本人物数据集，提取所述样本人物数据集中目标人物的第一头部姿态；

26、使用bisenet分割算法对所述第一头部姿态进行分割，得到头部图像和躯干图像；

27、基于所述头部图像、所述躯干图像和所述预设audio2face模型输出的表情系数和头部姿态训练基于transformer结构的神经辐射场网络，得到目标神经辐射场网络，所述目标神经辐射场网络中包括头部transformer模型和躯干transformer模型。

28、可选地，所述基于所述目标图像的颜色和透明度渲染出目标图像，并根据渲染出的目标图像生成数字人的步骤，包括：

29、基于所述目标图像的颜色和透明度利用体渲染的方式渲染出目标图像；

30、根据渲染出的目标图像和所述数字人音频生成数字人。

31、此外，为实现上述目的，本技术还提出一种数字人生成装置，所述数字人生成装置包括：

32、获取模块，用于获取数字人音频，将所述数字人音频输入至预设audio2face模型中，得到所述预设audio2face模型输出的表情系数和头部姿态，所述audio2face模型用于根据输入的音频文件生成对应的表情系数和头部姿态；

33、确定模块，用于根据所述表情系数和所述头部姿态确定目标图像的颜色和透明度；

34、数字人生成模块，用于基于所述目标图像的颜色和透明度渲染出目标图像，并根据渲染出的目标图像生成数字人。

35、此外，为实现上述目的，本技术还提出一种数字人生成设备，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序配置为实现如上文所述的数字人生成方法的步骤。

36、此外，为实现上述目的，本技术还提出一种存储介质，所述存储介质为计算机可读存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上文所述的数字人生成方法的步骤。

37、本技术获取数字人音频，将所述数字人音频输入至预设audio2face模型中，得到所述预设audio2face模型输出的表情系数和头部姿态，所述audio2face模型用于根据输入的音频文件生成对应的表情系数和头部姿态；根据所述表情系数和所述头部姿态确定目标图像的颜色和透明度；基于所述目标图像的颜色和透明度渲染出目标图像，并根据渲染出的目标图像生成数字人。由于本技术是利用预设audio2face模型输出数字人音频对应的表情系数和头部姿态，再根据表情系数和头部姿态确定目标图像的颜色和透明度，进而渲染出数字人。相对于现有的通过三维建模软件手工创建数字人模型的方式，本技术上述方式能够生成实时性高，人物画面质量高、表情丰富的数字人。