技术新讯 > 计算推算,计数设备的制造及其应用技术 > 数字人动画生成及其驱动模型训练方法、装置、电子设备与流程 > 正文

数字人动画生成及其驱动模型训练方法、装置、电子设备与流程

国知局
2024-07-31 23:27:14

本发明涉及人工智能，特别是涉及一种数字人动画驱动模型训练方法及数字人动画生成方法、装置、电子设备、非易失性存储介质及计算机程序产品。

背景技术：

1、随着人工智能技术的发展，通过计算机图形学技术创造出与人类形象接近的数字化形象，并赋予其特定的人物设定，并能够用于模拟、研究和应用各种人类行为和情感的数字人，被广泛应用。其中，数字人动画生成是数字人技术中不可或缺的一部分。

2、在数字人动画生成过程中，需要对数字人进行驱动。相关技术采用基于语音驱动的数字人动画生成方法，而在多人说话、存在背景音等有噪声存在的这类复杂场景下，无法精准驱动实现数字人动画生成。

3、鉴于此，实现在复杂场景下精准驱动以生成数字人动画，是本领域技术人员需要解决的技术问题。

4、需要说明的是，在上述背景技术部分公开的信息仅用于加强对本技术的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

1、本发明提供了一种数字人动画驱动模型训练方法及数字人动画生成方法、装置、电子设备、非易失性存储介质及计算机程序产品，能够精准进行复杂场景下的数字人语音驱动。

2、为解决上述技术问题，本发明提供以下技术方案：

3、本发明第一方面提供了一种数字人动画驱动模型训练方法，包括：

4、获取包含多种人物类型和满足预设维度条件的音频信号的人脸训练样本数据集；其中，所述预设维度条件基于数字人的人脸建模模型确定；

5、将所述人脸训练样本数据集的各人物类型面部表情序列进行编码处理，得到任务类型编码特征；

6、将各人脸训练样本的音频训练数据输入至预先搭建的语音驱动模型的语音编码模块，得到语音编码特征；

7、将所述任务类型编码特征、各人脸训练样本中的语音编码特征及顶点坐标过程特征，输入至所述语音驱动模型的数字人网格信息生成模块，并将所述数字人网格信息生成模块输出的数字人网格数据特征输入至顶点序列生成模块，得到数字人网格的顶点坐标数据；

8、其中，所述顶点坐标过程特征为将上一轮参数更新过程输出的数字人网格的顶点坐标数据进行转换后的特征；所述数字人网格信息生成模块为预训练好的自然语言模型。

9、在第一种示例性的实施方式中，所述语音编码模块包括填充层和编码层；

10、其中，所述填充层，将各人脸训练样本的音频训练数据通过填充方式，组成预设时长的待处理音频信号，并为所述待处理音频信号添加起始位置标识信息和终止位置标识信息；

11、所述编码层按照数据处理顺序依次包括多个结构相同的卷积神经网络模块和层归一化层；

12、其中，前一个卷积神经网络模块的输出为后一个卷积神经网络模块的输入；所述卷积神经网络模块包括卷积层、组归一化层和激活层。

13、在第二种示例性的实施方式中，所述数字人网格信息生成模块包括多个采用跳层连接的解码子模块；各解码子模块的结构相同；

14、各解码子模块均包括多头注意力机制模块、第一残差连接和归一化层、线性转换网络层和第二残差连接和归一化层；

15、其中，所述线性转换网络层包括第一线性层、线性激活层和第二线性层。

16、在第三种示例性的实施方式中，所述顶点序列生成模块为输出多层感知机；

17、其中，所述输出多层感知机，用于将所述数字人网格数据特征转换为预设数目的顶点坐标。

18、在第四种示例性的实施方式中，所述语音驱动模型还包括输入多层感知机；

19、其中，所述输入多层感知机，用于将上一轮参数更新过程输出的数字人网格的顶点坐标数据转换为顶点坐标过程特征。

20、在第五种示例性的实施方式中，所述获取包含多种人物类型和满足预设维度条件的音频信号的人脸训练样本数据集，包括：

21、获取包含语音的四维人脸数据集，并将所述四维人脸数据集的各视频数据进行降采样处理；

22、对降采样后的视频数据所包含的音频数据，以预设采样率进行降采样处理，并变成单通道数据，得到初始语音训练信号；

23、对归一化后的初始语音训练信号进行扁平化操作，得到满足预设维度条件的音频训练数据。

24、在第六种示例性的实施方式中，将所述任务类型编码特征、各人脸训练样本中的语音编码特征及顶点坐标过程特征，输入至所述语音驱动模型的数字人网格信息生成模块，包括：

25、在对所述语音驱动模型的一次参数更新过程中，将当前人脸训练样本对应的当前语音编码特征输入至所述语音驱动模型的数字人网格信息生成模块；

26、当所述数字人网格信息生成模块提取完成所述当前语音编码特征的语义信息和语音信息，将所述任务类型编码特征输入至所述数字人网格信息生成模块；

27、当所述数字人网格信息生成模块提取完成所述任务类型编码特征的三维人脸特征，将输出的人脸历史特征信息和顶点坐标过程特征进行拼接，输入至所述数字人网格信息生成模块，所述数字人网格信息生成模块对拼接特征进行处理，得到当前参数更新过程的数字人网格数据特征。

28、在第七种示例性的实施方式中，所述数字人网格信息生成模块提取完成所述当前语音编码特征的语义信息和语音信息，包括：

29、对所述当前语音编码特征进行多头注意力计算，得到语音语义注意力计算结果；

30、对所述当前语音编码特征和所述语音语义注意力计算结果，进行残差连接和层归一化处理，得到第一语音语义特征过程数据；

31、对所述第一语音语义特征过程数据进行线性转换处理，得到第二语音语义特征过程数据，对所述第二语音语义特征过程数据再次进行残差连接和层归一化处理。

32、在第八种示例性的实施方式中，所述对所述当前语音编码特征进行多头注意力计算，得到语音语义注意力计算结果，包括：

33、对所述当前语音编码特征分别进行多次线性变化，得到语音查询矩阵、语音关键矩阵和语音数值矩阵；

34、将掩码值添加至所述语音查询矩阵和所述语音关键矩阵的转置矩阵的矩阵乘法结果中，并将所述矩阵乘法结果和隐藏层尺寸的乘积转换为概率分布信息；

35、基于所述概率分布信息和所述语音数值矩阵，得到所述当前语音编码特征的语音语义注意力计算结果。

36、在第九种示例性的实施方式中，对所述第一语音语义特征过程数据进行线性转换处理，包括：

37、调用预设线性转换关系式，对所述第一语音语义特征过程数据进行处理，所述预设线性转换关系式为：；

38、式中， f g（ x g）表示预设线性转换关系式， x g表示第一语音语义特征过程数据， w1 g表示第一层神经网络模型的权重矩阵， w2 g表示第二层神经网络模型的权重矩阵， b1表示第一层神经网络模型的偏置， b2表示第二层神经网络模型的偏置。

39、在第十种示例性的实施方式中，所述将各人脸训练样本的音频训练数据输入至预先搭建的语音驱动模型的语音编码模块，得到语音编码特征，包括：

40、将各人脸训练样本的音频训练数据通过填充方式，组成预设时长的待处理音频信号，并为所述待处理音频信号添加起始位置标识信息和终止位置标识信息；

41、依次通过多个结构相同的卷积神经网络模块对所述待处理音频信号进行处理，再经过层归一化处理得到语音编码特征。

42、在第十一种示例性的实施方式中，所述待处理音频信号经过第一个卷积神经网络模型的处理过程，包括：

43、对所述待处理音频信号进行一维卷积操作，得到卷积结果；

44、对所述卷积结果的各特征图的数据点进行组归一化操作，得到归一化处理结果；

45、调用目标激活函数关系式对所述归一化处理结果进行处理，得到第一个卷积神经网络模型的输出特征；所述目标激活函数关系式为：

46、；

47、式中，g( x3)为第一个卷积神经网络模型的输出特征， x3为所述归一化处理结果， erf为正态分布的累积概率密度函数。

48、在第十三种示例性的实施方式中，所述对所述待处理音频信号进行一维卷积操作，得到卷积结果，包括：

49、调用音频信号处理关系式，对所述待处理音频信号进行一维卷积操作；所述音频信号处理关系式为：

50、；

51、其中， f( s)为卷积结果， x所述待处理音频信号， f:{0，···，k-1}表示卷积核， k为卷积核尺寸， s-i为历史信息的方向。

52、在第十三种示例性的实施方式中，所述对所述卷积结果的各特征图的数据点进行组归一化操作，得到归一化处理结果，包括：

53、调用特征图处理关系式，对所述卷积结果的各特征图的数据点进行组归一化处理；所述特征图处理关系式为：

54、；

55、其中， s n表示第 n个特征图的归一化处理结果， n为特征图总数， g为组数，c/ g为每组的通道数，k表示同一组内的任意一个数据点。

56、在第十四种示例性的实施方式中，所述语音驱动模型调用线性学习率关系式，确定当前迭代更新过程中的学习率；所述线性学习率关系式为：

57、；

58、式中， lr表示当前学习率， lr0为初始学习率，e为训练周期，λ为衰减因子。

59、在第十五种示例性的实施方式中，所述语音驱动模型的损失函数为：

60、；

61、式中， lmse表示损失函数，v为数字人网格的顶点坐标，v为顶点坐标总数，t为时间序列，为时间t、顶点v的数字人网格的顶点坐标预测值，为时间t、顶点v的数字人网格的顶点坐标真实值。

62、本发明第二方面提供了一种数字人动画生成方法，包括：

63、预先利用如前任意一项所述的数字人动画驱动模型训练方法，训练得到语音驱动模型；

64、获取用于驱动数字人的原始语音信号；

65、将所述原始语音信号转换为满足预设维度条件的目标语音信号，并将所述目标语音信号，输入至所述语音驱动模型；

66、基于所述语音驱动模型输出的三维数字人的多边形网格顶点序列，渲染得到三维数字人语音驱动动画。

67、在第一种示例性的实施方式中，所述将所述原始语音信号转换为满足预设维度条件的目标语音信号，包括：

68、按照预设采样率对所述原始语音信号进行降采样处理，并变成单通道数据，得到初始语音信号；

69、对归一化后的初始语音信号进行扁平化操作，得到目标语音信号。

70、本发明第三方面提供了一种数字人动画驱动模型训练装置，包括：

71、训练数据获取模块，语音获取包含多种人物类型和满足预设维度条件的音频信号的人脸训练样本数据集；其中，所述预设维度条件基于数字人的人脸建模模型确定；

72、类型编码模块，用于将所述人脸训练样本数据集的各人物类型面部表情序列进行编码处理，得到任务类型编码特征；

73、语音编码模块，用于将各人脸训练样本的音频训练数据输入至预先搭建的语音驱动模型的语音编码模块，得到语音编码特征；

74、人脸数据生成模块，用于将所述任务类型编码特征、各人脸训练样本中的语音编码特征及顶点坐标过程特征，输入至所述语音驱动模型的数字人网格信息生成模块，并将所述数字人网格信息生成模块输出的数字人网格数据特征输入至顶点序列生成模块，得到数字人网格的顶点坐标数据；其中，所述顶点坐标过程特征为将上一轮参数更新过程输出的数字人网格的顶点坐标数据进行转换后的特征；所述数字人网格信息生成模块为预训练好的自然语言模型。

75、本发明第四方面提供了一种数字人动画驱动装置，包括：

76、模型训练模块，用于预先利用如前任意一项所述的数字人动画驱动模型训练方法，训练得到语音驱动模型；

77、驱动信号获取模块，用于获取用于驱动数字人的原始语音信号；

78、语音信号处理模块，用于将所述原始语音信号转换为满足预设维度条件的目标语音信号，并将所述目标语音信号，输入至所述语音驱动模型；

79、驱动模块，用于基于所述语音驱动模型输出的三维数字人的多边形网格顶点序列，渲染得到三维数字人语音驱动动画。

80、本发明第五方面还提供了一种电子设备，包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如前任一项所述的数字人动画驱动模型训练方法和/或如前任意一项所述的数字人动画生成方法的步骤。

81、本发明第六方面还提供了一种非易失性存储介质，所述非易失性存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如前任一项所述的数字人动画驱动模型训练方法和/或如前任意一项所述的数字人动画生成方法的步骤。

82、本发明第七方面还提供了一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现如前任一项所述的数字人动画驱动模型训练方法和/或如前任意一项所述的数字人动画生成方法的步骤。

83、本发明提供的技术方案的优点在于，语音驱动模型采用预训练自然语言模型作为人脸网格的顶点位置信息的生成模块，通过将多种人物类型的人脸面部表情序列和音频信号转换成特征向量输入到语音驱动模型进行微调，使得模型不仅能够利用语音信息，也能够利用语义信息，当用于驱动数字人的音频存在强背景噪音，也即语音驱动信息语音信息特征不明显时，语音驱动模型能够通过其学习到的语义理解能力更好地推测当前模糊音频的语义并且给出正确的预测口型，将带有噪声的语音驱动信号进行去噪处理，有效提高驱动作用的语音特征信号强度，提高复杂场景下的语音驱动各种风格的数字人的精度，从而使得语音驱动数字人的动画生成过程有更好的鲁棒性，有利于高效且精准地生成数字人的三维人脸面部动画。

84、此外，本发明还针对数字人动画驱动模型训练方法提供了相应的数字人动画生成方法，对应实现装置、电子设备、非易失性存储介质及计算机程序产品，进一步使得所述方法更具有实用性，所述数字人动画生成方法、装置、电子设备、非易失性存储介质及计算机程序产品具有相应的优点。

85、上面已提及的技术特征、下面将要提及的技术特征以及单独地在附图中显示的技术特征可以任意地相互组合，只要被组合的技术特征不是相互矛盾的。所有的可行的特征组合都是在本文中明确地记载的技术内容。在同一个语句中包含的多个分特征之中的任一个分特征可以独立地被应用，而不必一定与其他分特征一起被应用。应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本发明。