技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种人脸关键点运动图像生成方法以及相关设备与流程 > 正文

一种人脸关键点运动图像生成方法以及相关设备与流程

国知局
2024-09-19 14:24:02

本技术涉及计算机，具体涉及一种人脸关键点运动图像生成方法以及相关设备。

背景技术：

1、音频预测人脸关键点运动图像是数字人说话、音频图像驱动、三维人脸动画等场景所涉及到的关键任务，该任务的输入是音频、以及一张参考人脸图，比如该音频可以为一段说话或者唱歌的音频，该任务的目标是预测在此音频下人脸的运动序列。

2、现有技术往往是基于一对一的方法，即提取音频特征、以及人脸关键点信息，然后利用生成模型进行一对一的预测。然而，由于在相同的音频下，人脸关键点运动图像具有多样性，并且人们对头部变动、表情和口型的敏感性，导致所生成的结果效果不佳。

技术实现思路

1、本技术实施例提供一种人脸关键点运动图像生成方法以及相关设备，相关设备可以包括人脸关键点运动图像生成装置、电子设备、计算机可读存储介质和计算机程序产品，可生成自然且准确的人脸关键点运动图像。

2、本技术实施例提供一种人脸关键点运动图像生成方法，包括：

3、获取参考图像帧，并调用人脸关键点预测模型提取所述参考图像帧中人脸对应的人脸关键点信息；

4、获取目标音频，并调用音频特征模型提取所述目标音频的目标音频特征；

5、基于预设窗口尺寸，从所述目标音频特征中截取待处理音频特征，并获取所述待处理音频特征对应的至少一个前序图像帧；

6、基于待添加噪声、迭代过程对应的时间步数值、所述人脸关键点信息、所述待处理音频特征、以及所述前序图像帧，调用扩散网络模型通过多次迭代过程预测所述参考图像帧在所述目标音频下的人脸关键点运动图像。

7、相应的，本技术实施例提供一种人脸关键点运动图像生成装置，包括：

8、第一获取单元，用于获取参考图像帧，并调用人脸关键点预测模型提取所述参考图像帧中人脸对应的人脸关键点信息；

9、第二获取单元，用于获取目标音频，并调用音频特征模型提取所述目标音频的目标音频特征；

10、截取单元，用于基于预设窗口尺寸，从所述目标音频特征中截取待处理音频特征，并获取所述待处理音频特征对应的至少一个前序图像帧；

11、第一预测单元，用于基于待添加噪声、迭代过程对应的时间步数值、所述人脸关键点信息、所述待处理音频特征、以及所述前序图像帧，调用扩散网络模型通过多次迭代过程预测所述参考图像帧在所述目标音频下的人脸关键点运动图像。

12、可选的，在本技术的一些实施例中，所述截取单元可以具体用于基于预设窗口尺寸，将所述目标音频特征分割为多个相邻的音频特征；从多个所述音频特征中确定待处理音频特征。

13、可选的，在本技术的一些实施例中，所述截取单元可以具体用于根据多个所述音频特征之间的排列顺序，确定位于所述待处理音频特征前面的前序音频特征；从所述前序音频特征对应的前序人脸关键点运动图像中获取至少一个前序图像帧。

14、可选的，在本技术的一些实施例中，所述第一预测单元可以具体用于获取待添加噪声、预设时间步数值、以及预设迭代次数；基于所述待添加噪声、预设时间步数值、所述人脸关键点信息、所述待处理音频特征、以及所述前序图像帧，调用扩散网络模型预测第一次迭代过程对应的初始人脸关键点运动图像；对所述初始人脸关键点运动图像进行加噪处理，得到加噪后噪声图像，并将所述预设时间步数值更新为当前迭代过程对应的时间步数值；基于所述加噪后噪声图像、所述当前迭代过程对应的时间步数值、所述人脸关键点信息、所述待处理音频特征、以及所述前序图像帧，调用所述扩散网络模型通过所述预设迭代次数的迭代过程预测所述参考图像帧在所述目标音频下的人脸关键点运动图像。

15、可选的，在本技术的一些实施例中，所述人脸关键点运动图像生成装置还可以包括渲染单元，如下：

16、渲染单元，用于基于所述人脸关键点运动图像进行图像渲染操作，得到目标视频。

17、可选的，在本技术的一些实施例中，所述人脸关键点运动图像生成装置还可以包括第三获取单元、关键点第一预测单元、加噪单元、第二预测单元、以及第一训练单元，如下：

18、第三获取单元，用于获取样本视频，并基于所述预设窗口尺寸，从所述样本视频中截取待处理样本子视频，所述待处理样本子视频中包括多个待处理样本图像帧、以及待处理样本音频；

19、关键点第一预测单元，用于调用所述人脸关键点预测模型预测所述多个待处理样本图像帧中人脸对应的人脸关键点，并生成目标样本图像帧；

20、加噪单元，用于确定训练时间步数值，并基于所述训练时间步数值对所述目标样本图像帧进行加噪处理，得到加噪后样本图像帧；

21、第二预测单元，用于基于所述加噪后样本图像帧、所述训练时间步数值、所述待处理样本音频、所述待处理样本子视频对应的前序样本图像帧、以及参考样本图像帧，调用初始扩散网络模型预测得到目标预测图像帧；

22、第一训练单元，用于基于所述目标预测图像帧、以及所述目标样本图像帧，训练所述初始扩散网络模型，得到扩散网络模型。

23、可选的，在本技术的一些实施例中，所述第二预测单元可以具体用于对待处理样本子视频对应的前序样本图像帧进行概率丢弃，并基于概率丢弃后结果更新所述待处理样本子视频对应的前序样本图像帧；或者对所述前序样本图像帧、所述参考样本图像帧、以及所述待处理样本音频对应的样本音频特征进行联合概率丢弃，并基于联合概率丢弃后结果更新所述前序样本图像帧、所述参考样本图像帧、以及所述待处理样本音频对应的样本音频特征。

24、可选的，在本技术的一些实施例中，所述第二预测单元可以包括第一调用子单元、第二调用子单元、第三调用子单元、第四调用子单元、第五调用子单元、以及第六调用子单元，如下：

25、第一调用子单元，用于调用初始扩散网络模型中的音频编码器处理所述待处理样本音频，得到编码后样本音频特征；

26、第二调用子单元，用于调用所述初始扩散网络模型中的输入编码器处理所述加噪后样本图像帧，得到编码后样本图像特征；

27、第三调用子单元，用于调用所述初始扩散网络模型中的时间步编码器处理所述训练时间步数值，得到编码后样本时间步特征；

28、第四调用子单元，用于调用所述初始扩散网络模型中的前序帧编码器处理所述前序样本图像帧，得到编码后前序样本图像帧特征；

29、第五调用子单元，用于调用所述初始扩散网络模型中的参考帧编码器处理所述参考样本图像帧，得到编码后参考样本图像帧特征；

30、第六调用子单元，用于基于所述编码后样本图像特征、所述编码后样本时间步特征、所述编码后样本音频特征、所述编码后前序样本图像帧特征、以及所述编码后参考样本图像帧特征，调用所述初始扩散网络模型预测得到目标预测图像帧。

31、可选的，在本技术的一些实施例中，所述第一调用子单元可以具体用于调用所述音频特征模型提取所述待处理样本音频的样本音频特征；将所述样本音频特征输入初始扩散网络模型中的音频编码器进行编码，得到编码后音频特征。

32、可选的，在本技术的一些实施例中，所述第六调用子单元可以具体用于对所述编码后样本图像特征、所述编码后样本时间步特征、所述编码后样本音频特征、所述编码后前序样本图像帧特征、以及所述编码后参考样本图像帧特征进行特征拼接，得到拼接后特征；将所述拼接后特征输入所述初始扩散网络模型的自注意力子网络中，并调用所述自注意力子网络预测得到目标预测图像帧。

33、可选的，在本技术的一些实施例中，所述第一训练单元可以包括构建子单元、以及第二训练子单元，如下：

34、构建子单元，用于基于所述目标预测图像帧与所述目标样本图像帧之间的欧式距离构建目标损失函数；

35、第二训练子单元，用于通过最小化所述目标损失函数训练所述初始扩散网络模型，得到扩散网络模型。

36、可选的，在本技术的一些实施例中，所述构建子单元可以具体用于基于所述目标预测图像帧相邻图像帧之间的差异，构建平滑子损失函数；基于所述目标预测图像帧与所述目标样本图像帧之间的欧式距离，构建距离差异子损失函数；基于所述平滑子损失函数、以及所述距离差异子损失函数，构建目标损失函数。

37、本技术实施例提供的一种电子设备，包括处理器和存储器，所述存储器存储有多条指令，所述处理器加载所述指令，以执行本技术实施例提供的人脸关键点运动图像生成方法中的步骤。

38、本技术实施例还提供一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现本技术实施例提供的人脸关键点运动图像生成方法中的步骤。

39、此外，本技术实施例还提供一种计算机程序产品，包括计算机程序，该计算机程序或指令被处理器执行时实现本技术实施例提供的人脸关键点运动图像生成方法中的步骤。

40、本技术实施例提供了一种人脸关键点运动图像生成方法以及相关设备，可以获取参考图像帧，并调用人脸关键点预测模型提取参考图像帧中人脸对应的人脸关键点信息；获取目标音频，并调用音频特征模型提取目标音频的目标音频特征；基于预设窗口尺寸，从目标音频特征中截取待处理音频特征，并获取待处理音频特征对应的至少一个前序图像帧；基于待添加噪声、迭代过程对应的时间步数值、人脸关键点信息、待处理音频特征、以及前序图像帧，调用扩散网络模型通过多次迭代过程预测参考图像帧在目标音频下的人脸关键点运动图像。由于扩散网络模型具有多对多的特性，并且在其他领域也已经展现出了显著的生成能力，因此本技术可以通过涉及轻量级的扩散网络模型，从而在每个扩散步骤中都进行人脸关键点运动图像的预测，以便生成自然而且准确的人脸关键点运动图像，该人脸关键点运动图像包括合理的头部运动、适时的眨眼、贴合音频的表情、以及准确的口型等等。