技术新讯 > 计算推算,计数设备的制造及其应用技术 > 数字人脸生成、数字人脸生成模型训练方法及电子设备与流程 > 正文

数字人脸生成、数字人脸生成模型训练方法及电子设备与流程

国知局
2024-07-31 23:08:48

本申请涉及虚拟数字人，尤其涉及一种数字人脸生成方法、存储介质及电子设备。

背景技术：

1、虚拟数字形象技术在虚拟现实、计算机游戏、人机交互等领域具有广泛的应用前景，而虚拟数字人脸的生成技术是其中的关键环节之一。目前基于音频驱动数字人的方案中，主要涉及端到端的将语音信息映射到说话人脸图像的技术解决方案。

2、在目前相关技术中，通过提取音频特征将音频特征映射为视觉特征或与视觉特征进行融合然后通过图像合成网络合成说话人脸图像，同时为了确保音视频的唇形同步效果，需要额外训练一种依赖于大量数据的唇形同步监督网络，受限于同步网络的固定窗口，同步网络往往无法保证有效的唇形同步，且极易出现过拟合现象，此外由于同步网络的固定时间窗口使得合成网络无法利用视觉时间上下文信息，只能建立音频到视觉的多帧合成一帧的架构，该架构无法保证唇形同步效果，也制约了网络合成人脸的分辨率。

3、针对上述问题，目前业界暂未提出较佳的解决方案。

技术实现思路

1、本申请提供一种数字人脸生成方法、存储介质及电子设备，用以至少解决目前相关技术中所生成的虚拟数字人脸的合成效果不佳的问题。

2、第一方面，本申请实施例提供一种数字人脸生成方法，包括：获取掩码图像和音频数据；所述掩码图像为缺失唇部区域的图像区域；提取音频数据所对应的唇部码本向量；将所述掩码图像和所述唇部码本向量输入至数字人脸生成模型，以生成相应的合成数字人脸图像。

3、第二方面，本申请实施例提供一种数字人脸模型训练方法，包括：获取人脸图像样本和相应的语音样本；提取所述语音样本所对应的唇部码本样本；从所述人脸图像样本中截取掩码图像样本和唇部区域样本；所述掩码图像样本为人脸图像样本中缺失唇部区域的图像区域；编码所述唇部区域图像样本，以确定相应的参考唇部码本；将所述参考唇部码本作为样本标签，并使用所述唇部码本样本和所述掩码图像样本对所述数字人脸模型进行训练。

4、第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本申请任一实施例的数字人脸生成方法的步骤。

5、第四方面，本申请实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本申请任一实施例的数字人脸生成方法的步骤。

6、第五方面，本申请实施例提供一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现本申请任一实施例的数字人脸生成方法的步骤。

7、本申请实施例的有益效果在于：

8、通过结合掩码图像和音频数据中提取的唇部码本向量，使用唇部码本向量能够较佳地反映说话者的个性化唇形和表情，为数字人脸的生成提供了更为精确和真实的唇部运动，能够精确地填补掩码图像的唇部区域，使得生成的脸部图像在视觉上无缝且真实，能够显著提升合成数字人脸的音频实时同步并能保持原图像的高分辨率。

技术特征：

1.一种数字人脸生成方法，包括：

2.根据权利要求1所述的方法，其中，所述数字人脸生成模型采用unet架构，所述数字人脸生成模型用于通过执行包括以下的操作来生成相应的合成数字人脸图像：

3.根据权利要求1所述的方法，其中，所述提取音频数据所对应的码本向量，包括：

4.根据权利要求3所述的方法，其中，所述编码所述语音信号特征，以确定相应的码本向量，包括：

5.一种数字人脸模型训练方法，包括：

6.根据权利要求5所述的方法，其中，所述编码所述唇部区域图像样本，以确定相应的参考唇部码本，包括：

7.根据权利要求5所述的方法，其中，所述获取人脸图像样本和相应的语音样本，包括：

8.根据权利要求7所述的方法，其中，所述人脸特征包含第一人脸关键点序列，

9.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-8中任一项所述方法的步骤。

10.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述方法的步骤。

11.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1-8中任一项所述方法的步骤。

技术总结本申请实施例提供一种数字人脸生成、数字人脸生成模型训练方法及电子设备，涉及虚拟数字人领域，该方法包括：获取掩码图像和音频数据，掩码图像为缺失唇部区域的人脸图像；提取音频数据所对应的唇部码本向量；将掩码图像和唇部码本向量输入至数字人脸生成模型，以生成相应的合成数字人脸图像。由此，通过结合掩码图像和音频数据中提取的唇部码本向量，使用唇部码本向量能够较佳地反映说话者的个性化唇形和表情，为数字人脸的生成提供了更为精确和真实的唇部运动，使得生成的脸部图像在视觉上无缝且真实，能够显著提升合成数字人脸的音频同步效果。技术研发人员：陈飞龙,樊帅,俞凯受保护的技术使用者：思必驰科技股份有限公司技术研发日：技术公布日：2024/7/29