技术新讯 > 乐器声学设备的制造及制作,分析技术 > 嘴型模型的训练方法、装置及嘴型的生成方法及装置与流程 > 正文

嘴型模型的训练方法、装置及嘴型的生成方法及装置与流程

国知局
2024-06-21 11:38:31

本申请涉及ai，具体而言，涉及一种嘴型模型的训练方法、装置及嘴型的生成方法及装置。

背景技术：

1、数字人应用中，语音信息驱动视频生成是实现更逼真、交互性更强的关键。传统方法通常使用原始图片和图片上半部分，通过这些信息来生成与语音内容相匹配的面部表情和嘴部动作。但随着技术发展，新方法如基于深度学习和生成对抗网络的技术崭露头角。

2、最新的方法利用深度学习和gans，训练神经网络学会从语音到面部表情的映射，使生成的视频更自然。使用更大规模的数据集和先进的神经网络架构，如transformer模型，进一步提高了图像质量和语音同步性。同时，引入三维技术也是当前研究的热点，通过结合三维图形和深度学习，使得数字人的表现更为生动。

3、但是，现有技术中，数字人生成嘴型过程中还是存在嘴部以及牙齿变形、不清晰问题。

4、针对上述的问题，目前尚未提出有效的解决方案。

技术实现思路

1、本发明实施例提供了一种嘴型模型的训练方法、装置及嘴型的生成方法及装置，以至少解决数字人生成嘴型过程中存在嘴部以及牙齿变形、不清晰的技术问题。

2、根据本发明实施例的一个方面，提供了一种嘴型模型的训练方法，包括：获取包含数字人的面部的第一面部图片；从包含目标人物的视频中，提取出包含所述目标人物的脸部的第二面部图片并提取出和所述第二面部图片对应的音频向量；对所述第二面部图片进行处理，使得所述第二面部图片中包括从所述视频中提取到的不同状态下的多张不同类型嘴部信息；对所述第一面部图片和处理后的所述第二面部图片进行图像编码，并对所述音频向量进行音频编码；利用解码器对经图像编码后得到的图像数据以及经音频编码后得到的音频数据进行解码，得到第三面部图片；比较所述第一面部图片和所述第三面部图片之间的损失，并基于所述损失训练嘴型模型。

3、根据本发明实施例的另一方面，还提供了一种嘴型模型的训练装置，包括：获取模块，被配置为获取包含数字人的面部的第一面部图片；提取模块，被配置为从包含目标人物的视频中，提取出包含所述目标人物的脸部的第二面部图片并提取出和所述第二面部图片对应的音频向量；处理模块，被配置为对所述第二面部图片进行处理，使得所述第二面部图片中包括从所述视频中提取到的不同状态下的多张不同类型嘴部信息；编码模块，被配置为对所述第一面部图片和处理后的所述第二面部图片进行图像编码，并对所述音频向量进行音频编码；解码模块，被配置为利用解码器对经图像编码后得到的图像数据以及经音频编码后得到的音频数据进行解码，得到第三面部图片；训练模块，被配置为比较所述第一面部图片和所述第三面部图片之间的损失，并基于所述损失训练嘴型模型。

4、在本发明实施例中，获取包含数字人的面部的第一面部图片；从包含目标人物的视频中，提取出包含所述目标人物的脸部的第二面部图片并提取出和所述第二面部图片对应的音频向量；对所述第二面部图片进行处理，使得所述第二面部图片中包括从所述视频中提取到的不同状态下的多张不同类型嘴部信息；对所述第一面部图片和处理后的所述第二面部图片进行图像编码，并对所述音频向量进行音频编码；利用解码器对经图像编码后得到的图像数据以及经音频编码后得到的音频数据进行解码，得到第三面部图片；比较所述第一面部图片和所述第三面部图片之间的损失，并基于所述损失训练嘴型模型。通过上述方案，解决了数字人生成嘴型过程中存在嘴部以及牙齿变形、不清晰的技术问题。

技术特征：

1.一种嘴型模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，对所述第二面部图片进行处理，包括：

3.根据权利要求2所述的方法，其特征在于，利用解码器对经图像编码后得到的图像数据以及经音频编码后得到的音频数据进行解码，得到第三面部图片，包括：

4.根据权利要求2所述的方法，其特征在于，提取出和所述第二面部图片对应的音频向量，包括：

5.根据权利要求4所述的方法，其特征在于，对所述第一面部图片和处理后的所述第二面部图片进行图像编码，并对所述音频向量进行音频编码，包括：

6.一种嘴型的生成方法，其特征在于，包括：利用权利要求1至5中任一项所述的方法训练出的所述嘴型模型来生成所述数字人的嘴型。

7.一种嘴型模型的训练装置，其特征在于，包括：

8.一种嘴型模型的生成装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

10.一种计算机可读存储介质，其上存储有程序，其特征在于，在所述程序运行时，使得计算机执行如权利要求1至5中任一项所述的方法。

技术总结本申请提供了一种嘴型模型的训练方法、装置及嘴型的生成方法及装置，其中，该训练方法包括：获取包含数字人的面部的第一面部图片；从包含目标人物的视频中，提取出包含所述目标人物的脸部的第二面部图片并提取出和所述第二面部图片对应的音频向量；对所述第二面部图片进行处理，使得所述第二面部图片中包括从所述视频中提取到的不同状态下的多张不同类型嘴部信息；对所述第一面部图片和处理后的所述第二面部图片进行图像编码，并对所述音频向量进行音频编码；利用解码器对经图像编码后得到的图像数据以及经音频编码后得到的音频数据进行解码，得到第三面部图片；比较所述第一面部图片和所述第三面部图片之间的损失，并基于所述损失训练嘴型模型。技术研发人员：王英,蒋正浩,张鹏起,吴建伟,李建成受保护的技术使用者：世优（北京）科技有限公司技术研发日：技术公布日：2024/3/24