技术新讯 > 电子通信装置的制造及其应用技术 > 数字人口型的自动对齐方法及系统 > 正文

数字人口型的自动对齐方法及系统

国知局
2024-09-11 14:18:17

本发明涉及人工智能，具体地说，尤其涉及一种用于视频内容创作的数字人口型的自动对齐方法及系统。

背景技术：

1、随着音视频内容消费的指数增长，快速创作视频内容成为必不可少的需求。在过去的几年里，深度学习的进步改变了视频创作的动态。现在，用户可以借助深度学习轻松地制作和编辑视频。口型同步可以根据音频或文本生成人物的说话视频，为视频内容创作提供便利。口型同步是多媒体和计算机视觉领域中基础且具挑战性的课题，口型同步在许多领域具有广泛应用，为内容创作、教育、娱乐和辅助听障人士等提供创意和便利。现有技术大多数以参考人脸、遮挡目标人脸下半脸、驱动音频作为输入，输出补全口型的完整目标人脸，在生成高质量的说话人视频时，无法满足实际需求，容易受到当前输入参考人脸影响。当输出生成任意说话人视频时，仍然存在唇形同步效果不佳的问题。

技术实现思路

1、本发明的目的在于克服现有技术的缺点和不足，提供一种数字人口型的自动对齐方法及系统，通过图像编码器和音频编码器提取出人脸图像特征和音频语义特征，通过预设的评估指标和约束条件，可以快速计算出最佳参考人脸，能够生成高质量的口型同步视频。

2、为了实现上述目的，本发明所采用的技术方案如下：

3、一种数字人口型的自动对齐方法，包括以下步骤：

4、s1.获取人物说话视频和驱动音频，分别对人物说话视频和驱动音频进行预处理，得到人物人脸图像序列和语音音频序列；

5、s2.根据人脸图像序列初始化参考帧，获得参考人脸序列，掩膜人物半脸，掩膜后人脸与参考人脸拼接得到拼接图像序列；

6、s3.将拼接图像序列输入图像编码器，得到人脸图像特征向量，将语音音频序列输入音频编码器，得到音频语义特征向量；

7、s4.对人物的人脸图像特征向量和音频语义特征向量进行拼接融合，将拼接融合特征输入生成器，生成人物口型同步视频；

8、s5.根据评估指标和约束条件，评估口型同步视频质量，使用约束优化算法对参考人脸序列进行迭代优化，直至生成最佳口型同步视频。

9、进一步地，步骤s1中，使用人脸识别模型对人物说话视频进行预处理，获取人物人脸位置和关键点信息；将人物驱动音频的声音波形转换为梅尔频谱，将声音信号在频域上的特征以符合人类听觉感知的方式表达。

10、进一步地，步骤s2中，根先将人脸图像序列按照递增顺序排列初始化参考帧，再添加高斯噪声使得排列顺序产生变化，获得在合适范围内随机扰动的参考人脸序列。

11、进一步地，步骤s3中，将拼接图像序列和语音音频序列分别输入预训练模型的图像编码器和音频编码器，得到人脸图像特征向量和音频语义特征向量。

12、进一步地，步骤s4中，生成器使用转置卷积网络对融合特征进行上采样，确保人物口型与语音同步，生成口型同步视频。

13、进一步地，步骤s5中，评估指标包括口型同步指标和视觉质量指标，口型同步指标计算人脸图像特征向量和音频语义特征向量的欧几里得距离，视觉质量指标采用psnr指标评估图像或视频质量。

14、进一步地，约束条件包括脸部平滑性和身份一致性，使用关键点模型检测下半脸的关键点坐标，计算原始人脸图像和生成人脸图像关键点运动的平均欧几里得距离，确保脸部平滑性；采用arcface模型对原始人脸图像和生成人脸图像进行编码，计算原始人脸图像特征向量和生成人脸图像特征向量的余弦相似度，确保身份一致性。

15、一种数字人口型的自动对齐系统，采用上述任一项所述的数字人口型的自动对齐方法，包括：

16、数据处理模块，用于获取人物说话视频和驱动音频，分别对人物说话视频和驱动音频进行预处理，得到人物人脸图像序列和语音音频序列；

17、参考选择模块，用于根据人脸图像序列初始化参考帧，获得参考人脸序列，掩膜人物半脸，掩膜后人脸与参考人脸拼接得到拼接图像序列；

18、特征提取模块，用于将拼接图像序列输入图像编码器，得到人脸图像特征向量，将语音音频序列输入音频编码器，得到音频语义特征向量；

19、数据生成模块，用于对人物的人脸图像特征向量和音频语义特征向量进行拼接融合，将拼接融合特征输入生成器，生成人物口型同步视频；

20、评估优化模块，用于根据评估指标和约束条件，评估口型同步视频质量，使用约束优化算法对参考人脸序列进行迭代优化，直至生成最佳口型同步视频。

21、一种电子设备，包括存储器和处理器，以及存储在存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述任一项所述的数字人口型的自动对齐方法的步骤。

22、一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现上述任一项所述的数字人口型的自动对齐方法的步骤。

23、与现有技术相比，本发明数字人口型的自动对齐方法，通过使用约束优化算法，可以准确选取与驱动音频匹配的参考人脸，参考人脸包含人物的最佳口型状态和面部细节，为生成器提供更准确、更丰富的信息，有效改善了生成视频的口型运动效果和嘴部细节。

技术特征：

1.一种数字人口型的自动对齐方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的数字人口型的自动对齐方法，其特征在于，步骤s1中，使用人脸识别模型对人物说话视频进行预处理，获取人物人脸位置和关键点信息；将人物驱动音频的声音波形转换为梅尔频谱，将声音信号在频域上的特征以符合人类听觉感知的方式表达。

3.根据权利要求1所述的数字人口型的自动对齐方法，其特征在于，步骤s2中，先将人脸图像序列按照递增顺序排列初始化参考帧，再添加高斯噪声使得排列顺序产生变化，获得在合适范围内随机扰动的参考人脸序列。

4.根据权利要求1所述的数字人口型的自动对齐方法，其特征在于，步骤s3中，将拼接图像序列和语音音频序列分别输入预训练模型的图像编码器和音频编码器，得到人脸图像特征向量和音频语义特征向量。

5.根据权利要求1所述的数字人口型的自动对齐方法，其特征在于，步骤s4中，生成器使用转置卷积网络对融合特征进行上采样，确保人物口型与语音同步，生成口型同步视频。

6.根据权利要求1所述的数字人口型的自动对齐方法，其特征在于，步骤s5中，评估指标包括口型同步指标和视觉质量指标，口型同步指标计算人脸图像特征向量和音频语义特征向量的欧几里得距离，视觉质量指标采用psnr指标评估图像或视频质量。

7.根据权利要求1所述的数字人口型的自动对齐方法，其特征在于，约束条件包括脸部平滑性和身份一致性，使用关键点模型检测下半脸的关键点坐标，计算原始人脸图像和生成人脸图像关键点运动的平均欧几里得距离，确保脸部平滑性；采用arcface模型对原始人脸图像和生成人脸图像进行编码，计算原始人脸图像特征向量和生成人脸图像特征向量的余弦相似度，确保身份一致性。

8.一种数字人口型的自动对齐系统，采用如权利要求1至7任一项所述的数字人口型的自动对齐方法，其特征在于，包括：

9.一种电子设备，包括存储器和处理器，以及存储在存储器中并可在处理器上运行的计算机程序，其特征在于，处理器执行计算机程序时实现如权利要求1至7任一项所述的数字人口型的自动对齐方法的步骤。

10.一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，其特征在于，计算机程序被处理器执行时实现如权利要求1至7任一项所述的数字人口型的自动对齐方法的步骤。

技术总结本发明公开了一种数字人口型的自动对齐方法，包括以下步骤：获取人物说话视频和驱动音频，分别对人物说话视频和驱动音频进行预处理，得到人物人脸图像序列和语音音频序列；根据人脸图像序列初始化参考帧，获得参考人脸序列，掩膜人物半脸，掩膜后人脸与参考人脸拼接得到拼接图像序列；将拼接图像序列输入图像编码器，得到人脸图像特征向量，将语音音频序列输入音频编码器，得到音频语义特征向量；对人物的人脸图像特征向量和音频语义特征向量进行拼接融合，将拼接融合特征输入生成器，生成人物口型同步视频；根据评估指标和约束条件，评估口型同步视频质量，使用约束优化算法对参考人脸序列进行迭代优化，直至生成最佳口型同步视频。技术研发人员：黄翰,曾梓峰,徐粤婷,李刚受保护的技术使用者：华南理工大学技术研发日：技术公布日：2024/9/9