技术新讯 > 电子通信装置的制造及其应用技术 > AI换脸视频生成方法、装置、电子设备及存储介质与流程 > 正文

AI换脸视频生成方法、装置、电子设备及存储介质与流程

国知局
2024-08-02 13:56:44

本发明涉及人工智能，尤其涉及一种ai换脸视频生成方法、装置、电子设备及存储介质。

背景技术：

1、在ai新一轮浪潮的影响下，虚拟数字人在诸多行业生根发芽，驱动文旅、教育、金融、医疗等行业的全新变革。在金融机构中存在财富顾问、智能客服、虚拟主播等，需要围绕与用户或客户的沟通交流展开智能高效的人性化服务，但为了提高数字人在金融机构等应用场景的转换效率，需要基于目标视频进行ai换脸。

2、现有的ai换脸视频生成技术为通过提取视频中的人物特征，基于人物特征进行ai换脸。实际应用中，在进行ai换脸过程中，唇部动作也需要与视频相匹配，仅仅替换目标人脸，导致无法保证唇部动作与视频的匹配性，从而对进行ai换脸视频生成时的准确度较低。

技术实现思路

1、本发明提供一种ai换脸视频生成方法、装置及存储介质，其主要目的在于解决进行ai换脸视频生成时的准确度较低的问题。

2、为实现上述目的，本发明提供的一种ai换脸视频生成方法，包括：

3、获取视听数据集中的视频帧图片及音频文件，提取所述视频帧图片中的唇部动作图片，提取所述音频文件的音频频谱特征；

4、根据所述唇部动作图片对所述音频频谱特征进行筛选，得到音频对齐频谱特征，根据所述唇部动作图片及所述音频对齐频谱特征对预设的神经网络进行训练，得到唇部动作编码器；

5、获取目标视频，利用所述唇部动作编码器中的音频特征编码器提取所述目标视频对应的音频特征，提取所述目标视频中目标人物的头部姿态特征；

6、通过预先构建的图片编码器提取所述目标人物的人物特征，根据预设的对抗网络结构及所述唇部动作编码器构建视频帧损失函数；

7、根据所述音频特征、所述头部姿态特征、所述人物特征及所述视频帧损失函数对预设的生成对抗网络进行训练，得到视频帧生成模型，根据所述视频帧生成模型生成ai换脸视频。

8、可选地，所述提取所述音频文件的音频频谱特征，包括：

9、获取所述音频文件的音频信号；

10、利用预设的傅里叶变换计算所述音频信号的音频频谱；

11、通过预设的梅尔滤波器根据所述音频频谱计算梅尔频谱；

12、将所述梅尔频谱进行离散余弦变换，得到频率倒谱系数，其中所述频率倒谱系数为：

13、

14、其中，cg为第g个所述频率倒谱系数，s(m)为所述梅尔频谱，m为滤波器的中心频率，m为滤波器个数，π为圆周率，cos为余弦函数；

15、根据所述频率倒谱系数生成音频频谱特征。

16、可选地，所述根据所述唇部动作图片及所述音频对齐频谱特征对预设的神经网络进行训练，得到唇部动作编码器，包括：

17、利用所述神经网络中的卷积网络提取所述唇部动作图片的唇部动作特征；

18、将所述唇部动作特征输入至预设的全连接层，得到唇部动作隐形向量；

19、将所述音频对齐频谱特征输入至所述全连接层，得到音频特征隐形向量；

20、根据所述唇部动作隐形向量及所述音频特征隐形向量生成训练正样本及训练负样本；

21、根据所述训练正样本及所述训练负样本对预设的编码器进行训练，得到唇部动作编码器。

22、可选地，所述提取所述目标视频中目标人物的头部姿态特征，包括：

23、获取所述目标视频中每帧对应的帧目标人物；

24、利用预设的可变性模型提取所述帧目标人物的头部姿态参数；

25、通过预设的多层感知器将所述头部姿态参数转换为头部姿态特征。

26、可选地，所述通过预先构建的图片编码器提取所述目标人物的人物特征，包括：

27、通过所述图片编码器中的残差层提取所述目标人物对应的人物图像的人物特征图；

28、将所述人物特征图进行叠加，得到残差特征，对所述残差特征进行全局池化，得到全局池化特征向量；

29、将所述全局池化特征向量作为所述目标人物的人物特征。

30、可选地，所述根据预设的对抗网络结构及所述唇部动作编码器构建视频帧损失函数，包括：

31、根据所述对抗网络结构构建人物鉴别器，根据所述人物鉴别器计算第一损失值；

32、利用所述唇部动作编码器对预设的唇部动作视频帧进行编码，得到唇部编码特征，利用预设的余弦相似度算法计算所述唇部编码特征与预设的目标音频特征之间的相似度，将所述相似度作为第二损失值；

33、计算所述唇部动作视频帧与预设的真实对照帧图片之间的第三损失值；

34、根据所述第一损失值、所述第二损失值及所述第三损失值生成损失函数，其中所述损失函数为：

35、loss＝loss_i+loss_m+loss_1

36、其中，loss为所述损失函数对应的损失值，loss_i为所述第一损失值，loss_m为所述第二损失值，loss_1为所述第三损失值。

37、可选地，所述根据所述音频特征、所述头部姿态特征、所述人物特征及所述视频帧损失函数对预设的生成对抗网络进行训练，得到视频帧生成模型，包括：

38、将所述音频特征、所述头部姿态特征及所述人物特征进行特征拼接，得到拼接特征；

39、根据所述拼接特征对所述生成对抗网络进行训练，得到拼接向量特征集；

40、利用所述视频帧损失函数及所述拼接向量特征集计算所述生成对抗网络的损失值；

41、当所述损失值小于预设的损失阈值时，输出所述生成对抗网络为视频帧生成模型。

42、为了解决上述问题，本发明还提供一种ai换脸视频生成装置，所述装置包括：

43、音频频谱特征提取模块，用于获取视听数据集中的视频帧图片及音频文件，提取所述视频帧图片中的唇部动作图片，提取所述音频文件的音频频谱特征；

44、唇部动作编码器生成模块，用于根据所述唇部动作图片对所述音频频谱特征进行筛选，得到音频对齐频谱特征，根据所述唇部动作图片及所述音频对齐频谱特征对预设的神经网络进行训练，得到唇部动作编码器；

45、头部姿态特征提取模块，用于获取目标视频，利用所述唇部动作编码器中的音频特征编码器提取所述目标视频对应的音频特征，提取所述目标视频中目标人物的头部姿态特征；

46、视频帧损失函数构建模块，用于通过预先构建的图片编码器提取所述目标人物的人物特征，根据预设的对抗网络结构及所述唇部动作编码器构建视频帧损失函数；

47、ai换脸视频生成模块，用于根据所述音频特征、所述头部姿态特征、所述人物特征及所述视频帧损失函数对预设的生成对抗网络进行训练，得到视频帧生成模型，根据所述视频帧生成模型生成ai换脸视频。

48、为了解决上述问题，本发明还提供一种电子设备，所述电子设备包括：

49、至少一个处理器；以及，

50、与所述至少一个处理器通信连接的存储器；其中，

51、所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述所述的ai换脸视频生成方法。

52、为了解决上述问题，本发明还提供一种存储介质，所述计算机可读存储介质中存储有至少一个计算机程序，所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的ai换脸视频生成方法。

53、本发明实施例通过在搭建唇部动作图片编码器和音频特征编码器训练唇部动作编码器，有利于训练好的模型能够在不同身份人物之间通用；并基于原视频人物的头部姿态动作与新输入音频对应的唇部动作驱动目标人物照片，进而提取后的音频特征、头部姿态特征、人物特征及预先构建的视频帧损失函数对生成对抗网络进行训练，得到视频帧生成模型，从而利用视频帧生成模型最终输出新的视频帧，有利于实现ai换脸，并同时保证配音内容与人物唇部动作匹配。因此本发明提出的ai换脸视频生成方法、装置、电子设备及存储介质，在金融领域中有着广泛的应用场景，可以针对现有的金融广告视频，有效提高在不同部门之间替换新的人物与配音之间的匹配度，可以解决进行ai换脸视频生成时的准确度较低的问题。