技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种音频辅助的深度伪造人脸视频检测方法、系统及设备  >  正文

一种音频辅助的深度伪造人脸视频检测方法、系统及设备

  • 国知局
  • 2024-06-21 10:41:01

本发明属于图像处理技术、视频检测,具体涉及一种音频辅助的深度伪造人脸视频检测方法、系统及设备。

背景技术:

1、虚假的换脸视频以及类似的深度伪造技术制作的视频在近些年得到多方关注。一方面,深度伪造技术可以帮助各种影视内容降低成本,制作普通技术难以再实现的有益内容;另一方面,深度伪造视频是有害视频种类中不可忽视的要素,这类具有危害的合成视频容易带来不可估量的危害,且随着技术发展与伪造方式的便捷,其量也呈现急速增长的势头。深度伪造视频的检测早在其出现时便有相关研究,如今众多伪造技术的提出使得普通人也能够便利地制作自己想要的伪造视频,这些普通的伪造视频往往加工粗糙,但其海量增加也使得可参考的样本案例增多。

2、作为视频的组成部分之一,音频往往是被严重忽视的对象,当下针对音频视频的研究集中于两个模态间的关系上。深度伪造的视频检测中关注的不协调多是在视频图像中,作为辅助的音频并不能很好的利用起来。为了应对深度伪造生成技术的负面影响,近年来有关深度伪造的对抗策略的研究也逐渐增多。按照类型可将深度伪造视频检测技术分为单模态检测与结合语音模态的多模态检测。

3、其中,对于单模态图像深度伪造检测技术,当前的主流深度伪造技术通常是通过检测伪造图像和视频中的伪造痕迹实现,目前可以进行检测的伪造痕迹主要有以下几种:图像处理取证、时序连贯和模型指纹等。早期的深度伪造检测主要是基于传统的图像取证方法,通过关注视频中全局连续性,照明估计和几何估计等多个方面的视频伪造痕迹进行检测;基于时序连贯性的检测技术主要是使用循环神经网络对帧间的伪造特征进行检测,通过捕捉视频中帧间时序的不连贯性来进行真伪判别。然而单模态检测技术采用特征单一,过渡依赖于伪造痕迹,导致检测精度不高,且泛化性较差。

4、对于结合语音模态的多模态检测技术,随着音频模态的深度伪造的进一步运用以及多模态学习的普及,多种结合音频模态的深度伪造检测方法开始出现。与单模态相似,音频模态结合也有利用生物特征、融合痕迹等不同的检测方法。目前既有利用真人发声特点与伪造视频间的不一致达到视频真伪检测,也有利用情感媒介作为联系,将视频与音频中的人物情感进行分析判别真伪。然而,深度伪造视频的多模态检测方法以往集中于将两种模态借助某种媒介拼接在一起,但这些媒介很可能会忽略掉原本视频图像中的信息,从而导致判别效果不佳。

技术实现思路

1、为了解决现有深度伪造视频检测技术存在的检测精度较低、泛化性较差等问题,本发明提供了一种音频辅助的深度伪造人脸视频检测方法、系统及设备,本发明通过特征提取和融合技术,将视频特征与音频特征相融合,得到的融合特征图拥有多种模态信息,根据融合特征图进行深度伪造视频真伪判别,提高了检测精度。

2、本发明通过下述技术方案实现:

3、一种音频辅助的深度伪造人脸视频检测方法,所述检测方法包括:

4、对原始视频的音频与视频帧进行分离,并对分离后的音频和视频帧进行预处理;

5、将预处理后的视频帧输入到预先训练好的音频生成模型中,生成相应的音频频谱图;

6、将预处理后的视频帧、原音频频谱图与生成的音频频谱图输入到预先训练好的特征融合分类模型中,提取得到视觉特征图、原音频频谱特征图、生成的音频频谱特征图并进行多模态特征图融合,根据融合的特征图进行深度伪造视频真伪判断。

7、相较于现有深度伪造视频检测技术检测精度不高、且泛化性较差等问题,本发明提出的检测方法利用音频生成模型将视频中的伪造判别要素输入,输出相应的音频信息,同时将其与原视频中的音频信息进行对比分析,得到真伪判断的辅助成分,将其结合原视频中的音视频信息,进行深度伪造视频真伪判别,既利用了音频、视频多模态特征信息,同时还考虑了视频与音频间的关系,使得音频频谱特征更加可靠,提高了深度伪造视频的检测精度。另外,本发明提出的检测方法无需依赖媒介,即可方便实现,因此其具有较高的泛化性。

8、作为优选实施方式,本发明的预处理过程具体包括:

9、将分离后的音频和视频帧划分为细分片段;

10、识别出视频帧中的人脸区域,并将识别出的人脸区域进行仿射变换以对齐区域作为后续模型的输入;

11、对音频片段进行mel频谱倒谱系数变换为音频频谱图作为后续模型的输入。

12、作为优选实施方式,本发明的音频生成模型采用编码器-解码器架构,其训练过程具体包括:

13、将预处理后的视频帧输入到第一编码器中,输出视频帧中人脸的特征关键点;

14、将预处理后的视频帧输入到第二编码器中,输出视频帧中人脸视觉特征图;

15、将第一编码器的输出与第二编码器的输出进行拼接;

16、将拼接后的特征图输入到解码器中得到mel频谱倒谱系数输出;

17、通过对输出的mel频谱倒谱系数与相应原音频的mel频谱倒谱系数进行对比作为学习损失优化音频生成模型的参数,实现模型的优化训练。

18、作为优选实施方式,本发明的音频生成模型采用lip2speech网络结构。

19、作为优选实施方式,本发明的特征融合分类模型包括特征提取融合模型和分类器;

20、其中,所述特征提取融合模型实现多模态特征图的提取和融合,并将输出的特征图送入到分类器进行分类检测。

21、作为优选实施方式,本发明的特征提取融合模型采用resnet50网络结构,其输入为视频帧、原音频频谱图与生成的音频频谱图,分别提取并融合得到特征图,并馈送入所述分类器进行分类检测。

22、作为优选实施方式,本发明的特征提取融合模型采用vision transformer网络结构,其输入为视频帧、原音频频谱图与生成的音频频谱图,对输入的视频帧进行selfattention处理得到特征图,对原音频频谱图与生成的音频频谱图的差值进行selfattention处理得到特征图,对两种模态的特征图进行cross model attention融合处理,将融合得到的特征图送入分类器进行分类检测。

23、作为优选实施方式,本发明的检测方法利用损失函数对所述音频生成模型和特征融合分类模型进行联合优化训练;所述损失函数为重建损失函数与分类损失函数之和;其中,所述重建损失函数用于衡量原音频频谱图与生成的音频频谱图之间的相似度;所述分类损失函数为音频、视频以及融合特征的交叉熵损失之和。

24、第二方面,本发明提出了一种音频辅助的深度伪造人脸视频检测系统,所述检测系统包括:

25、视频预处理模块,所述视频预处理模块对原始视频的音频与视频帧进行分离,并对分离后的音频和视频帧进行预处理;

26、音频频谱生成模块,所述音频频谱生成模块将预处理后的视频帧输入到预先训练好的音频生成模型中,生成相应的音频频谱图;

27、以及特征融合分类模块,所述特征融合分类模块将预处理后的视频帧、原音频频谱图与生成的音频频谱图输入到预先训练好的特征融合分类模型中,提取得到视觉特征图、原音频频谱特征图、生成的音频频谱特征图并进行多模态特征图融合,根据融合的特征图进行深度伪造视频真伪判断。

28、第三方面,本发明提出了一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现本发明所述方法的步骤。

29、本发明与现有技术相比,具有如下的优点和有益效果:

30、1、本发明通过根据视频帧生成音频信息,考虑了视频与音频间的关系,使得音频频谱特征更加可靠,同时本发明将视频特征与音频特征相融合,并利用融合的特征图进行深度伪造视频真伪判别,提高了深度伪造视频的检测精度。

31、2、本发明无需依赖媒介,即可方便实现,能够用于大多数情况的深度伪造视频检测需求中,满足显示场景中的深度伪造视频检测需求,具有较高的泛化性。

本文地址:https://www.jishuxx.com/zhuanli/20240618/21181.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。