一种基于目标跟踪的视频人脸交换目标自动锁定算法的制作方法
- 国知局
- 2024-11-06 14:23:58
本发明涉及深度学习,特别涉及一种基于目标跟踪的视频人脸交换目标自动锁定算法。
背景技术:
1、视频编辑和人脸交换技术在影视制作、娱乐媒体和安全监控等领域有着广泛的应用。然而,现有技术在精度、自然度和实时性方面仍存在显著的不足。为了更好地理解本发明的技术背景,本文将结合现有技术进行详细阐述,并指出其中存在的问题。
2、早期的人脸交换技术主要依赖于模板匹配方法。这些方法通常通过在目标图像中搜索与源图像中人脸特征相似的区域来实现人脸交换。这种方法的优点在于实现相对简单且计算量较小,但其精度和鲁棒性较差,尤其在面对光照变化、姿态变化和部分遮挡时,效果不佳。此外,模板匹配方法在处理复杂背景和动态场景时往往难以保持替换效果的自然度,容易出现边缘不连续和图像失真。随着计算机视觉技术的发展,基于特征点检测和变形的方法逐渐成为主流。这些方法通过检测人脸的关键特征点(如眼睛、鼻子、嘴巴等),然后利用这些特征点进行几何变形和对齐。例如,活跃的形状模型(asm)和活跃的外观模型(aam)是常见的特征点检测方法,通过建立人脸的统计模型,可以较准确地定位特征点并进行仿射变换。这种方法在一定程度上提高了人脸交换的精度和自然度,但在处理大角度姿态变化和复杂表情时,效果仍不理想。此外,这些方法对计算资源要求较高,实时性较差。
3、近年来,深度学习技术的快速发展为人脸交换技术带来了新的突破。基于深度学习的方法通过训练卷积神经网络(cnn)和生成对抗网络(gan),可以实现高精度、高自然度的人脸替换。例如,faceswap和deepfake等技术利用gan生成高质量的合成人脸图像,极大地提高了人脸交换的效果。这些方法通过大量的人脸图像数据训练模型,能够在各种复杂场景下实现自然的人脸替换。然而,深度学习方法也存在一些问题。首先,这些方法需要大量的训练数据和计算资源,训练过程耗时较长。其次,尽管生成效果逼真,但在实际应用中仍可能出现不连续和不自然的边缘过渡。此外,深度学习方法对光照和姿态变化的鲁棒性还有待提高。
技术实现思路
1、鉴于此,本发明提供了一种基于目标跟踪的视频人脸交换目标自动锁定算法,本发明显著提升了人脸交换的精度、自然度、实时性和鲁棒性。
2、本发明采用的技术方案如下:
3、一种基于目标跟踪的视频人脸交换目标自动锁定算法,它包括:
4、步骤1:检测源视频和目标视频中每一帧的人脸区域,分别得到源视频人脸区域序列和目标视频人脸区域序列;
5、步骤2:使用预先设定的差异检测模型,计算目标视频人脸区域序列中每个人脸区域与源视频人脸区域序列中每个人脸区域的差异度,将差异度最小时,对应的源视频人脸区域序列的人脸区域作为最接近人脸区域;
6、步骤3:将目标视频中每个人脸区域替换成其对应的最接近人脸区域。
7、进一步的,步骤1在检测源视频和目标视频中每一帧的人脸区域前,首先提取源视频和目标视频的视频帧,分别得到源视频帧集合和目标视频帧集合;然后分别对源视频帧集合和目标视频帧集合中的每一帧图像进行图像去噪处理后,转换为灰度图像。
8、进一步的,步骤1中检测源视频和目标视频中每一帧的人脸区域的方法包括:使用预训练的基于回归树的多尺度多分辨率模型对源视频和目标视频在每一帧的图像中,使用不同大小的窗口滑动,提取窗口内的加权多尺度多分辨率值,若加权多尺度多分辨率值大于设定的阈值,判断其属于人脸区域,每一帧的图像的人脸区域包括所有属于人脸区域的窗口覆盖的部分。
9、进一步的,预训练的基于回归树的多尺度多分辨率模型通过如下过程进行训练:对于训练集中的每个样本图像中的每个像素均对应一个标签,标签标记了该像素是否属于人脸区域;对于训练集中的每个样本图像中的每个像素,以自身为中心像素,设定一个半径r和采样点数p来定义邻域范围,在邻域范围内,算其在不同尺度和不同分辨率下的加权灰度值与中心像素的灰度值的差值,得到加权多尺度多分辨率值;构建加权多尺度多分辨率回归树,具体包括:将每个像素作为回归树中的一个节点,在每个节点,选择一个分裂特征和分裂点,使得分裂后的子节点内部的加权多尺度多分辨率值的加权均方误差最小化,从而选择最佳分裂点,以递归构建树结构,直到达到预设的树深度。
10、进一步的,加权多尺度多分辨率值wmsmlbp使用如下公式进行计算:
11、
12、其中,ic是中心像素的灰度值;是第p个采样点在尺度s和半径r下的灰度值;s是尺度的数量;w(p,s,r)距离、尺度和半径的组合权重,使用如下公式计算得到:
13、
14、其中,是第p个采样点在尺度s和半径r下到中心像素的距离,σsr和σr是尺度s和半径r的标准差,n是预设的多项式的阶数。
15、进一步的,加权多尺度多分辨率值的加权均方误差msmr-wmse使用如下公式计算得到:
16、
17、其中,w(i,s,r)是训练集中的第i个样本图像在尺度s和半径r上的权重,n是样本数量,yi是第i个样本图像的标签,是预测标签。
18、进一步的,步骤2中:设目标视频中的人脸区域序列中第i个人脸区域为ti;源视频中的人脸区域序列中第j个人脸区域为sj,使用如下公式,计算差异度dh(ti,sj):
19、
20、其中,表示计算直方图均值;m为直方图的分桶数量;hk(ti)表示计算第k个分桶的直方图均值。
21、进一步的,根据步骤2的差异度计算结果,确定目标视频中每个人脸区域ti对应的最接近人脸区域sj;使用人脸关键点检测对ti和sj进行对齐,;关键点集合pt和ps分别表示ti和sj的关键点位置;计算从sj到ti的tps非线性变换矩阵;将最接近人脸区域sj基于非线性变换矩阵,仿射变换到人脸区域ti的位置;为仿射变换后的人脸区域使用多分辨率融合方法创建一个多层蒙版m;将仿射变换后的人脸区域与人脸区域ti进行多分辨率融合;将融合后的人脸区域r替换到目标视频的对应位置。
22、进一步的,使用拉普拉斯金字塔融合方法,将仿射变换后的人脸区域与人脸区域ti进行多分辨率融合。
23、采用以上技术方案,本发明产生了以下有益效果:本发明采用了加权多尺度多分辨率值(wmsmlbp)和加权均方误差(msmr-wmse)的方法,对视频帧中的人脸区域进行高精度检测和匹配。wmsmlbp通过在不同尺度和分辨率下提取图像特征,并利用加权处理确保特征提取的精度和鲁棒性。这种方法能够有效捕捉到人脸区域的细节和整体特征,使得在人脸检测过程中,即使在复杂的光照条件和背景下,也能保持高精度。msmr-wmse通过对不同尺度和分辨率下的误差进行加权平均,优化了回归树的构建,使得模型在不同环境下都能准确预测人脸区域。这些技术的综合应用,显著提高了人脸检测和匹配的精度,确保了后续人脸交换过程的可靠性。本发明在算法设计中充分考虑了实时性和计算效率。多尺度多分辨率加权处理方法和加权均方误差优化策略,尽管在计算上更为复杂,但通过合理的算法优化和高效的计算架构,能够在保证高精度的同时实现实时处理。具体来说,本发明采用了预训练的回归树模型和高效的特征匹配算法,使得人脸检测和匹配过程能够在较短时间内完成,适用于实时视频处理需求。此外,本发明还采用了多分辨率融合技术,通过在不同分辨率层次上逐层处理和融合图像,既保留了细节特征,又保证了整体过渡的平滑。这种方法不仅提高了处理效率,还能有效减少计算开销,使得本发明在实际应用中具备较高的实时性。本发明在设计过程中,充分考虑了各种复杂场景下的鲁棒性和适应性。通过多尺度多分辨率的特征提取方法,模型能够在不同光照条件、不同姿态角度和部分遮挡情况下,依然保持高精度的人脸检测和匹配。这种方法通过在不同尺度和分辨率下捕捉图像特征,确保了模型对细节和整体特征的全面掌握,从而提高了系统在复杂环境下的适应性。另外,本发明的加权处理方法通过高斯分布和平滑函数,对距离、尺度和半径进行综合加权,使得特征提取更加稳定和准确。特别是在处理动态视频和复杂背景时,这种方法能够有效降低背景噪声和动态干扰的影响,确保人脸检测的鲁棒性。
本文地址:https://www.jishuxx.com/zhuanli/20241106/321825.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。