一种基于属性信息辅助的人脸生成方法与流程
- 国知局
- 2024-11-25 15:07:45
本发明涉及人脸图像处理,尤其涉及一种基于属性信息辅助的人脸生成方法。背景技术:::1、随着深度学习的发展,人脸识别技术广泛应用于各个领域。随着人脸识别性能的不断提升,对大规模人脸数据的需求也日益迫切。然而,由于公众对个人隐私的关注,广泛收集和使用人脸数据集进行商业训练已经受到限制。人脸生成技术的出现有效缓解了人脸识别中因数据匮乏带来的问题。2、常见的人脸生成方法有:基于生成对抗网络(gan,generative adversarialnetworks)的方法,该方法通过生成器和判别器的对抗训练,生成逼真的人脸图像,代表方法有discofacegan和stylegan等;基于3d人脸重建和渲染方法,该方法结合3d面部模型和gan,允许对生成的人脸进行精细控制,如表情、姿态和光照等,代表方法有stylerig和rotate-and-render等;基于稳定扩散(sd,stable diffusion)的方法,该方法通过逐步去噪还原图像,生成高质量的人脸图像,并具有较好的稳定性和多样性,代表方法有idiff-face等。经过实验与测试,从真实性、生成多样性、身份一致性和易于训练等方面评估,基于稳定扩散的方法综合优于其他两种方法。3、基于稳定扩散的方法不仅可以扩充样本量较少的人脸数据,还能生成全新的虚拟身份人脸。该方法通常通过输入身份控制信息控制生成人脸的身份,通过输入随机噪声控制生成多样性,达到n次实验生成同一个人的n张不同人脸图片的效果。经实验发现,基于稳定扩散的方法在生成全新的虚拟身份人脸时,由于新生成的人脸信息较少,容易出现不可控的属性错误,例如生成同一身份的n张图片中出现男女混合的现象,从而影响最终的人脸识别性能。技术实现思路1、为了解决背景技术::中提到的至少一个技术问题,本发明的目的在于提供一种基于属性信息辅助的人脸生成方法,增加额外的属性信息,增加人脸随机生成的可控性和稳定性,从而减少随机生成人脸中出现的错误。2、为实现上述目的,本发明提供如下技术方案:3、一种基于属性信息辅助的人脸生成方法,包括以下步骤:4、s1,在训练图像中标注人脸属性;5、s2,构建多分支人脸识别网络及多分支人脸识别网络的损失函数,所述多分支人脸识别网络包括主干网络、人脸属性分支和人脸识别分支;6、s3,构建人脸生成网络及人脸生成网络的损失函数,所述人脸生成网络包括编码器,前向扩散层,融合层,unet和解码器;7、s4,对所述多分支人脸识别网络和人脸生成网络进行训练;8、s5,输入待扩充的样本图像至训练好的多分支人脸识别网络和人脸生成网络中,输出新生成的人脸图像。9、在本发明的某些实施例中,所述人脸属性包括性别、年龄段、肤色;性别、年龄段、肤色分别设置有至少两个选项且每一人脸属性仅归属其中一个选项。10、在本发明的某些实施例中,所述多分支人脸识别网络的结构如下:11、主干网络,采用resnet50的conv1,conv2_x,conv3_x,conv4_x,conv5_x层,输入为224×224×3的人脸图片,输出为2048维向量;12、人脸属性分支,采用依次连接的全连接层,bn层,输入为主干网络输出的2048维向量,输出为8维的人脸属性向量f_attr;13、人脸识别分支,采用依次连接的全连接层,bn层,输入为主干网络输出的2048维向量,输出为512维的人脸嵌入向量f_emb;14、人脸id分类器,采用依次连接的全连接层,softmax层,输入为人脸识别分支输出的人脸嵌入向量f_emb,输出为人脸id向量f_id。15、在本发明的某些实施例中,所述多分支人脸识别网络的损失函数为:16、lface=α*lattr+lid17、其中:lface为多分支人脸识别网络的损失;lattr为人脸属性分支的损失函数;lid为人脸id分类器的损失;α为lattr的权重系数。18、在本发明的某些实施例中,所述人脸属性分支的损失lattr为:19、20、其中,f_attr[i]为人脸属性分支输出的人脸属性向量第i维;qi为训练图像真实人脸属性向量的第i维。21、在本发明的某些实施例中,所述人脸id分类器的损失lid为:22、23、其中,n为训练图像总数,i为图像序号,y为训练图像的真实id标签,f_id[i]为全局特征网络输出的人脸id向量的第i维。24、在本发明的某些实施例中,所述人脸生成网络的结构如下:25、编码器,采用变分自编码器的编码器部分,输入为512×512×3的人脸图像,输出为64×64×4的潜空间特征图;26、前向扩散层,采用线性噪声调度策略,输入为编码器输出的64×64×4的潜空间特征图,通过线性调度策略设定时间步序列和对应的噪声强度序列;对于时间步序列中的任意时刻t,采样高斯噪声∈,根据t时刻的噪声强度向潜空间图中添加高斯噪声,计算出t时刻的64×64×4的潜空间噪声图;27、融合层,采用依次连接的dropout层,拼接层,bn层,输入为8维的人脸属性向量和512维的人脸嵌入向量,将人脸嵌入向量输入到dropout层中,随机dropout 8维,得到504维向量,该504维向量与8维人脸属性向量拼接后输入到bn层中,输出为512维的条件向量;28、unet,采用unet 2d condition model,输入为前向扩散层输出的64×64×4的潜空间噪声图及其时刻t和融合层输出的512维的条件向量,通过unet内部的交叉注意力模块将条件向量注入到unet内部的多个层中,以指导unet输出64×64×4的噪声残差图;29、循环去噪层,采用去噪扩散概率模型,初始输入为前向扩散输出的64×64×4的潜空间噪声图和unet输出的64×64×4的噪声残差图,通过去噪扩散概率模型从输入的潜空间噪声图中去除噪声残差图,得到64×64×4的中间过程噪声图,用中间过程噪声图代替初始输入的潜空间噪声图,重复unet和循环去噪层,该过程循环n次,最终输出64×64×4的去噪潜空间特征图;30、解码器,采用变分自编码器的解码器部分,输入为64×64×4的去噪潜空间特征图,输出为512×512×3的生成人脸图像。31、在本发明的某些实施例中,所述人脸生成网络的损失函数为:32、33、其中,t为时间步中的t时刻,xt为t时刻的潜空间噪声图,∈为t时刻采样的高斯噪声,∈(xt,t)为unet输出的噪声残差图;e[||·||22]表示均方误差。34、与现有技术相比,本发明的有益效果是:35、本发明在训练图像中标注人脸属性,从而增加了人脸随机生成过程中的可控性和稳定性,以致于降低了由于新生成的人脸信息较少容易出现不可控的属性错误,在人脸样本量较少的情况下,可以按照实际需求进行样本量的扩充。当前第1页12当前第1页12
本文地址:https://www.jishuxx.com/zhuanli/20241125/336296.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表