技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于神经符号距离场的三维一致性面部生成方法与流程  >  正文

一种基于神经符号距离场的三维一致性面部生成方法与流程

  • 国知局
  • 2024-09-05 14:38:11

本发明属于人脸三维重建与生成领域,具体涉及一种基于神经符号距离场的三维一致性面部生成方法。

背景技术:

1、在计算机视觉领域,随着生成模型的发展,高度逼真的图像生成已经取得了显著的进步,生成对抗网络gans是一类强大的生成模型,为这一进步做出了重要贡献,2d-gans能够合成分辨率为1024*1024像素及以上的逼真图像,特别是style-gan展示了前所未有的图像生成质量,然而,这些方法局限在二维图像的合成,忽视了我们的真实世界是一个三维的结构。

2、为了解决这个问题,一些研究者们开始关注3d生成对抗网络3d-gans,这些模型试图从三维形状数据中学习更丰富和真实的表示,以便在生成过程中考虑几何形状、视角变化和纹理等因素,然而这类方法通常需要使用3d或多视图的监督,显数据集的收集相对困难,此外,3d-gans的运算量也非常庞大,它们需要处理大规模的三维数据,这对硬件设备的要求异常苛刻,高强度的计算资源和存储空间是必不可少的,这增加了使用3d-gans的成本和复杂性。

3、目前有一些合成高质量多视图图像的方法,但通常需要依赖于多视图数据来进行监督学习,这使得对数据的收集提出了更高的要求,并且训练过程相对繁琐,另一方面,基于单视图监督的3d-gans在多视图合成任务中表现出了出色的性能,其中只有少数研究能够生成对应的三维模型,这些方法通常采用基于体素密度的marching cubes算法,但在单视图条件下,由于缺少细节信息,很难生成表面质量较好的合成模型。

4、为此,本发明提出一种新的方式来实现生成与图像相对应模型的3d-gan,即使用基于坐标和相机光线的mlp来将空间表示成有符号距离场和特征场,同时,通过体积渲染低分辨率的特征图像和生成几何模型来构建生成模型的核心架构,并结合多分辨率哈希映射表以实现快速而高质量的图像生成,最后,利用基于风格的生成器高效地提取特征图像中的特征,用于生成高分辨率的图像,本发明的模型使用非饱和生成对抗损失保证图像的质量,使用eikonal损失约束sdf建模,以及计算一致性来保持视图一致性。

技术实现思路

1、本发明提供了一种基于神经符号距离场的三维一致性面部生成方法,旨在解决现有技术中多视图生成不一致和三维网格生成失败的问题,通过使用多分辨率哈希编码对空间进行高效编码,并结合有符号距离场sdf和特征场,提升了模型的训练速度和生成图像的质量,具体步骤包括:首先获取单视图的原始数据集,然后对三维点和射线方向进行编码,使用mlp网络计算rgb颜色、特征值、有符号距离值和体积密度,接着使用体积渲染方法生成低分辨率特征图像和几何模型,再将特征图输入风格生成器,通过2d卷积神经网络上采样生成高分辨率图像,最后通过定义生成对抗损失、eikonal损失和内容损失确保生成图像的质量和视图一致性,本发明的优势在于,通过多分辨率哈希编码和特征积分渲染方法,显著提升了场景细节重建能力和内存使用效率,确保了系统在实时环境中的运行能力,实验结果表明,本发明在图像质量、视图一致性、训练速度和内存使用效率方面与现有方法相比均有良好效果。

2、为实现上述目的,本发明提供一种基于神经符号距离场的三维一致性面部生成方法,包括以下步骤:

3、步骤s1:获取人脸相关数据,从ffhq数据集中获取人脸rgb图像;

4、步骤s2:创建一个基于神经符号距离场sdf的体积渲染网络,初始化网络超参数;

5、步骤s3:采用可学习的多分辨率哈希网格对三维点和射线方向进行哈希编码,并使用一个潜在的映射网络处理潜在编码,将映射后的潜在编码与哈希编码作为所设计的nerf-gan生成器的输入;

6、步骤s4:nerf-gan生成器输出采样点的sdf值、特征值和rgb颜色,并采用2d噪声注入的方式;

7、步骤s5:采用体积渲染来合成分辨率为64×64的图像,同时额外渲染了携带生成过程中先验知识的特征图f;

8、步骤s6:设计一种基于风格的神经上采样器,对特征图进行处理,生成高分辨率的二维图像,并采用两阶段的监督方式;

9、步骤s7:计算对抗损失、相机位姿损失、eikonal损失和一致性损失,优化生成模型。

10、进一步的,所述步骤s1中从ffhq数据集中获取人脸rgb图像,包括:

11、从ffhq数据集中获取70000张不同分辨率为256x256的人脸图片,并对图像进行归一化处理,数据集的图像下采样至64x64分辨率。

12、进一步的,所述步骤s2中创建一个基于神经符号距离场sdf的体积渲染网络,初始化网络超参数,包括:

13、体积渲染网络包括一个生成器网络和一个判别器网络,生成器用于生成高质量的图像和几何模型,判别器用于评估生成图像的真实性和一致性,初始化系统超参数包括设置学习率、损失函数的权重、迭代次数。

14、进一步的,所述步骤s3中采用可学习的多分辨率哈希网格对三维点和射线方向进行哈希编码,包括:

15、对规范空间中的三维点x和相机光线方向d进行编码,将三维规范空间划分为不同分辨率的网格,其中为不同分辨率的网格最大层数,为层数,在不同分辨率下分别查询所在网格顶点对应的哈希表值,并通过三线性插值获得该分辨率下的编码值,采用球协编码来编码相机光线方向d。

16、进一步的,所述步骤s4中nerf-gan生成器输出采样点的sdf值、特征值和rgb颜色,包括:

17、轻量级nerf-gan采用由leakyrelu激活的三层mlp作为其映射网络,将潜在编码通过映射网络得到潜在向量,来自潜在空间的潜在向量通过特征线性调制film进行仿射变换,注入映射网络的每一层,并将映射网络扩展为8层,作为基于样式的神经上采样器的映射网络,每个surf块接收潜在空间的潜在向量作为噪声输入,通过可学习线性层为每个块生成频率和相移,并通过周期性激活函数注入噪声;

18、将surf块表示为:,,,,,,其中表示第层的输入,和是全连接层的权重矩阵和偏移向量,分别表示3个全连接层,surf层输出的中间向量分别经过两个全连接层和,生成特征向量和sdf值,线性层和激活函数用于将和转化为体渲染所需的rgb值和体密度,其中是可学习的激活函数;

19、生成的sdf值用于后续提取mesh模型,训练参数来指示表面的紧密程度,并将sdf值用于体渲染,采用公式将sdf值转换为空间体积密度。

20、进一步的,所述步骤s5中采用体积渲染来合成分辨率为64×64的图像,包括:

21、采用体渲染方程渲染图像,,,其中,表示光线累积透射率,和是分别是射线的特征向量和颜色,对应于像素空间中的像素特征和颜色,是射线上的一个位置,是射线上位置处的三维坐标,是射线的方向向量,和分别表示三维空间点的rgb值、特征向量和体密度,和分别是相机光线的近界和远界;

22、对一组离散点进行采样来近似积分值,采样策略是将均匀分为段,每段中间随机采样点,只采样一次,则和改写为,其中和分别是采样点对应的特征向量和颜色值,表示相邻采样点之间的距离。

23、进一步的,所述步骤s6中设计一种基于风格的神经上采样器,并采用两阶段的监督方式,包括:

24、所设计的一种基于风格的神经上采样器,采样器的第一层以具有相机先验的特征图f作为输入,并随着级别的增加逐步增强特征图的分辨率,将不同分辨率的特征图转换为rgb图像,并使用双线性上采样进行跳跃连接,采样器的每一层都结合了映射网络生成的空间;

25、所采用两阶段的监督方式,首先将数据集缩小到64×64的分辨率,其次对低分辨率图像进行双三次上采样,得到高分辨率估计图像,该高分辨率估计图像与生成的高分辨率图像一起用于训练过程,优化生成网络。

26、进一步的,所述步骤s7中计算对抗损失、相机位姿损失、eikonal损失和一致性损失,包括:

27、计算对抗损失:采用非饱和损失作为生成对抗损失,,其中函数的表达式简写为,t是自变量,表示数学期望,和表示轻量级nerf-gan的生成器和判别器,相机姿势取自相机分布,潜在编码取自标准正态分布,真实图像取自训练集分布,是个超参数,默认设置=0.5;

28、相机姿势损失:采用一个判别器,在检测生成的低分辨率图的同时,生成对应图像的相机位姿,并采用l1损失用于计算生成相机位姿与真实相机位姿之间的误差,;

29、eikonal损失:采用eikonal损失,对计算的sdf值进行正则化,,其中是的梯度;

30、设定损失系数=10,=0.1,并将sdf体渲染器的总体损失函数定义为;

31、一致性损失:在训练基于风格的神经上采样器时使用与stylegan2相同的损失函数和正则化,计算双三次上采样操作得到的图像与体渲染得到的高分辨率图像之间的l1损失,作为训练神经上采样器额外的一个一致性损失,,其中和分别表示图像对应像素的横坐标和纵坐标,的损失系数设置为0.1。

32、本发明的有益效果:轻量级nerf-gan结合了带有坐标编码的nerf-gan,以提高训练速度,减少了mlp网络的层数并使用坐标编码来表示高维输入,从而降低了计算负担,并使用eikonal损失增强3d模型的质量,使生成的几何形状更加连续和平滑;

33、基于风格的神经上采样器注入了来自nerf-gan的先验知识,提高了合成图像的质量和分辨率,通过多层2d噪声注入和三层mlp映射网络,进一步提升图像质量和训练稳定性,并通过自监督方法减少了多视图图像的不一致性,改善了图像的一致性和真实感;

34、符号距离场sdf建模使用sdf值代替体密度进行3d模型构建,生成更高质量、连续且平滑的几何形状,在marching cubes算法中应用sdf值,使3d网格提取更加精确和细致,能更好地捕捉几何细节,提升3d模型的整体质量。

35、图像质量提升,在无监督2d数据的多视图图像合成中达到了最先进的性能,显示出显著优于基准方法的图像质量,合成的图像在高分辨率256x256像素下依然保持了高质量和细节;

36、更高分辨率和真实感,通过双阶段渲染方法,生成高分辨率图像高达256x256像素,并保持多视角的一致性,生成的面部图像真实且高质量,细节丰富,使用自监督方法确保多视图图像的一致性,减少了视角切换时的伪影和不一致现象;

37、高效的3d模型生成,相比传统的体密度方法,使用sdf值生成的3d模型质量更高,细节更加丰富,marching cubes算法结合sdf值,有效提取高质量的3d网格,提升了模型的精细度,并提升了训练效率,显著缩短了生成高质量3d模型所需的时间。

本文地址:https://www.jishuxx.com/zhuanli/20240905/287423.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。