技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于神经辐射场的三维场景局部编辑方法及系统 > 正文

一种基于神经辐射场的三维场景局部编辑方法及系统

国知局
2024-07-31 22:38:37

本发明属于计算机图形学和计算机视觉领域，具体涉及一种基于神经辐射场的三维场景局部编辑方法及系统。

背景技术：

1、对三维场景进行编辑是计算机图形学和计算机视觉领域中备受关注的研究问题，该研究旨在基于用户指令，对三维场景或物体的几何结构和外观纹理进行编辑，以满足用户对于三维内容的个性化定制和调整的需求，在虚拟现实、增强现实以及影视制作等领域具有广阔的应用前景。传统的三维编辑方法需要在专业建模软件中对三维内容进行手动设计，编辑三维模型的顶点、边和面，调整其几何形状和尺寸，添加纹理和材质，设置光照效果等。技术难度较高，需要经验丰富的从业者进行操作。相比于传统的三维编辑方法，根据给定的自然语言文本指令，自动调整三维内容是更加高效和便捷的编辑方式，具有更广阔的应用前景。

2、神经辐射场nerf（详见文献：mildenhall, b., srinivasan, p.p., tancik, m.,barron, j.t., ramamoorthi, r. and ng, r., 2021. nerf: representing scenes asneural radiance fields for view synthesis. communications of the acm, 65(1),pp.99-106.）是mildenhall等人在2020年提出的三维重建和新视角合成技术，该技术通过神经网络隐式地对三维场景进行建模，以极高的精度还原场景的几何结构和纹理信息。对神经辐射场进行编辑具有重要的研究意义，有助于推动三维编辑技术的发展。在局部编辑方法的具体实现中，存在以下几个方面的难点和挑战：(1)对任意三维内容进行创造性编辑。编辑操作的应用范围应是所有三维物体和场景，不局限于某个特定的类别。编辑操作在增加或删除物体，对物体进行平移或旋转，改变颜色等基础操作外，还需要实现更具创造性的编辑，包括改变物体类别，显著地改变原物体的几何结构和纹理信息等。(2)对指定物体或区域进行定向编辑。在文本指令是对三维场景中的特定物体进行编辑时，编辑操作应准确作用于目标区域，在训练过程中，仅优化目标区域的模型参数，保持与文本指令不相关区域不变。(3)提高编辑结果质量，保持各视角一致性。编辑操作应根据文本指令准确地调整物体的几何结构和外观纹理，支持与原物体有较大差异的编辑任务。编辑后的物体应具有真实感和丰富的纹理信息。

3、目前已有一些相关技术对神经辐射场进行编辑，比如：1）对三维场景进行全局编辑：现有技术1（详见文献：haque, a., tancik, m., efros, a.a., holynski, a. andkanazawa, a., 2023. instruct-nerf2nerf: editing 3d scenes with instructions.in proceedings of the ieee/cvf international conference on computer vision,pp. 19740-19750.）提供了一种基于文本指令编辑神经辐射场的方法。在训练过程中，利用二维图像编辑模型instructpix2pix（详见文献：brooks, t., holynski, a. and efros,a.a., 2023. instructpix2pix: learning to follow image editing instructions.in proceedings of the ieee/cvf conference on computer vision and patternrecognition, pp. 18392-18402.），迭代地编辑神经辐射场的渲染图像，并用编辑后的图像更新训练数据集。现有技术2（详见文献：kamata, h., sakuma, y., hayakawa, a.,ishii, m. and narihira, t., 2023. instruct 3d-to-3d: text instruction guided3d-to-3d conversion. arxiv preprint arxiv:2303.15780.）利用instructpix2pix和得分蒸馏采样（sds）算法对神经辐射场进行优化。上述方法的局限性在于仅能对三维场景进行整体编辑，无法实现局部编辑，保持与文本指令不相关的区域保持不变。2）对三维场景进行局部编辑：现有技术3（详见文献：sella, e., fiebelman, g., hedman, p. andaverbuch-elor, h., 2023. vox-e: text-guided voxel editing of 3d objects. inproceedings of the ieee/cvf international conference on computer vision, pp.430-440.）实现在原三维物体上添加新的结构，改变物体的几何形状。引入了体积正则化损失和基于3d交互注意力的体素分割技术实现局部编辑。但该方法存在对目标物体定位不够准确，编辑结果几何变化不明显的问题。现有技术4（详见文献：zhuang, j., wang, c.,lin, l., liu, l. and li, g., 2023, december. dreameditor: text-driven 3dscene editing with neural fields. in siggraph asia 2023 conference papers,pp. 1-10.）实现了基于mesh的局部编辑方法。将目标区域掩码反向投影到mesh上定位三维编辑区域，通过sds算法对mesh顶点的几何特征，颜色特征和坐标进行优化。但该方法较为耗时，同时因为编辑区域的mesh顶点数量固定，无法支持大的形状改变。

技术实现思路

1、本发明要解决的技术问题：针对现有技术的上述问题，提供一种基于神经辐射场的三维场景局部编辑方法及系统，本发明旨在解决目标物体的定位和分割问题、对神经辐射场进行局部编辑的问题以及编辑结果质量不高，缺少细节的问题，实现高质量的三维场景局部编辑。

2、为了解决上述技术问题，本发明采用的技术方案为：

3、一种基于神经辐射场的三维场景局部编辑方法，包括下述步骤：

4、s101，针对输入的一组场景的多视角图像，利用 sam分割模型结合文本提示得到目标物体的二维分割掩码，基于已重建好的场景模型和二维分割掩码，训练一个三维分割网格以实现在三维空间中定位目标物体所在的区域；

5、s102，根据设定的阈值对场景模型的分割网格进行二值化处理，使得目标物体所在的区域的体素值对应为1，背景区域的体素值对应为0；对原场景模型进行复制，基于三维分割网格的值分别构建代表目标物体的物体场和代表背景的背景场，物体场保留分割网格值为1的区域的密度和特征网格值，背景场则保留值为0的区域的密度和特征网格值；

6、s103，通过组合渲染策略生成整个场景的渲染图像，并将整个场景的渲染图像输入到二维扩散模型中利用vsd算法对物体场模型参数进行优化，背景场模型参数保持不变，且采用由粗到细的编辑策略最终得到与原场景一致且具有真实纹理细节的编辑结果。

7、可选地，步骤s101包括在已重建好的场景模型中增加分割分支：在预先训练好的dvgo模型上增加分割分支，将各个采样点的三维坐标和视角方向映射到体积密度值、颜色值和分割值以将三维场景表示为一个由体素网格近似的辐射场场景模型，增加分割分支后的dvgo模型包括密度网格、特征网格、颜色网络以及分割网格，且映射到体积密度值、颜色值和分割值的函数表达式为：

8、，

9、，

10、，

11、上式中，为插值，为密度网格，为颜色网络，为特征网格，为分割网格。

12、可选地，步骤s101中训练一个三维分割网格以实现在三维空间中定位目标物体所在的区域时，训练三维分割网格为利用grounded sam方法得到的目标物体的二维分割掩码作为基准真实值，且训练三维分割网格时采用的二值交叉熵损失函数的函数表达式为：

13、，

14、上式中，为训练分割网格时采用的二值交叉熵损失函数，为一组采样光线，为光线的作为基准真实值的二维分割掩码，为光线对应像素的渲染掩码。

15、可选地，所述光线对应像素的渲染掩码的函数表达式为：

16、，

17、上式中，为光线对应像素的渲染掩码，为光线r上的采样点总数，为第i个采样点的不透明度，为光线从起点传播到采样点i时未被吸收的累积概率，为第i个采样点的分割值。

18、可选地，步骤s103中通过组合渲染策略生成整个场景的渲染图像的函数表达式为：

19、，

20、上式中，为对物体场和背景场进行组合渲染后光线对应的像素点的值，为光线r上的采样点总数；为组合alpha值；为光线从起点传播到采样点i时未被吸收的累积概率；为组合颜色值，且有：

21、，

22、，

23、上式中，和分别为采样点在物体场和背景场中的alpha值，和分别为采样点在物体场和背景场中的颜色值。

24、可选地，步骤s103中将整个场景的渲染图像输入到二维扩散模型中利用vsd算法对物体场模型参数进行优化时，包括通过最小化lora损失对噪声预测网络进行训练使其适应当前渲染图像的分布，且vsd算法采用的vsd损失的函数表达式为：

25、，

26、上式中，为vsd损失函数相对于物体场的参数的梯度，为在多个随机变量的联合分布上取期望，为时间步相关的权重函数，为扩散模型估计带有噪声的真实图像的得分，为带有噪声的真实图像，为时间，为文本指令，为噪声预测网络预测的噪声，为相机位姿，为相机位姿下的可微分的渲染映射，，其中是超参数，，是当前三维模型的渲染图像，为时间步的标准差，为加入的噪声；所述lora损失的计算函数表达式为：。

27、可选地，步骤s103中采用由粗到细的编辑策略最终得到与原场景一致且具有真实纹理细节的编辑结果包括：针对场景模型中的所有网格，包括密度网格，特征网格和分割网格，将场景模型中重建的细级别网格转换为体素数量较少的粗级别网格，对物体的整体形状和特征进行修改，然后将场景模型转换回原始的细级别网格，从而实现对几何和纹理细节的精细调整和优化，最终得到与原场景一致且具有真实纹理细节的编辑结果。

28、此外，本发明还提供一种基于神经辐射场的三维场景局部编辑系统，包括相互连接的微处理器和存储器，所述微处理器被编程或配置以执行所述基于神经辐射场的三维场景局部编辑方法。

29、此外，本发明还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序/指令，该算机程序/指令被编程或配置以通过处理器执行所述基于神经辐射场的三维场景局部编辑方法。

30、此外，本发明还提供一种计算机程序产品，包括计算机程序/指令，该算机程序/指令被编程或配置以通过处理器执行所述基于神经辐射场的三维场景局部编辑方法。

31、和现有技术相比，本发明主要具有下述优点：

32、1、本发明能够实现高效精准的三维定位与分割：本实施例基于sam分割模型，可以自动获取场景中任意物体的二维分割掩码，无需人工标注，节省时间成本。在dvgo的基础结构上增加三维分割网格，以sam得到的二维掩码为监督信号，对分割网格进行训练。实现仅根据一组场景的多视角图像和文本提示，在三维空间中对目标物体进行精准定位和分割，显著提高了三维分割的效率和准确性。

33、2、本发明能够实现精准的局部编辑框架：本实施例基于二值化处理后的分割网格，通过复制场景模型，独立表示目标物体与背景，为后续编辑操作明确划分作用范围。实现仅对目标物体进行调整，不会在其他区域产生噪声和额外的影响，实现精确的局部编辑。

34、3、本发明能够质量提升编辑结果：本实施例将vsd三维生成算法应用于三维编辑任务，通过文本指令对目标物体进行精确调整，相较于之前的编辑方法采用sds算法，得到更加真实，具有更多纹理细节的编辑结果。针对包含两个场景模型（物体场和背景场）的编辑框架，提出了组合渲染策略，得到与原场景和谐统一的编辑结果，实现了逼真的物体替换效果。此外，采用由粗到细的编辑策略，提高编辑效率，对几何形状和外观纹理进行显著调整。