技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于隐式编码与几何先验的室内三维场景重建方法及系统与流程 > 正文

基于隐式编码与几何先验的室内三维场景重建方法及系统与流程

国知局
2025-01-10 13:35:53

本发明涉及基础设施，特别是涉及基于隐式编码与几何先验的室内三维场景重建方法及系统。

背景技术：

1、基于多视图立体视觉的场景重建方案：可以产生稠密的三维点云，此类方法依赖于多视图一致性假设，通过视图间的特征匹配来估计场景的三维结构，因此在遮挡区域、弱纹理区域以及强反射区域表现较差，难以获得高置信度的深度值，使得最终输出的点云存在大片空洞区域，影响场景重建完整性。

2、基于深度神经网络的重建方法：使用神经网络预测三维空间中点的属性，通过融合深度图来构建表面。此类方法无需在每个关键帧上单独估计单视图深度，直接通过稀疏体顺序重建每个视频片段的局部表面，无需深度融合。这些技术可以较为准确地预测场景的几何形状，但是不关注场景的渲染质量，无法输出高质量的渲染图片，并不适合直接应用于场景绘制。

3、基于纯神经辐射场与符号距离函数的方案：结合神经辐射场和符号距离函数两种隐式表征的优点，可以精细地重建场景几何表面的同时，渲染高分辨率的图片。相较于传统的多视图立体视觉算法，隐式表征蕴含了整个场景的信息，所以有潜力重建出低纹理区域的三维结构，在小尺度和丰富纹理的场景中取得了令人惊叹的重建效果，但在具有无纹理平面区域的大规模室内场景中往往产生较差的效果。

4、现有技术缺点：

5、1)对于无纹理区域重建效果差：目前已有的重建方案都是基于多视图之间的特征匹配与约束重建场景几何。而室内场景中具有大面的无纹理区域，例如墙面，在此类区域中难以进行精准的特征提取和匹配，并且不包含像素级优化所需的足够视觉特征。因此现有方案在无纹理区域中表现较差，难以恢复准确的几何信息。大多数神经方法无法重建具有大量无纹理区域的室内场景。

6、2)要求数据光度一致性强：现有的方法都是基于多视角一致性完成三维重建任务，它们假设场景在不同图片中的外观是一致的，这也称之为光度一致性假设。然而在真实情境中，场景中的同一个点在不同图片中往往颜色会发生变化，这是由于不同的成像过程(如曝光、光圈大小、白平衡等)和不同的采集时间导致的。在这种不满足广度一致性假设的情境中，现有算法效果会发生大幅度退化。

技术实现思路

1、本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

2、为此，针对室内场景三维重建技术方案现阶段存在的问题，即无纹理区域重建和数据光度一致性问题时，本发明提出了一种基于隐式编码与几何先验的室内三维场景重建方法，该方法基于隐式编码和几何先验，利用神经辐射场模型对场景进行重建，显著提升重建效果并克服现有方法的局限性。

3、本发明的另一个目的在于提出一种基于隐式编码与几何先验的室内三维场景重建系统。

4、为达上述目的，本发明一方面提出一种基于隐式编码与几何先验的室内三维场景重建方法，包括：

5、对待重建图像数据进行数据处理得到对应的预处理数据；其中，所述预处理数据至少包括相机内外参和初始化的隐式外观编码；

6、根据相机内外参计算图像数据上需要训练的像素对应的世界坐标系下的射线；

7、将射线上的采样点的三维坐标编码和观测角度编码以及对应图像的隐式外观编码输入神经辐射场模型得到预测的密度值和颜色值，并利用基于符号距离函数的体渲染预测得到像素值，以得到训练好的神经辐射场模型；

8、基于所述密度值和颜色值得到标准隐式外观编码，并将至少包括所述标准隐式外观编码的数据输入训练好的神经辐射场模型获取场景几何信息以进行场景重建。

9、本发明实施例的基于隐式编码与几何先验的室内三维场景重建方法还可以具有以下附加技术特征：

10、在本发明的一个实施例中，对待重建图像数据进行数据处理得到对应的预处理数据，包括：

11、获取待重建图像数据；其中，所述待重建图像数据，包括待重建室内三维场景的rgb图像；

12、利用sfm运动恢复结构技术计算每一张rgb图像的相机内外参；

13、将所有rgb图像输入预训练的深度估计网络和法线估计网络以获取对应的深度图和法线图，并将所述深度图和法线图作为监督信号为神经辐射场模型的训练提供几何先验信息；

14、对每张rgb图像随机初始化一个可学习的隐式外观编码。

15、在本发明的一个实施例中，采用多层感知机作为所述神经辐射场模型，所述方法，还包括：

16、将每条射线的采样点输入基于符号距离函数和隐式外观编码的神经辐射场模型进行体渲染得到网络估计结果；其中，所述网络估计结果，包括最终成像平面上的估计rgb值、估计深度值和估计法线值；

17、获取所述rgb图像对应的rgb真值标签、所述深度图对应的深度伪标签和所述法线图的法线伪标签；

18、基于所述网络估计结果利用所述rgb真值标签、所述深度伪标签和所述法线伪标签进行监督，并通过反向传播更新多层感知机的参数和隐式外观编码的数值以训练多层感知机。

19、在本发明的一个实施例中，将至少包括所述标准隐式外观编码的数据输入训练好的神经辐射场模型获取场景几何信息以进行场景重建，包括：

20、获取用于测试的rgb图像对应射线上的采样点的三维坐标编码和观测角度编码；

21、将用于测试的rgb图像对应射线上的采样点的三维坐标编码和观测角度编码和所述标准隐式外观编码输入训练好的神经辐射场以通过水平集方法提取符号距离场的零势面；

22、将所述零势面作为室内三维场景的几何表面以进行室内三维场景重建。

23、在本发明的一个实施例中，所述获取待重建图像数据，包括：

24、利用摄像设备对待重建的室内场景进行拍摄以采集待重建室内三维场景的rgb图像；其中，采集的所述rgb图像覆盖整个场景的所有物体表面，并且对同一处物体表面采集多个不同角度的图片。

25、为达上述目的，本发明另一方面提出一种基于隐式编码与几何先验的室内三维场景重建系统，包括：

26、数据预处理模块，用于对待重建图像数据进行数据处理得到对应的预处理数据；其中，所述预处理数据至少包括相机内外参和初始化的隐式外观编码；

27、射线数据计算模块，用于根据相机内外参计算图像数据上需要训练的像素对应的世界坐标系下的射线；

28、网络模型训练模块，用于将射线上的采样点的三维坐标编码和观测角度编码以及对应图像的隐式外观编码输入神经辐射场模型得到预测的密度值和颜色值，并利用基于符号距离函数的体渲染预测得到像素值，以得到训练好的神经辐射场模型；

29、室内场景重建模块，用于基于所述密度值和颜色值得到标准隐式外观编码，并将至少包括所述标准隐式外观编码的数据输入训练好的神经辐射场模型获取场景几何信息以进行场景重建。

30、本发明实施例的基于隐式编码与几何先验的室内三维场景重建方法和系统，首先使用预训练模型提供更多的几何先验，通过使用预训练的深度估计神经网络和法线估计神经网络，为三维重建引入额外的几何先验信息，改善室内场景中间对于大面积无纹理区域的建模效果，提升几何重建结果的准确性和完整性。然后通过引入隐式外观编码，对不同采集图片之间可能存在的外观差异进行建模，可以减轻现有三维重建方案对于采集数据三维一致性的依赖，以提高算法在复杂情景下的鲁棒性和表征能力。

31、本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。