技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种建筑空间解析的深度视觉感知方法与系统 > 正文

一种建筑空间解析的深度视觉感知方法与系统

国知局
2024-11-21 11:55:18

本发明属于室内空间理解与重建领域，尤其涉及一种建筑空间解析的深度视觉感知方法与系统。

背景技术：

1、室内场景理解对于用于数字建筑的机器人等智能设备来说至关重要。人类对空间的感知是直观且简单的，人们通过视觉和触觉产生空间意识，即空间的位置、边界及其组成。然而，对于建筑机器人来说，空间感知和理解不仅依赖于传感器和相机捕捉的原始数据，还需要通过先进的计算机视觉和机器学习技术来处理和解释这些数据。随着信息技术的发展，建筑机器人的空间感知和理解能力迅速增强，这不仅给建筑领域带来了创新，也为机器人技术的未来发展开辟了新的可能性。通过更精确的空间理解，建筑机器人可以更有效地帮助人类处理复杂任务，同时提高建筑领域的工作效率和安全性。

2、当前已经开发的室内空间理解的方法主要可分为两类，即图像方法、点云方法。通过图像理解和建模语义和空间信息的一站式方法在时间上是经济的，但准确性需要提高。对点云进行分割以理解语义信息，然后基于语义信息进行空间理解需要克服点云获取的难点，但它可以获得更高精度的空间模型和更好的理解。

3、使用图像进行立体空间的3d重建是一个复杂的过程，涉及分析一系列2d图像以重建物体或场景的3d结构。该技术通常通过摄影测量或结构光扫描，进而识别多张照片上的共同特征点来进行空间场景重建，其中特别涉及复杂的计算机视觉算法，这些算法用于特征检测、匹配和理解多视图几何。其中，深度信息是重建空间的关键，其通常通过双目图像传感器或激光传感器来获得。基于图像的方法尽管提供了丰富的纹理和颜色细节，但基于图像的重建在复杂的室内环境中面临许多难点，在这些环境中，可变照明、反射表面和遮挡等因素会降低重建准确性。

4、使用来自激光扫描仪或结构光传感器的点云对空间进行分割和重建，是创建详细3d空间模型的关键。这个过程包括提取语义和空间信息和建立空间模型。高级算法，特别是语义分割算法，能够从点云中自动提取这些语义和空间数据。激光雷达技术用于收集原始数据，然后对表面或结构相关的点进行分割分类，包括降噪、平面和边缘检测以及基于几何的特征分类。随后的重建阶段将这些点连接起来，形成一个连贯的空间模型，该空间模型在虚拟漫游、改造规划或建筑信息建模(bim)中应用广泛。

5、总之，室内三维重建和空间理解是通过图像和点云数据实现的，将真实世界的空间转化为机器能够理解和处理的数字信息。分割建模方法使这些数据更加有序和结构化，有利于bim和自动驾驶汽车环境感知等后续应用。随着计算技术和机器学习算法的进步，这些重建技术的效率和准确性将不断提高，使机器对空间的理解更接近人类的直观感知。

6、因此，如何运用智能算法理解竣工建筑室内点云信息并建立参数化空间模型成为一个至关重要的问题。本发明旨在探索一种替代方法，提出一种新的注意力增强的深度学习方法来实现对竣工建筑室内空间的理解与重建。

技术实现思路

1、针对现有技术存在的问题，本发明提供了一种建筑空间解析的深度视觉感知方法与系统。

2、本发明是这样实现的，一种建筑空间解析的深度视觉感知方法与系统，该方法包括：

3、s1：点云补全预处理与迁移学习预训练；

4、s2：双层级注意力机制增强的点云理解与分割网络模型构建；

5、s3：空间解析分割网络模型的分阶段训练与指标评估；

6、s4：网络模型的视觉解释性分析和参数化空间建模。

7、进一步，所述s1包括：

8、(1)点云补全预处理；基于测站的点云扫描方式操作简单，但缺点是不能很好地还原相对测站较远且被遮挡的物体；如果要很好地扫描单独测站扫描不到的物体，那么就需要从另一个角度的测站进行扫描，这样就需要大量的测站信息，耗费更多的时间和资源；考虑到竣工的建筑工程现场所包含的物体如梁、楼板、柱、地面、墙等物体结构形式单一，因此在不丢失关键特征的前提下，利用构件的对称性对缺失的点云进行补全即通过复制构件自身的部分点云补全点云缺失处，以提高数据的可学习性；

9、(2)迁移学习预训练；合适的迁移学习的方法能够有效地提升网络模型的性能和泛化能力；将公开室内空间点云数据集s3dis剔除部分类别后生成子数据集，将网络模型在该数据集上进行预训练后再于现场采集的竣工建筑点云数据集上进行训练与验证。

10、进一步，所述s2包括双层级注意力增强的空间解析网络模型构建：

11、输入数据首先经过最远点采样和knn聚类，最远点采样(fps)算法，从输入点云中随机选择一个点，然后选择距离已选择的点最远的点，不断迭代使得能够尽量在有限的计算资源下考虑点云的全部特征；在采样完成之后使用knn算法将采样集点附近的点进行聚类，以保留局部特征，经由二维卷积对特征数据组成的图样式的组合进行建模以获得对点云特征的提取能力；在特征提取的过程中，效率通道注意力机制eca有助于高效率地为不同通道的卷积网络赋予注意力权重，使得有效通道发挥的作用更加显著；自注意力机制则根据输入特征能够产生全局精细化的注意力权重，使得网络在该输入下更好地对特征进行理解；

12、自注意力机制sa其能够使输入特征被处理以产生精细化的注意力特征，输入特征图f输入到三个独立的核大小为1×1的卷积层中，以重塑成三个一维向量fq、fk和fv，然后将fq和fk相乘以获得大小为n×n的协方差矩阵，即注意力图；之后，将注意力图与fv相乘以获得输出特征图，并连接输入f的残差以产生精细化的自注意力特征fr；在这里，自注意力特征fr与f进行加权，即out＝α*fr+f；这里的α采用一个可学习的参数，由优化器自动调整注意力机制的作用强度；经由自注意力机制产生精细化的特征之后，由反卷积逐层上采样，使得特征图的尺寸扩大，通道减少，逐步还原成输入特征图的尺寸，以具备分割的能力；

13、对浅层特征和深层特征进行特征融合，由一维卷积层对融合的特征进行分割；最后，输入的点云组将被分割为6个类别，即天花板、地板、梁、柱、围栏和墙，这六个类别是代表了点云的语义信息，即空间解析的实际意义，也是构成建筑空间的基本元素。

14、进一步，所述s3具体包括：

15、(1)网络模型的训练效果评估；为了计算训练时效果的好坏，提出了一种双向对称的损失函数，损失函数由正向模块focal损失和反向模块revert ce损失按照一定权重组合；正向模块将网络输出值作为预测值，标签作为真实值，并将分割难易程度不同类别的点云赋予不同的惩罚权重，反向模块将网络输出值作为真实值，标签作为预测值进行计算，这样的损失函数可以提高网络模型对噪声数据的鲁棒性。标准的交叉熵损失函数对噪声数据较为敏感，由于在数据集中标签存在的噪声或不正确，标准交叉熵会导致网络模型从这些不正确的标签中学习，造成性能的大幅下降；在点云数据集中，考虑到相互遮挡物体的点云存在细微的噪声，但这些点又是进行语义分割的关键特征；

16、ce和rce损失可以按照以下公式(1)和(2)计算，sce损失ls可以按照公式(3)计算：

17、

18、

19、ls＝α·ce+β·rce (3)

20、其中，m是类别数量，yo，c为观测o的真实标签，po，c是观测o被分类为c的预测概率，α和β为ce何rce各自的权重；

21、此外，减少对易分类样本的关注度的有利于男分类样本的分类性能；焦点损失在ce损失的基础上引入了一个调制因子，用来降低易分类样本的权重；焦点损失由公式(4)定义：

22、

23、其中(1-po，c)γ是调制因子，γ是焦点参数，焦点损失通过该调制因子降低了易分类样本的权重；

24、作为一种组合，公式(5)给出了新定义的损失；

25、loss＝θ·lf+(1-θ)·lr (5)

26、其中lf表示焦点损失；lr表示rce损失，θ和1-θ为权重，作为超参数指定。

27、进一步，所述步骤(2)具体包括：

28、(2)网络模型多因素测试评估；为了评估验证和测试阶段的效果，引入了平均交并比miou，以及p值、f1值、r值，auc-roc曲线指标，以全方位的评估网络模型在测试集上的性能；如下4个通用的评估指标，精度、召回率、f1分数、iou，可以由公式(6～9)表示：

29、

30、

31、

32、

33、这里指的是类的索引；tp、fp、fn分别代表真阳性、假阳性、假阴性；n是点的个数；其中，所有类都使用了总体精度(oa)，加权平均(wa)和宏观平均(ma)精度，召回率，f1分数和平均iou(miou)；他们的计算结果由公式给出：

34、

35、

36、

37、

38、roc曲线反映了灵敏度和特异性连续变化关系的曲线，roc曲线的横坐标是假阳性率(false positive rate，fpr)，即实际为负类样本中，被错误预测为正类的比例，纵坐标是真阳性率(true positive rate，tpr)即实际为正类样本中，被正确预测为正类的比例。roc曲线的绘制原理是，指定一组阈值(threshold)，将网络模型输出的预测概率按照阈值分划分为二进制的分类预测结果，计算每个阈值划分情况下的fpr、tpr，然后在坐标系中确定每个阈值对应的点，并依次连接。最后，计算曲线关于横轴的面积，即auc值。auc的取值范围在0～1之间，auc值越接近1，网络模型的性能越好。

39、进一步，所述s4具体包括：

40、(1)网络模型的视觉可解释性分析：

41、为了能够更直观地了解机器在学习特征时的状态和进行特征提取的依据，对所提出的网络进行了视觉可解释分析；grad-cam是一种流行的可解释性分析方法，grad-cam的计算公式如下：

42、

43、

44、

45、其中，grad指的是对于目标类别c，计算类别激活值yc相对于特征图ak的梯度，然后对每个特征图通道的梯度进行全局平均池化，得到该通道的重要性权重最后计算得到的热力图还需要经过上采样到输入张量的尺寸以突出显示对于网络模型做出特定类别决策最重要的区域；

46、(2)空间的参数化重建：

47、在revit中，faro as build for revit插件有助于在导入已分类的点云后完成构建空间模型的过程；要构建该模型，首先创建一个构件模板库，为场景中出现的各种结构构件(如梁、柱、板等)开发材料；接下来，在点云上随机选择分为类别的点进行拟合。最后，根据边界条件将每个组件组合起来，形成一个完整的空间模型；

48、在分割的点云上而不是原始的点云数据上建立空间模型可以获得更快、更清晰的边界，这可以避免在基于点云拟合某种类型的构件时受到其他类别构件的影响；在已完工建筑的室内场景中，各种构件的组合往往遵循一定的模式，这降低了建立空间模型的难度。

49、本发明另一目的在于提供一种实施所述建筑空间解析的深度视觉感知方法的建筑空间解析的深度视觉感知系统，该系统包括：

50、预处理训练模块，用于点云补全预处理与迁移学习预训练；

51、网络模型构建模块，与预处理训练模块连接，用于双层级注意力机制增强的点云理解与分割网络模型构建；

52、训练与评估模块，与网络模型构建模块连接，用于深度学习评估和可解释性与参数化空间模型重建；

53、建模模块，与训练与评估模块连接，用于网络模型的视觉解释性分析和参数化空间建模。

54、本发明另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行所述建筑空间解析的深度视觉感知方法的步骤。

55、结合上述的技术方案和解决的技术问题，本发明所要保护的技术方案所具备的优点及积极效果为：

56、第一、本发明通过现场采集的竣工建筑点云数据集，以验证所提方法的有效性。对由激光扫描仪采集的竣工建筑点云进行解析与分割，并在分割的结果上进行参数化建模。结果表明:(1)在交叉验证中，该方法实现的miou的平均值为0.970，方差为4.05e-05，最大值为0.983，总体上具有优异的性能，且该方法的网络模型在具有代表性的数据集上实现的miou为0.9713，优于目前先进的点云语义分割网络pointnet++所实现的0.9445；(2)视觉可解释性分析表明，特征提取层对于大部分类别都有正确的区分，显示出良好的总体置信度；(4)经过解析后建立空间模型相比未解析的手工建模时间缩短约37％，并有效的减少了错误的发生，表明分割和建模在空间理解过程中发挥着不同但互补的作用。此发明为精准的空间解析与快速重建提供了一种新的深度机器视觉方法。

57、第二，本发明为建筑空间解析与重建开发了一种新的机器视觉方法。本发明提出了一个双层次注意力机制增强的点云解析网络，能够基于激光雷达扫描的点云数据提供可靠的空间语义解析。通过指标评估和视觉可解释性分析验证了网络模型的效果。进一步地，将解析的空间点云数据在bim软件中建立参数化空间模型，获得了实用性效果。所开发的方法有助于提出一种新的可靠计算机视觉空间解析框架，有助于提出一种有助于自动解析与参数化空间模型生成的自动化流程，以推动工程管理自动化智能化的进程。

58、第三，作为本发明的权利要求的创造性辅助证据，还体现在以下几个重要方面：

59、(1)本转化后的预期收益和商业价值显著，通过提出的技术方案，可以有效提升室内场景的理解和建模精度，针对目前市场需求较大的无人自主系统如建筑机器人，自动驾驶工程机械等，本发明能够有效地满足这些设备的智能化需求，因此具有显著的经济效益和市场应用前景。

60、(2)本发明解决了长期以来行业内迫切需要解决但未能成功克服的技术难题，即如何准确高效地从复杂室内环境中的点云数据实现对象分割和场景理解。

61、(3)克服了技术偏见，本发明不仅结合双层次注意力机制和迁移学习的方法，还融入了视觉可解释性分析技术，这种创新性的技术方案不仅增强了模型的分割效率和准确性，还提高了模型的解释能力，使其能够更好地理解和分析室内场景。通过这种方法，本发明有效解决了室内复杂环境下点云数据处理的多重挑战，包括点云数据的重叠、不均匀分布以及数据不平衡等问题。

62、第四，本发明提供的建筑空间解析的深度视觉感知方法解决了多个现有技术的技术问题，并带来了显著的技术进步。以下是对这些方面的详细分析：

63、首先，该方法解决了点云数据不完整的问题。在建筑空间分析中，点云数据往往由于各种原因(如传感器限制、遮挡等)存在缺失，这严重影响了后续的空间解析和视觉感知的准确性。通过利用构件的对称性进行点云补全预处理，可以有效地填补这些缺失，提高数据质量，为后续的深度视觉感知提供更为准确的基础。

64、其次，该方法利用迁移学习技术提升了网络模型的性能和泛化能力。迁移学习是一种有效的机器学习方法，它可以将从一个任务中学到的知识迁移到另一个相关任务中，从而加速新任务的学习过程并提升模型的性能。在这个方法中，通过将网络模型在公开室内空间点云数据集上进行预训练，再利用现场采集的数据进行训练与验证，可以有效地利用已有的知识，提升模型在新数据上的表现。

65、此外，该方法还通过构建双层级注意力机制增强的点云理解与分割网络模型，提高了对点云数据的理解和分割能力。注意力机制可以帮助模型在处理数据时，将更多的注意力放在重要的信息上，从而提高模型的性能。双层级注意力机制的引入，使得模型能够在不同的层次上关注不同的信息，进一步提高了点云理解与分割的准确性。

66、最后，该方法还注重网络模型的视觉解释性分析和参数化空间建模。这不仅可以提高模型的可解释性，让人们更好地理解模型的决策过程，还可以通过参数化空间建模，将解析结果以更为直观和可理解的方式呈现出来，为建筑空间的设计和优化提供有力的支持。

67、综上所述，这种建筑空间解析的深度视觉感知方法通过解决点云数据不完整问题、利用迁移学习提升模型性能、构建双层级注意力机制增强的网络模型以及注重模型的视觉解释性和参数化空间建模等方面，实现了显著的技术进步，为建筑空间的分析和设计提供了更为准确和高效的方法。