技术新讯 > 计算推算,计数设备的制造及其应用技术 > 大规模三维点云场景的统一分割框架的构建方法 > 正文

大规模三维点云场景的统一分割框架的构建方法

国知局
2024-10-15 10:15:35

本发明涉及计算机图像识别及人工智能，特别涉及一种大规模三维点云场景的统一分割框架的构建方法，同时建立了3d点云的语义分割、实例分割和全景分割的端到端模型框架。

背景技术：

1、随着三维传感器技术的飞速发展，点云数据的分析正逐渐成为科学研究和应用领域的焦点。其中，点云语义分割旨在为点云场景中的每个点赋予明确的语义标签；实例分割返回一组单个对象的掩码；全景分割为每个前景对象预测一个掩码，并为每个背景点预测一个语义标签。分割技术在三维计算机视觉中占据重要地位，广泛应用于医学图像分析，智慧城市规划，环境监测等多个领域，同时也在自动驾驶、机器人导航等领域展现出巨大的应用潜力。

2、3d点云分割技术目前仍面临着严峻挑战。首先，与结构化数据相比，点云数据的非结构化和无序特性使得传统图像处理技术难以直接应用于点云数据，且点云数据的遮挡和密度不均等问题使得分割任务变得更加复杂。其次，现有点云分割方法大多基于体素化或投影方法，这些方法在处理大规模数据时成本高昂且效率低下。最后，当前点云的语义分割、实例分割和全景分割，三类分割任务所依赖的框架结构是完全不同的，语义分割方法依赖于u-net网络，实例分割方法将语义分割模型与基于聚类、目标检测或transformer解码器的聚合方案相结合。全景分割在二维图像中执行全景分割，然后将预测的掩码提升到三维空间并逐点聚合。现有的点云分割方法不能综合地对点云原有结构和关键特征进行有效提取，忽略了点云中相近物体间特征相似的问题，且所有分割任务的相似性和它们之间的隐含关系尚未有效利用。因此，迫切需要一种能够同时解决所有三类分割任务的模型框架，且满足实时性要求，高效处理大规模点云数据，并准确提取局部特征的统一、简单、有效的端到端模型框架。

3、总结：为了在三维点云场景中实现精确的语义、实例和全景分割，必须对现有的点云分割技术进行根本性的改进。本发明提出了一种创新的统一分割框架，通过融合多维特征、优化特征提取和聚合策略，以及引入高效的注意力机制，显著提升了分割的准确性和效率。

技术实现思路

1、本发明的目的在于提供一种基于多维特征融合的大规模三维点云场景统一分割框架的构建方法，解决了当前未能综合性地有效提取点云数据的原有结构和关键特征，忽略了相近物体间特征相似性问题，且未能充分利用不同分割任务间的相似性和隐含关系的技术问题。当前大规模点云数据场景分割存在的问题。本发明成功实现了对每个点的精确语义预测，极其适用于自动驾驶、机器人导航、城市规划和环境监测等领域，并为其提供了一种高效、统一且实用的点云分割解决方案。

2、本发明的上述目的通过以下技术方案实现：

3、基于多维特征融合的大规模三维点云场景的统一分割框架的构建方法的主要思想为：对于输入的原始点云，首先利用3d稀疏u-net提取点云的逐点特征，通过优化3d稀疏u-net中混合特征编码组件，混合双边增强组件和三元距离注意力池化，充分挖掘点云的颜色信息和空间信息，以提升局部特征的多样性和全面性。同时对原始点云输入进行几何分割，提取点云的超点信息，构建超点图。随后，将提取出的逐点特征与超点信息同时送入超点池化层，将同质相邻点分组为超点特征。将超点特征作为transformer解码器的键和值，同时将一组可学习的语义和实例查询作为输入，通过交叉注意机制捕获点云信息，并输出一组学习到的核，每个核代表一个单一对象掩码的实例标识或语义区域，最终构建点云场景中语义、实例和全景三个分割任务的统一模型框架。

4、s1、提取超点信息:通过无监督算法，将整个点云作为算法的输入，基于点云的k-最近邻邻接图，通过优化问题求解，将点云划分为几何上均匀的区域，分割成几何上简单且有意义的形状，称为超点；通过计算输入点云的对称voronoi邻接图来确定超点之间的邻接性以计算出超点图，提取点云的超点信息。

5、s2、提取和构建点云数据的多尺度特征：

6、s21、混合特征编码组件：该混合特征编码组件对点云中每个点的颜色和空间坐标信息进行编码，融合空间信息与颜色信息。编码公式如下：

7、

8、其中，gi和是点pi及其邻居点的绝对(x,y,z)坐标，ci和是点pi及其邻居点的颜色信息(r,g,b)，是级联运算，∥·∥表示计算得出的中心点与邻近点之间的欧几里得距离，mlp用于序列编码。经过mlp进一步结合点云的空间信息与颜色信息，对其进行更深入的映射变换，获得点云的混合特征。

9、

10、s22、混合双边增强组件：对每个点pi及其邻居点对应的语义信息fi和fik，构建了下式用来代表特征空间中的局部语义上下文：

11、

12、经过mlp操作，使其在维度降低的同时更突显高细粒度的局部语义。随后与进行级联，形成新的混合语义变量。为了更好地融合这些特征，对新的混合语义变量进行进一步的处理，优化其表示以及精准地捕捉混合特征的关键信息，得到了最终的混合特征表示：

13、

14、同样的，在加强局部语义上下文的同时，为局部语义引入了高细粒度的局部几何结构和颜色信息，进一步提高了局部语义特征对细节的感知能力，最终的局部语义特征表示如下：

15、

16、将增强的混合特征与增强的局部语义特征进行级联，形成混合双边增强特征，增强网络对局部特征的感知和提取能力。混合双边增强特征的表示如下：

17、

18、这种表示结合了局部几何结构、颜色信息和语义特征，显著提高了网络对局部特征的感知和提取能力，为点云的语义分割任务提供了更全面的信息。

19、s23、三元距离注意力池化：通过三元距离注意力池对局部邻域进行聚合，得到点云的逐点特征表示；通过注意力机制动态地调整不同点的特征权重，同时综合了空间几何距离、颜色欧氏距离和语义特征距离的影响。语义特征距离几何距离与颜色之间的欧氏距离的定义如下所示：

20、

21、其中，g(i)和g(k)是点pi及其邻居点的空间信息，c(i)和c(k)是点pi及其邻居点的颜色信息，f(i)和f(k)是点pi及其邻居点的语义信息，exp为指数函数，mean(·)代表平均函数，用于计算距离的均值。|·|是l1范数，||·||代表l2范数。将这三个距离值进行级联，同时使用两个参数λ1与λ2来动态调整与以处理其不稳定性，有效地平衡颜色信息和语义特征在整体距离计算中的影响。最终的三元距离表示为：

22、

23、λ1与λ2的取值均为0.1。将三个距离值与点云的混合双边增强特征进行级联，通过softmax操作计算注意分数。将学习到的注意力得分与对应的特征相乘，作为注意力加权特征。

24、

25、通过超点池化层将超点信息与逐点特征分组为超点特征，作为解码器的键和值，同时将一组可学习的语义和实例查询通过随机初始化作为输入，三者通过超点交叉注意机制捕获点云信息；采用分解匹配策略以端到端的方式训练来预测点云中每个点的语义标签，最终完成对整个场景中点云的语义、实例和全景分割。

26、s3、将同质相邻点分组为超点特征，通过超点交叉注意机制输出学习到的核，具体是：

27、s31、超点池化层：s1过程计算的超点与s2过程计算的点级特征同时送入超点池化层，通过对每个超点内的逐点特征进行平均池化，将同质相邻点分组，获得超点特征，同时可靠地将输入点云下采样为数百个超点，显着减少了后续处理的计算开销并优化了整个网络的表示能力。

28、s32、超点交叉注意力：考虑到超点的无序性和数量的不确定性，设计了超点交叉注意力机制，目的是利用transformer的自注意力(self-attention)和交叉注意力(cross-attention)机制来处理点云数据中的变量长度输入，同时捕获实例信息。利用s31步骤计算的超点特征和语义和实例查询向量z作为transformer解码器的输入，通过超点交叉注意力完成超点的特征提取，查询向量在训练前进行随机初始化。将transformer解码器堆叠至六层以扩大感受野范围。

29、s33、对于s31步骤计算的超点特征，通过线性变化将其映射为s′，前一层超点交叉注意力的输出作为下一层的查询向量，通过叠加点交叉注意机制捕获上下文信息，公式如下:

30、

31、其中为超点交叉注意的输出，是输入查询向量的线性投影，k和v为超点特征s′不同的线性投影，是超点注意力掩码，给定来自前一个预测头的预测超点掩码使用阈值τ过滤超点，公式如下：

32、

33、标志第j个超点的第i个查询向量，τ设置为0.5。

34、s4、采用分解匹配策略训练实例核，预测点云中每个点的语义标签；以端到端的方式训练实例核的方式如下：

35、给定s3中超点交叉注意力的输出使用两个独立的mlp来预测每个查询向量的分类pi,i∈1,…,kins，将真值标签分配表述为最优分配问题，在形式上引入成对匹配成本cik来评估第i个预测值与第k个真实值的相似性。cik由分类概率和超点掩码匹配代价决定，定义如下：

36、

37、其中pi,ck表示第i个预测值属于ck语义范畴的概率。λcls＝0.5，λmask＝0.5。超点匹配代价是二元交叉熵(bce)和带拉普拉斯平滑的dice损失的和:

38、

39、mi和分别是超点的预测掩码和地面真值掩码。根据超点内是否有超过一半的点属于该实例，为每个超点分配一个硬实例标签，在匹配代价为cik的情况下，使用匈牙利算法寻找预测值与真值之间的最优匹配，从实例和语义输出中获得全景分割结果，进行损失优化并最终完成对整个场景中点云的语义、实例和全景分割。

40、本发明的有益效果在于：

41、1、本发明创新性地提出了一种基于多维特征融合的统一分割框架，用于大规模三维点云场景的语义、实例和全景分割。与传统方法相比，本发明能够更全面地利用点云数据的颜色和空间信息，通过3d稀疏u-net和transformer架构的结合，有效地提取和聚合特征，提高了分割的精度和效率。

42、2、本发明的统一分割框架采用了编码器-解码器结构，通过优化的混合特征编码组件和三元距离注意力池化，以及超点池化层和超点交叉注意力机制，显著提升了对点云局部和全局特征的捕捉能力，增强了模型对复杂三维场景的理解。通过引入超点图的概念和超点池化技术，本发明能够在减少计算复杂度的同时，保持对点云细节的敏感性，这对于大规模点云数据的处理尤为重要，确保了算法的可扩展性和实用性。

43、3、本发明的方法在提高分割精度的同时，还具有较高的计算效率。通过精心设计的网络结构和损失优化函数，本发明能够在保持实时性的同时处理大规模点云数据，满足了实时分割的需求。同时具有良好的泛化能力和可扩展性。通过调整网络结构和参数，本发明的方法可以适应不同类型的点云数据和不同的应用场景，具有很高的实用价值和灵活性。

44、4、通过本发明的方法，可以有效地解决点云场景中语义、实例和全景的统一分割问题，这在三维计算机视觉领域具有重要的应用价值，能够为自动驾驶、机器人导航、城市规划等应用提供准确的三维环境理解。为三维点云数据处理提供了一种全新的解决方案，推动了相关技术领域的发展。