技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种图像信息辅助的三维物体检测方法 > 正文

一种图像信息辅助的三维物体检测方法

国知局
2024-08-22 14:52:23

本发明涉及一种三维物体检测方法，特别是一种图像信息辅助的三维物体检测方法。

背景技术：

1、本部分提供的仅仅是与本公开相关的背景信息,其并不必然是现有技术。

2、三维目标检测是在三维场景中，找出感兴趣的物体，并对物体的类型和姿态进行估计，对自动驾驶、即时定位与地图构建、增强现实等任务有着重要的意义。近年来，随着人工智能技术的快速发展、硬件计算能力的提升、以及三维传感器越来越广泛的应用，三维目标检测也逐渐受到了越来越多的关注。

3、尽管已有大量针对点云的目标检测算法被提出，然而这类以单一模态为输入的方法难以克服源于点云数据本身的缺陷。一方面受镜面反射以及物体遮挡等因素的影响，物体在点云中往往存在不同程度的缺失，较难保证空间上的连续性，另一方面由于缺少纹理等特征，形状相似但语义类别不同的物体在点云中往往具有较低的区分度。为了解决这些问题，引入图像信息进行辅助的方法受到了大量关注。相较于点云，图像提供了丰富的纹理和语义特征，有效地与点云特征形成了互补。

4、然而，引入多模态特征的同时也带来了新的问题。首先受点云自身的噪声以及图像特征提取过程中填充和池化模块的影响，依照点云与图像投影关系进行的图像特征提取过程往往存在很多噪声。其次，不同模态的网络对同一任务往往具有不同的泛化与过拟合平衡点，给不同模态之间的平衡带来了挑战。现有的多模态检测方法一方面忽视了特征提取过程的噪声，另一方面大都仅使用针对特征的中期融合或针对结果的后期融合方法，未能充分利用多模态带来的信息增益。

5、需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

1、发明目的：本发明所要解决的技术问题是针对现有技术的不足，提供一种图像信息辅助的三维物体检测方法。

2、为了解决上述技术问题，本发明公开了一种图像信息辅助的三维物体检测方法，包括如下步骤：

3、步骤1，对包含待检测三维物体的点云及其对应的图像分别进行特征提取；

4、步骤2，基于分块自注意力机制对点云和图像的特征进行融合，得到融合后的多模态特征；

5、步骤3，基于融合后的多模态特征，生成前景点掩码并以此进行偏重前景的多尺度特征提取，得到点云在不同分辨率下的特征图；

6、步骤4，生成目标检测提案，即基于三最近邻插值方法对不同分辨率下的特征图进行插值，使用多层感知机将插值得到的特征与多模态特征融合，并送入两阶段的检测模块，从而生成目标检测提案，完成所述的图像信息辅助的三维物体检测。

7、进一步的，步骤1中所述的进行特征提取，具体包括：

8、步骤1-1，对包含待检测三维物体的点云，进行初步特征提取，得到经过下采样后的点云子集，点云子集中包含各点的几何特征；

9、步骤1-2，使用特征提取网络，为与所述点云对应的图像生成包含语义和纹理信息的特征图；

10、步骤1-3，根据由相机内外参数确定的点云与图像的投影关系得到步骤1-1输出的点云子集中的各点在图像中的像素坐标，并使用双线性插值方法得到各点在步骤1-2输出的图像特征图上的图像特征。

11、进一步的，步骤1-2中所述的特征提取网络，由深度卷积网络构成的下采样部分以及由三层带有残差结构的转置卷积构成的上采样部分组成，其中：

12、下采样部分即骨干网络是任意在imagenet分类任务上进行训练后的深度卷积网络；

13、上采样部分，具体如下：从骨干网络各部分的输出中均匀选择四个分辨率依次降低的特征图用于构成上采样部分的输入，上采样部分在每两个特征图之间使用转置卷积进行上采样连接，并通过将转置卷积输出与下采样网络对应模块的原始输出拼接后使用单层卷积处理的方法进行跨层特征融合。

14、进一步的，步骤2中所述的基于分块自注意力机制对点云和图像的特征进行融合，具体包括：

15、步骤2-1，对步骤1-1中获得的各点的几何特征与步骤1-3中获得的各点的图像特征进行拼接，并使用单层卷积进行初步融合，得到初步融合的特征；

16、步骤2-2，将点云在空间上划分为多个存在重叠的区块；

17、步骤2-3，在每个区块内，基于自注意力机制进行块内特征聚合；

18、步骤2-4，对点云中的每个点，通过在其被划分到的所有区块中聚合得到的特征上取平均，得到该点的最终特征即聚合特征；

19、步骤2-5，对步骤2-1中得到的初步融合的特征使用单层卷积处理后作为残差与步骤2-4得到的聚合特征相加，即为融合后的多模态特征。

20、进一步的，步骤2-2中所述的将点云在空间上划分为多个存在重叠的区块，具体包括：

21、对于所述点云中的n个点，借助最远点采样得到m个块中心，再对每个块中心使用最近邻查找得到k个块内点；

22、分块过程中取m×k≥4n，并对每个块的最大半径进行限制，块内k个点中超出预设半径的部分不参与特征聚合。

23、进一步的，步骤3中所述的生成前景点掩码并以此进行偏重前景的多尺度特征提取，具体包括：

24、步骤3-1，对所述包含待检测三维物体的点云中的每个点，基于融合后的多模态特征，使用多层感知机生成前景概率预测，并基于预设阈值得到前景点分割掩码；

25、步骤3-2，使用掩码引导的采样方式对所述点云生成三个点数依次减半的不同尺度的子集；

26、步骤3-3，按照分辨率从高到低的顺序，依次在所述三个不同尺度的子集上进行特征提取，获得不同分辨率下的特征图。

27、进一步的，步骤3-2中所述的使用掩码引导的采样方式对所述点云生成三个点数依次减半的不同尺度的子集，具体包括：

28、依据前景点分割掩码将所有背景点坐标缩小预设比例，并移动到任意前景点附近，之后通过以三个不同的采样数目对调整后的点云执行最远点采样从而得到所述点云三个不同尺度的子集。

29、进一步的，步骤3-3中所述的进行特征提取，即使用改进的set abstraction结构依次对各尺度的子集进行特征提取。

30、进一步的，步骤3-3中所述的改进的set abstraction结构，具体包括：

31、步骤3-3-1，给定高分辨率的源点云以及低分辨率的目标点云，对目标点云中的各点依照球体半径查找从源点云中采样邻居点集；

32、步骤3-3-2，对每个邻居点集，基于邻居点与采样中心的局部偏移量生成偏移量编码并与各点原始特征相加，之后送入多层感知机处理；

33、步骤3-3-3，引入基于掩码的背景点特征屏蔽，即基于前景点掩码将每个邻居点集内的背景点特征置为零，并通过最大池化对每个邻居点集的特征进行合并得到目标点云中各点的特征。

34、进一步的，步骤4中所述生成目标检测提案，具体包括：

35、步骤4-1，以步骤3-3输出的三个不同分辨率下的特征图为特征源，以步骤1-1中下采样得到的点云子集的坐标为目标，通过三最近邻插值得到各点的不同分辨率的特征，并与步骤2-5得到的各点的多模态特征并联拼接后使用多层感知机融合处理的方式进行融合，得到融合后的点云；

36、步骤4-2，基于投票机制从步骤4-1输出的融合后的点云中，聚合得到一组可能为物体中心的关键区域，并通过步骤3-3中所述的改进的set abstraction结构对每个关键区域生成初始特征；

37、步骤4-3，基于互注意力机制以关键区域为查询以所述点云为键和值对每个关键区域的特征从物体语义层面进行强化，在关键区域之间应用自注意力机制对关键区域特征从场景语义层面进行强化，最后对每个关键区域基于强化后的特征给出初步检测结果；

38、步骤4-4，基于初步检测结果，使用rbg特征聚合模块进行条件于具体物体的几何特征聚合，以此对初步检测结果进行优化，得到最终的目标检测提案。

39、有益效果：

40、1)本方法引入了额外的图像信息对单一点云模态的特征进行补充，提高了目标检测的性能和鲁棒性。同时对图像特征的骨干网络具有很好的适应性，不需要其额外针对检测任务进行训练，且不对其网络结构做任何要求，能充分利用大量现有的在如图像分类等其它任务上经过完备训练的模型。

41、2)本方法提出了基于分块自注意力机制的特征融合方式。通过将完整点云拆分为多个区块，并在各区块内独立地应用注意力机制，有效降低了模态特征提取过程的噪声并强化了各点的语义信息，相较于直接对全场景应用自注意力机制的模式，有着更快的计算效率和更低的存储空间占用，同时限制了各点的注意力范围从而大大降低了网络训练难度。

42、3)本方法借助多模态的信息增益生成前景掩码，并基于此对set abstraction结构进行了改进，在让特征提取过程更加专注于前景区域的同时提升了网络对前景物体微小细节的建模能力，提高了算法的性能。

43、4)本方法从语义信息和几何结构信息两个层面考虑目标物体处的特征聚合，在提高了特征表示的鲁棒性的同时，显著提高了检测精度和效果。