技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于多尺度和多维度特征融合的两阶段三维图像关键点检测方法 > 正文

基于多尺度和多维度特征融合的两阶段三维图像关键点检测方法

国知局
2024-08-19 14:27:05

本发明公开涉及计算机视觉领域，尤其涉及基于多尺度和多维度特征融合的两阶段三维图像关键点检测方法。

背景技术：

1、关键点检测是进行图像分析的关键步骤，其目标是在图像中识别和定位重要关键点及其坐标。卷积神经网络凭借其可自动提取浅层和深层特征的能力，已被证明具有良好的图像关键点检测性能。研究者们提出了一系列针对二维图像和三维图像的关键点检测模型，主要分为端到端和多阶段两类方法，且大多是基于编码器-解码器的卷积神经网络架构实现的，具有优秀的检测性能。

2、由于在三维图像中目标关键点仅占很小的部分，很难准确识别。同时，与二维图像相比，三维图像包含的信息量更大，这也意味图像中有大部分数据是无用的，不仅会对训练时的计算机造成巨大负担，也会影响网络对重点特征的识别与学习。

3、为减少关键点周边强度相近结构的干扰，先前的研究者引入图像处理中的特征融合方法以及自然语言处理中的注意力方法来尝试解决。特征融合方法能加强网络内部特征的信息交互，增强语义信息，减少错误定位情况。注意力方法则可使模型集中在重要的信息上而忽视不重要的信息，可有效提升检测性能。但图像中的注意力方法多数是仅针对二维图像设计，没有考虑三维图像增加了深度信息的特点，在三维模型中往往效果不佳。

技术实现思路

1、本发明的目的在于提供一种基于多尺度和多维度特征融合的两阶段三维图像关键点检测方法，充分利用网络中生成的特征信息，增强语义信息与位置信息，解决由于目标关键点在图像中占比小且与邻接结构强度相近导致的检测精度不足问题。

2、为实现上述目的，本发明包括如下步骤：

3、一种基于多尺度和多维度特征融合的两阶段三维图像关键点检测方法，其特征在于，使用两阶段策略与多尺度、多维度特征融合方法对三维图像进行关键点检测；所述方法包括如下步骤：

4、s1：对输入图像进行粗定位，提取感兴趣区域并裁剪图像，得到感兴趣区域图像；

5、s2：将所述感兴趣区域图像送入下采样网络，得到深度特征，再将深度特征送入多维度特征增强注意力，获得深层融合特征；

6、s3：将深层融合特征送入上采样网络，依次得到四个不同尺度的特征，再将四个不同尺度的特征同时送入多尺度特征融合优化模块增强语义信息，获得多尺度融合特征；

7、s4：将上采样得到的最大尺度特征送入多维度特征增强注意力，获得多维度融合特征；

8、s5：多尺度融合特征与多维度融合特征相乘，得到最终检测结果。

9、具体地，s1中首先将输入图像送入粗定位网络，获得包含所有目标关键点区域的三维中心点坐标，并根据中心坐标生成代表最大感兴趣区域的矩形块，最后使用矩形块对原图进行裁剪，得到感兴趣区域图像。

10、具体地，s2中将深度特征送入多维度特征增强注意力，获得深层融合特征：

11、s21:将输入的深度特征分别通过三个大小为(h，1，1)、(1，w，1)和(1，1，d)的池化核分解，得到三个具备方向信息的高度维度特征宽度维度特征和深度维度特征其中h、w和d分别代表三维图像的高宽深三个维度，该分解过程如公式(1)所示，

12、

13、s22：将三个维度特征先通过维度变换操作变为1×1×h、1×1×w和1×1×d尺度，然后沿深度维度将其拼接起来，再通过由两组卷积核大小为3×3×3的三维卷积和relu激活函数交替组成的卷积处理层生成新的权重，得到多维度中间特征如公式(2)所示，

14、

15、其中[,]d代表沿深度维度进行拼接，fconv为卷积处理层，p代表维度变换操作，δ为非线性激活函数relu；

16、s23:将多维度中间特征拆分、变换回三个维度特征，并将其两两相乘，得到多维度中间特征和尺度大小分别为h×w×1、h×1×d和1×w×d；

17、多维度中间特征和先分别通过维度变换操作变为1×w×d和h×1×d尺度，再分别将其中尺度相同的两组特征分别拼接，并通过卷积处理层生成新的权重，得到多维度中间特征和如公式(3)和(4)所示：

18、

19、

20、其中[,]w和[,]h分别代表沿宽度和高度维度进行拼接；

21、s23：多维度中间特征和经过拆分、变换得到四个中间特征和其中尺度相同的两对特征沿通道维度融合，并通过卷积核大小为1×1×1的三维卷积处理并扩张到到h×w×d大小，得到多维度中间特征和如公式(5)和(6)所示：

22、

23、

24、其中[,]c为沿通道维度进行拼接，f1为三维卷积，e为扩张操作；同时，中间特征依次通过卷积处理层、relu和扩张操作得到多维度中间特征该过程在公式(7)中给出，

25、

26、s24：如公式(8)所示，将多维度中间特征和沿通道维度拼接，经三维卷积处理后与多维度中间特征相乘融合，再与输入特征相乘，得到深层融合特征；

27、

28、具体地，所述的多尺度特征融合优化模块首先将输入的四个多尺度特征分别通过多个上采样层和下采样层得到四组不同尺度的共16个特征，然后将每组相同尺度的特征以并行的方式相加融合，得到多尺度中间特征和

29、接着对四个多尺度中间特征进行特征细化以增强语义信息，得到中间特征和如公式{i∈(1,4)}所示，其中up为上采样卷积操作，t代表激活函数tanh，f2代表卷积核大小为1×1×1的三维卷积，dsc为卷积核大小为7×7×7的三维深度可分离卷积。最后，四个经细化后的中间特征相加融合，再通过tanh函数激活后，得到最终的多尺度融合特征fs。

30、具体地，s3包括：

31、s31:将输入的四个多尺度特征分别通过多个上采样层和下采样层得到四组不同尺度的共16个特征深度特征；该过程使用的上采样层和下采样层的实现方法如公式(9)和(10)所示，

32、

33、

34、其中和分别代表上采样层和下采样层的输出特征；

35、up为上采样卷积操作，bn为批归一化，dsc为卷积核大小为7×7×7的三维深度可分离卷积，δ代表非线性激活函数relu；

36、s32:每组相同尺度的特征以并行的方式相加融合，得到多尺度中间特征和并通过对四个多尺度中间特征进行特征优化，细化位置信息，得到中间特征和如公式(11)所示，

37、

38、其中up为上采样卷积操作，t代表激活函数tanh，f2代表卷积核大小为1×1×1的三维卷积，dsc为卷积核大小为7×7×7的三维深度可分离卷积；

39、s33:将中间特征和相加融合，经tanh函数激活后，得到最终的多尺度融合特征，如公式(12)所示：

40、

41、具体地，s4中将上采样得到的最大尺度特征fm8s送入多维度特征增强注意力，获得多维度融合特征fd。

42、具体地，步骤s3和步骤s4得到的多尺度融合特征fs和多维度融合特征fd相乘融合，得到最终检测结果。

43、本发明提出了一种基于多尺度和多维度特征融合的两阶段三维图像关键点检测方法，可有效地克服由于目标关键点在三维图像中占比小且与邻接结构强度相近导致的检测精度不足问题。本发明方法的第一阶段使用三维u型网络定位目标区域中心，进而提取最大感兴趣区域，以减少周边无关结构的干扰，为第二阶段提供输入。第二阶段在三维编码器-解码器的网络架构中添加多维度特征增强注意力和多尺度特征融合优化模块，实现对关键点的准确识别与定位。多维度特征增强注意力多次融合特征图的高、宽、深三个维度特征，设置在编码器和解码器的输出之后，增强特征位置信息。多尺度特征融合优化模块则融合并细化解码器中每一层语义信息，得到的多尺度融合结果与作用在解码器输出后的多维度融合结果相乘，生成最终的检测结果。本发明可充分利用网络中生成的特征信息，增强并细化语义信息和位置信息，提升关键点检测性能。

44、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明的公开。