技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于深度感知RGB多尺度融合网络的目标检测方法 > 正文

一种基于深度感知RGB多尺度融合网络的目标检测方法

国知局
2024-10-21 14:37:56

本发明属于深度rgb-d显著目标检测，具体涉及一种基于深度感知rgb多尺度融合网络的目标检测方法。

背景技术：

1、rgb-d是一种特殊的图像格式，其结合了传统的rgb(红、绿、蓝)彩色图像和深度(depth)图像。rgb图像提供了场景的颜色信息，而深度图像则提供了场景中每个点到相机的距离信息，这种结合使得rgb-d图像在三维感知、物体识别、姿态估计等应用中具有显著的优势。但如何检测显著性rgb-d是计算机视觉中的一个重要任务，这在许多如图像检索、视频分割、人物再识别以及视觉跟踪等应用中都是至关重要的。传统的显著性目标检测方法主要依赖于颜色、纹理等低层次特征，但在处理复杂背景和多变光照条件时往往表现不佳。

2、随着深度学习和多模态数据处理技术的发展，研究者开始探索如何结合rgb图像和深度图像的信息来提高显著性目标检测的准确性。rgb图像提供丰富的颜色和纹理信息，深度图像提供关于场景中物体的空间位置和几何结构的重要线索，多模态信息的融合使得模型能够更全面地理解场景，并更准确地定位显著目标。

3、简单地融合rgb和深度图像的特征并不足以解决所有问题。不同尺度的特征对于显著性目标检测具有不同的重要性。小尺度的特征可以捕捉目标的细节信息，而大尺度的特征则更关注于目标的整体结构和上下文信息。因此，如何有效地融合不同尺度的特征，使得模型能够充分利用各种尺度的信息，成为了一个关键的问题。

4、在将rgb和深度信息之间融合时，融合策略主要有三类：早期融合、多尺度融合和晚期融合。早期融合和晚期融合都是只将rgb和深度数据拼接一次，未能有效利用两者之间的相关性。更多的rgb-d目标检测方法采用多尺度融合策略。然而，其中大多数方法是直观的融合rgb和深度特征，而忽略了显著性任务的特征，当选择互补信息时没有针对性。同时，对输入进行编码的过程伴随着下采样，大量的信息在这个过程中丢失了。

技术实现思路

1、本发明所要解决的技术问题是针对上述现有技术的不足，提供一种基于深度感知rgb多尺度融合网络的目标检测方法，提出了一种新的基于u-net的显著性检测框架，设计了一个深度感知rgb特征优化模块(darfom)来明确消除背景干扰，并通过深度先验知识增强rgb特征，用一个多尺度注意力增强融合模块(msaefm)来更有效地的融合rgb和深度信息，同时在解码器网络中提出了双注意力引导模块(dagm)，采用双重注意力引导的多尺度融合网络，利用rgb和深度信息之间的互补性和相关性，可以在不增加太多参数的情况下更准确地滤除当前特征，进行更高效的提取和融合，提高在复杂背景或者不同光照条件下显著性检测的精度。

2、为实现上述技术目的，本发明采取的技术方案为：

3、一种基于深度感知rgb多尺度融合网络的目标检测方法，包括：

4、步骤1，分别在rgb分支和深度分支中，使用vgg19作为主干网络，对rgb图和深度图进行不同级、不同尺度的特征下采样，得到相应的rgb特征和深度特征；并在rgb分支中的每级下采样之后插入一个深度感知rgb特征优化模块darfom，利用原始深度图来增强rgb特征，得到最终的输出特征；

5、步骤2，基于多尺度注意力增强融合模块msaefm进行rgb特征和深度特征融合；

6、步骤3，双注意力引导模块dagm使用更深的特征来引导步骤2融合后的特征以进行进一步滤波；

7、步骤4，在步骤3基础上，利用sigmoid函数优化显著性区域检测，得到最终的检测目标。

8、为优化上述技术方案，采取的具体措施还包括：

9、上述的步骤1所述darfom利用原始深度图来增强rgb特征，得到最终的输出特征的过程如下：

10、(1)将原始深度图分解为t+1个区域，生成t+1个空间注意力掩码，步骤如下：

11、(2)将t+1个空间注意力掩码分配给rgb分支中的t+1个子分支，每个子分支处理与对应深度区域相关的图像信息，以精确整合rgb特征和深度信息，得到增强的rgb特征

12、(3)通过残差连接得到最终的输出特征：

13、

14、其中是rgb分支的第i级中的rgb特征图。

15、上述的(1)包括：

16、(1.1)将原始深度图转换为深度直方图，进而从直方图中挑选出t个最为显著的深度分布模式，这些模式各自对应一个深度范围，即t个深度间隔窗口；

17、(1.2)依据t个深度间隔窗口将原始深度图分割为t个不同的区域，而直方图中未被选中的剩余部分则构成一个附加的背景区域；

18、(1.3)对每个区域进行归一化处理，将其值域限定在[0,1]之间，从而生成t+1个空间注意力掩码。

19、上述的(2)包括：

20、(2.1)利用最大池化操作将掩码与的大小对齐：

21、pt＝maxpool(bt) (1)

22、其中是rgb分支的第i级中的rgb特征图；bt为第t个空间注意力掩模；

23、(2.2)利用对齐大小后的掩码pt与rgb特征得到增强的rgb特征：

24、

25、其中，表示逐元素乘法。

26、上述的步骤2中，对于第一级特征，采用串联操作将rgb特征和深度特征组合在一起，得到的组合特征即为第一级融合后的特征；

27、对于其他级特征，利用多尺度注意力增强融合模块msaefm进行融合，具体如下：

28、首先，使用将rgb特征和深度特征组合在一起，得到组合特征

29、然后，组合特征ci通过具有3×3内核的卷积层后进入四个分支和通道注意力分支，然后融合得到融合后的特征；

30、对于四个分支中后三个分支，每个分支中设有1×1内核的第一次卷积，用于改变特征通道的数量，还设置非对称卷积和扩张卷积，非对称卷积通过具有1×d和d×1内核的两层序列来近似平方核卷积层，各分支的扩张卷积扩张率不同。

31、上述的msaefm块中得到的融合后的特征为：

32、

33、其中ca表示通道注意力分支，c是具有3×3内核的卷积层；分别是通过四个分支得到的结果。

34、上述的步骤3所述双注意力引导模块dagm使用更深的特征来引导步骤2融合后的特征以进行进一步滤波，具体如下：

35、mi＝cat(li×fi,uli×fi) (6)

36、di＝c(mi×ca(mi)) (7)

37、式中li和uli分别表示学习的显著区域和未学习的区域，ca表示通道注意模块，di为双注意引导模块的输出，c为1×1核卷积层，mi包含学习到的显著性区域和在中尚未检测到的位置，i表示特征的级别。

38、上述的步骤4利用sigmoid函数优化显著性区域检测的方式为：

39、

40、uli＝1-li (9)

41、其中li和uli分别表示学习的显著区域和未学习的区域，i表示特征的级别。

42、本发明具有以下有益效果：

43、1)提出新的darfom模块，该模块首先对输入的深度图进行分解，将其划分为多个区域，然后根据深度分解的结果，将这些区域视为空间注意力图，当rgb特征图经过池化层后，使用相应的深度注意力掩码对rgb特征进行加权处理，确保rgb特征在darfom模块的指导下实现深度敏感增强，从而更加关注显著物体的区域，抑制背景干扰。

44、2)提出新的msaefm模块，该模块首先通过不同深度的网络层提取从局部细节到全局不同层次的特征，然后通过双重注意力机制对提取的特征进行融合，确保不同尺度的特征能够相互补充，使得网络能够捕获不同尺度的上下文信息，更好地适应不同大小和形状的显著对象，从而有助于更全面地理解图像内容，提升检测性能。

45、3)提出新的dagm模块，该模块首先对输入的深度图像进行有效的特征提取，然后通过引入注意力机制，生成注意力图，使模型能够关注重要的深度信息，抑制无关的噪声信息，使模型能够自动学习和强调与显著对象相关的深度特征，从而增强了对复杂背景和噪声的鲁棒性。