技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于RGB-NIR多模态图像融合的识别方法及系统与流程 > 正文

一种基于RGB-NIR多模态图像融合的识别方法及系统与流程

国知局
2024-11-21 11:33:47

本发明涉及目标检测，具体涉及一种基于rgb-nir多模态图像融合的识别方法及系统。

背景技术：

1、近年来，随着高性能硬件的算力资源支持以及大规模可见光图像(rgb)数据集获取的便捷性，基于深度神经网络的计算机视觉技术可以准备引导机器人在正常光照情况下表现出不错的识别性能。然而，即使使用复杂环境的大规模rgb图像，在黑暗、待测物体的颜色纹理接近等复杂环境中准确检测目标仍然是一个具有挑战性的问题。

2、直观上，在白天场景下，rgb图像中的物体比红外图像中呈现出更加清晰的纹理信息。相比之下，在夜间场景下，红外图像可以提供比rgb图像更清晰的对象形状信息。因此，基于深度卷积网络的rgb-近红外(nir)多模态图像的融合已经获得了广泛研究。

3、根据多模态特征的融合区域的不同，多模态融合可分为早期融合、晚期融合和中期融合。在被输入到主干网络之前将多模态图像进行融合称之为早期融合，已有文献公开针对两种模态图像之间的弱对齐问题，提出了一种新颖的对齐区域的卷积神经网络。该方法仅通过近红外热图像的辅助，增强了目标在rgb图像中的特征显著性。然而，当不同模态图像中存在像素偏移时，早期融合方法容易产生过多的噪声。中间融合是一种特征级融合方法，在主干网络不同的特征提取阶段进行模态间的特征图融合。也有文献报道将rgb，红外和偏振图像分别作为输入提供给faster r-cnn(算法)的三个主干特征提取网络，然后将输出的特征图进行级联进行模态融合。结果表明，以多模态图像为输入的模型对复杂环境下的难识别目标具有较好的识别效果，但引入多个分支会导致检测速度下降。在后期融合方法中，两种模态的主干特征提取网络的参数是完全独立的，这使得整个网络最终无法学习到模态间的互补信息以及各模态的独有属性，进而使得模型效果有限。另有文献报道基于共享的faster r-cnn特征提取网络，在决策层融合了rgb-nir多模态图像的检测结果。与未融合的结果相比，对颜色相近的水果的检测准确率从81.6％提高到83.8％。但是，后期融合方法将每个独立的网络模型预测头输出的目标信息进行线性融合。此外，引入多个分支会导致检测速度下降。

4、rgb-nir多模态融合进行目标检测利用了模态间的互补信息，给许多应用领域带来一定的优势。然而，在一些现有方法中，rgb和nir图像并没有进行对齐，同一个目标在两种模态图像中具有不同的位置，因而部分错位的rgb-nir图像增加了融合的难度。

5、因此，迫切需要一种能够解决相似颜色物体以及能够在夜间场景下进行准确识别的网络，同时能够达到实时推理速度。

技术实现思路

1、(一)发明目的

2、本发明的目的是提供一种基于rgb-nir多模态图像融合的识别方法及系统，本方法通过采用两步优化融合rgb-nir特征以提高模型识别性能的设计，既继承了rgb网络结构的推理速度的实时性，又具有多模态图像融合的强大特征表征表现，本方法解决了相似颜色物体以及在夜间场景下进行准确识别目标物的问题，同时还能够达到实时推理速度。

3、(二)技术方案

4、为解决上述问题，本发明的第一方面提供了一种基于rgb-nir多模态图像融合的识别方法，包括以下步骤：

5、获取待识别物体的rgb图像和nir图像；

6、分别将所述rgb图像和所述nir图像依次经过卷积层和最大池化层处理，得到rgb特征图和nir特征图；

7、多次对所述rgb特征图和所述nir特征图进行特征提取以及双模态图像融合，得到最终的融合特征图；

8、根据所述最终的融合特征图，确定所述待识别物体；

9、其中，所述特征提取通过bottleneck模块进行，所述双模态图像融合通过双模态融合模块进行。

10、进一步的，所述双模态图像融合通过双模态融合模块进行，具体步骤包括：

11、分别将经过bottleneck模块特征提取的rgb提取特征和nir提取特征按照通道进行拼接，得到拼接后的rgb-nir的聚合特征；

12、对rgb-nir的聚合特征进行池化操作，获得通道维度上的全局嵌入特征，基于所述全局嵌入特征获得通道级注意力向量；

13、将所述通道级注意力向量与所述rgb提取特征相乘并进行逐元素相加，得到第一rgb特征图；

14、将所述通道级注意力向量与所述nir提取特征相乘并进行逐元素相加，得到第一nir特征图；

15、对所述第一rgb特征图和所述第一nir特征图进行通道维度拼接，形成高层输入特征图，再对所述高层输入特征图予以校正，得到校正后的高层输入特征图；

16、将所述校正后的高层输入特征图与所述rgb提取特征相乘并进行逐元素相加，得到第二rgb特征图；

17、将所述校正后的高层输入特征图与所述nir提取特征相乘并进行逐元素相加，得到第二nir特征图；

18、最后将所述第二rgb特征图和所述第二nir特征图进行逐元素相加，以获得融合特征图。

19、进一步的，所述多次对所述rgb特征图和所述nir特征图进行特征提取以及双模态图像融合，得到最终的融合特征图，具体包括：

20、利用第一bottleneck模块对所述rgb特征图和所述nir特征图进行特征提取，得到第一rgb提取特征和第一nir提取特征；

21、利用第二bottleneck模块分别对所述第一rgb提取特征和所述第一nir提取特征进行提取，得到第二rgb提取特征和第二nir提取特征；

22、利用双模态融合模块对所述第二rgb提取特征和所述第二nir提取特征进行第一次双模态图像融合，得到第一融合特征图；

23、利用第三bottleneck模块对所述第一融合特征图进行特征提取，得到第三rgb提取特征和第三nir提取特征；

24、利用双模态融合模块对所述第三rgb提取特征和所述第三nir提取特征进行第二次双模态图像融合，得到第二融合特征图；

25、利用第四bottleneck模块对所述第二融合特征图进行特征提取，得到第四rgb提取特征和第四nir提取特征；

26、利用双模态融合模块对所述第四rgb提取特征和所述第四nir提取特征进行第三次双模态图像融合，得到最终的融合特征图。

27、进一步的，所述利用第一bottleneck模块对所述rgb特征图和所述nir特征图进行特征提取，具体包括：对rgb的第一bottleneck模块和nir的第一bottleneck模块采用共享卷积核参数进行特征提取，所述第一bottleneck模块包括rgb的第一bottleneck模块和nir的第一bottleneck模块。

28、进一步的，所述bottleneck模块采用深度可分离卷积dsconv，所述深度可分离卷积dsconv的卷积核大小为1*1和3*3。

29、进一步的，所述基于全局嵌入特征获得通道级注意力向量具体包括：所述全局嵌入特征通过1×1卷积和sigmoid函数来生成通道级注意力向量。

30、进一步的，所述对所述第一rgb特征图和所述第一nir特征图进行通道维度拼接，形成高层输入特征图，再对所述高层输入特征图予以校正，得到校正后的高层输入特征图具体包括：

31、第一rgb特征图和所述第一nir特征图进行通道维度拼接，并采用1×1卷积来实现通道降维操作；

32、对所述高层输入特征图采用softmax函数作为校正系数以过滤不重要的特征。

33、进一步的，所述根据所述最终的融合特征图，确定所述待识别物体，具体包括：

34、将所述最终的融合特征输入到网络模型的输出头，得到预测输出结果；

35、构建损失函数对所述预测输出结果进行损失计算，得到最终筛选结果；

36、通过所述最终筛选结果确定所述待识别物体。

37、进一步的，所述损失函数的公式如下：

38、loss＝lrgbbox+lrgbcls+λ×(lnirbox+lnircls)，

39、其中，lrgbcls和lnircls分别是rgb图像和nir图像中预测结果的分类损失，lrgbbox和lnirbox分别是rgb图像和nir图像中的预测结果的位置偏移损失，λ是用于平衡rgb图像和nir图像预测结果之间损失的正则化平衡项。

40、进一步的，所述卷积层的卷积核大小为7*7,所述最大池化层的卷积核大小为3*3。

41、进一步的，所述第一bottleneck模块、所述第二bottleneck模块、所述第三bottleneck模块和所述第四bottleneck模块的堆叠次数分别为3次、4次、6次和3次。

42、本发明的第二方面提供了一种基于rgb-nir多模态图像融合的识别系统，包括：

43、获取模块，获取待识别物体的rgb图像和nir图像；

44、处理模块，分别将所述rgb图像和所述nir图像依次经过卷积层和最大池化层处理，得到rgb特征图和nir特征图；

45、融合模块，多次对所述rgb特征图和所述nir特征图进行特征提取以及双模态图像融合，得到最终的融合特征图；

46、识别模块，根据所述最终的融合特征图，确定所述待识别物体；

47、其中，所述特征提取通过bottleneck模块进行，所述双模态图像融合通过双模态融合模块进行。

48、本发明提供的基于rgb-nir多模态图像融合的识别方法及系统，具有如下有益效果：本发明通过多次对所述rgb特征图和所述nir特征图进行特征提取以及双模态图像融合，得到最终的融合特征图；其中，所述特征提取通过bottleneck模块进行，每一个bottleneck从底层到高层进行特征提取；双模态图像融合通过双模态融合模块(tfwf模块)进行，所述tfwf模块是基于一种通过两步优化融合rgb-nir特征以提高模型识别性能的思路，既继承了rgb网络结构的推理速度的实时性，又具有多模态图像融合的强大特征表征表现，充分利用两种图像的互补特性来帮助模型拟合的更好。最后再根据所述最终的融合特征图，确定所述待识别物体。本方法解决了相似颜色物体间以及在夜间场景下进行准确识别目标物的问题，同时还能够达到实时推理速度。