一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于注意力机制的红外单帧小目标检测方法

2022-11-23 18:04:22 来源:中国专利 TAG:


1.本发明属于图像处理与计算机视觉技术领域,特别涉及一种红外单帧小目标检测方法,可用于复杂背景下红外小目标的精确检测。


背景技术:

2.近年来,计算机视觉技术迅速发展,在各个领域得到了广泛应用。红外小目标检测作为计算机视觉技术的重要分支,由于红外传感器具有可全天候工作、抗干扰性能强、弹载方便等独特优势,使其在精确制导、武器制造、监控预警等方面有很高的应用价值。因此,红外小目标检测技术受到了世界各国专家学者的关注,成为了近年来的研究热点之一。
3.目前,红外小目标检测算法的关键问题是如何在具有复杂背景的红外图像中实现目标的准确定位和分割,提高检测率并降低虚警率。其主要检测算法分为传统的红外小目标检测算法和基于深度学习的红外小目标检测算法。
4.传统的红外小目标检测主要依赖于传统手工设计的特征进行检测,即将红外小目标建模为从背景中弹出的异常值,主要分为基于滤波器的方法、基于局部对比度的方法和基于低秩的方法,其中:
5.基于滤波器的方法,是直接从滤波后的图像中通过设定阈值进行目标分割,典型的方法如deshpande等人在max-mean and max-median filters for detection of small targets[c]//signal and data processing of small targets 1999.international society for optics and photonics,1999,3809:74-83中提出将max-mean和max-median滤波器应用于红外小目标的检测中;zeng等人在the design of top-hat morphological filter and application to infrared target detection[j].infrared physics&technology,2006,48(1):67-76中提出了top-hat滤波器,该方法利用数学形态学进行小目标检测,通过开操作去除图像中的小目标获取背景图像,再将原图像与背景图像做差即可实现小目标检测。这类基于滤波器的方法容易受到背景中的杂波和噪声的影响,检测鲁棒性差。
[0006]
基于局部对比度的方法,主要通过局部对比度处理以增强目标信号,提高检测精度。典型的方法如chen等人在a local contrast method for small infrared target detection[j].ieee transactions on geoscience and remote sensing,2013,52(1):574-581中通过获取红外图像的局部对比度图和计算当前位置与其周围区域的差异来达到增强目标或抑制背景的目的;han等人在a robust infrared small target detection algorithm based on human visual system[j].ieee geoscience and remote sensing letters,2014,11(12):2168-2172中基于hvs对比机制提出了改进的局部对比度度量,对红外小目标检测具有良好的鲁棒性。这类基于局部对比度的方法由于易受到边缘和噪声等因素的影响,导致误检率高。
[0007]
基于低秩的方法,是假设目标图像块是一个稀疏矩阵,背景是一个低秩矩阵,将小目标检测问题转化为优化问题以恢复低秩矩阵和稀疏矩阵,从而实现小目标检测。具有代
表性的有gao等人在infrared patch-image model for small target detection in a single image[j].ieee transactions on image processing,2013,22(12):4996-5009中提出的ipi算法;zhang等人在infrared small target detection via non-convex rank approximation minimization joint l2,1norm[j].remote sensing,2018,10(11):1821中提出的nram算法。该类方法存在的不足是:对像素值敏感、耗时较长。
[0008]
随着深度学习技术的兴起,基于深度学习的红外小目标检测方法已逐渐成为当前领域的研究热点,其具有强大的模型拟合能力,通过将大量数据输入卷积神经网络中进行训练以主动学习特征来达到检测小目标的目的,实现更好的检测性能。liu等人在image small target detection based on deep learning with snr controlled sample generation[j].current trends in computer science and mechanical automation,2017,1:211-220中第一次使用卷积神经网络进行红外小目标检测,该方法首先从一些云天图像中随机抽取背景部分,然后将随机生成的目标点添加到具有受控信噪比的背景中,再进行训练和测试实现小目标的检测;dai等人在asymmetric contextual modulation for infrared small target detection[c]//proceedings of the ieee/cvf winter conference on applications of computer vision.2021:950-959中提出了一个用于单帧红外图像小目标检测的公共数据集sirst,并设计了非对称上下文acm模块,该模块在sirst数据集上有良好的检测性能;同年,dai等人又在attentional local contrast networks for infrared small target detection[j].ieee transactions on geoscience and remote sensing,2021,59(11):9813-9824提出了注意力局部对比网络alcnet,该方法将卷积神经网络与常规的模型驱动方法相结合以突出和保留小目标的特征,进一步提升了检测性能。tong等人在eaau-net:enhanced asymmetric attention u-net for infrared small target detection[j].remote sensing,2021,13(16):3200中提出了一种增强的非对称注意力eaa,该方法通过在网络层内有效地执行空间和通道特征信息交换,实现上下文信息的有效融合,在sirst数据集上进一步提升了检测性能。但是这些基于深度学习的检测方法使用的注意力机制较为单一有限,且较少考虑到全局信息,没有将更有效的注意力进行融合应用在红外小目标检测上,在背景较为复杂的情况下,其检测结果中通常会出现大量虚警。
[0009]
综上所述,现有的单帧红外小目标检测算法主要存在以下不足:一是利用传统手工设计的特征算子进行检测导致算法模型泛化能力差,以致复杂场景下存在严重的误检现象;二是卷积神经网络模型其特征信息的提取受限于卷积核的视野之内,以致无法从有限的局部特征中结合全局信息提取更为有效的信息,导致红外小目标检测的检测率较低、虚警较高的现象。


技术实现要素:

[0010]
本发明的目的在于针对上述现有技术的不足,提出一种基于注意力机制的红外小目标检测方法,以提高红外小目标的检测率,降低虚警率,提升在复杂背景下的检测性能。
[0011]
为实现上述目的,本发明的技术方案包括如下:
[0012]
(1)从公开的红外小目标数据集中选择一组带标注的数据集,并依次进行在0.7~1.7范围内的随机放缩、随机裁剪或零填充操作,得到尺寸统一为480
×
480的训练集和测试
集;
[0013]
(2)在pytorch框架下构建多维度注意力感知网络mda-net:
[0014]
(2a)建立由一个浅层通道注意力子模块、一个深层通道注意力子模块和一个逐点注意力子模块组成的编码端解码端交互引导模块edig;
[0015]
(2b)建立由非局部注意力模块与非局部特征融合模块连接组成的虚警注意模块aff;
[0016]
(2c)选用现有的三个卷积操作单元、一个最大池化操作单元、两个上采样模块、十八个残差块构成一个八层编解码结构的主干网络;
[0017]
(2d)将两个(2a)中构建的edig模块、一个(2b)中构建的aff模块嵌入到八层编解码结构的主干网络中,组成pytorch框架下的多维度注意力感知网络,并将iou loss函数作为该网络的损失函数;
[0018]
(3)采用训练集及其标注信息通过梯度下降法对多维度注意力感知网络进行训练,得到训练好的多维度注意力感知网络;
[0019]
(4)将测试集输入到训练好的多维度注意力感知网络中,输出红外小目标检测结果。
[0020]
本发明与现有技术相比,具有如下有益效果:
[0021]
第一,本发明基于注意力机制建立多维度注意力感知网络mda-net模型,并在网络的编码端和解码端引入编码端解码端交互引导edig模块,通过对浅层和深层特征应用通道注意力块来筛选对目标贡献度较大的通道特征,提高了网络对小目标特征的有效学习,并使用逐点注意力对浅层特征的空间位置上下文信息进行聚合,利用自底向上的调制方式将其嵌入到深层特征中,可实现低级细节信息对高级语义信息的指导,有效恢复目标的全分辨率空间,提高红外小目标检测率。
[0022]
第二,本发明针对红外小目标所占像素少、缺乏清晰的纹理形状,在复杂环境下易受杂波和噪声干扰,目标检测任务中存在严重的漏检和误检问题,设计了虚警注意模块aff。该模块包括非局部注意力模块和非局部特征融合模块,由于非局部注意力模块在卷积和池化操作中引入非局部操作,有效跳出了局部感受野的限制,可实现全局特征的探索,获取丰富的上下文信息;同时由于非局部特征融合模块可获取深层特征与浅层特征之间的依赖关系,能够辅助高级特征更好地学习虚警信息,显著降低了检测虚警率。
[0023]
实验结果表明,本发明在不同场景下都能准确定位并分割小目标,在定量和定性结果中表现突出,鲁棒性较高,有效提高了红外小目标的检测率,降低了检测的虚警率,具有良好的检测性能。
附图说明
[0024]
图1为本发明的实现总流程图;
[0025]
图2为本发明中构建的编码端解码端交互引导edig模块结构示意图;
[0026]
图3为本发明中构建的虚警注意模块aff结构示意图;
[0027]
图4为本发明中构建的多维度注意力感知网络mda-net结构图;
[0028]
图5为用本发明和现有的红外小目标检测算法对红外小目标数据的检测效果对比图。
具体实施方式
[0029]
下面结合附图对本发明的实施例及效果作进一步说明:
[0030]
本实施例使用dai等人建立的单帧红外弱小目标图像数据集sirst进行红外小目标检测。
[0031]
参照图1,本实例的具体实现如下:
[0032]
步骤1:数据集预处理。
[0033]
为增强网络对不同尺度输入目标的处理能力,需要对数据集进行预处理,具体的实现如下:
[0034]
1.1)统计数据集中红外图像的尺寸,根据有99.9%的图像宽度和高度均在500以内的统计结果,选择输入图像的基础尺寸为512
×
512;
[0035]
1.2)将输入图像尺寸在512
×
0.7到512
×
1.7的范围内进行随机放缩;
[0036]
1.3)对随机放缩后的图像再随机裁剪或零填充操作,得到尺寸统一为480
×
480的训练集和测试集。
[0037]
步骤2:构建编码端解码端交互引导模块edig。
[0038]
参照图2,本步骤的具体实现如下:
[0039]
2.1)建立浅层通道注意力子模块和深层通道注意力子模块,如图2(a)所示,其中:
[0040]
所述浅层通道注意力子模块和深层通道注意力子模块结构相同,两者均包括全局平均池化层、两个全连接层、relu激活函数层和sigmoid函数层;
[0041]
该浅层通道注意力子模块的结构为:浅层输入端口

全局平均池化层

第一全连接层

relu激活函数层

第二全连接层

sigmoid函数层,sigmoid函数层的输出与该子模块原始输入特征相乘后,得到该子模块的输出结果;
[0042]
该深层通道注意力子模块的结构为:深层输入端口

全局平均池化层

第一全连接层

relu激活函数层

第二全连接层

sigmoid函数层,sigmoid函数层的输出与该子模块原始输入特征相乘后,得到该子模块的输出结果;
[0043]
2.2)建立逐点注意力子模块,如图2(b)所示,其中:
[0044]
所述逐点注意力子模块包括两个逐点卷积层、relu激活函数层和sigmoid函数层;
[0045]
该模块有浅层和深层两个输入端口、一个输出端口,其结构为:来自浅层的输入端口

第一逐点卷积层

relu激活函数层

第二逐点卷积层

sigmoid函数层,该sigmoid函数层的输出与该子模块来自深层的输入特征相乘,得到该子模块的输出结果;
[0046]
2.3)建立由一个浅层通道注意力子模块、一个深层通道注意力子模块和一个逐点注意力子模块组成的编码端解码端交互引导模块edig,如图2(c)所示,该edig模块的结构关系为:
[0047]
浅层通道注意力子模块和深层通道注意力子模块分别与逐点注意力子模块的浅层输入端口和深层输入端口对应连接,且该深层通道注意力子模块和浅层通道注意力子模块的输出结果逐像素相乘后与逐点注意力子模块输出的结果进行相加,相加后的结果即为编码端解码端交互引导edig模块的输出结果。
[0048]
步骤3:构建虚警注意模块aff。
[0049]
参照图3,本步骤的具体实现如下:
[0050]
3.1)建立由三条支路并行组成的非局部注意力模块,该模块有一个输入端口,一
个输出端口,如图3(a)所示:每条支路的结构为:输入端口

卷积层

reshape层,卷积核大小均为1*1,卷积步长均为1;
[0051]
该非局部注意力模块的输入为x,第1条支路的输出r1(f(x))与第2条支路的输出r2(f(x))相乘,得到第一矩阵:e(x)=r1(f(x))
·
r2(f(x)),式中,f(
·
)表示卷积操作,r(
·
)表示reshape操作;
[0052]
第3条支路的输出r3(f(x))与第一矩阵e(x)相乘得到第二矩阵:d(x)=r3(f(x))
·
e(x);
[0053]
将第二矩阵d(x)经过一次卷积核大小为1*1、卷积步长为1的卷积层得到输出特征f(d(x)),该输出特征f(d(x))与输入x逐像素相加,得到该模块的输出结果:y(x)=f(d(x)) x;
[0054]
3.2)建立由3条支路并行组成的非局部特征融合模块,如图3(b)所示,其中:
[0055]
第1条支路的结构为:深层输入端口

卷积层

reshape层,该卷积层的卷积核大小为1*1,卷积步长均为1;
[0056]
第2条和第3条支路结构相同,其依次为:浅层输入端口

最大池化层

卷积层

reshape层,该卷积层的卷积核大小为1*1,卷积步长均为1,最大池化层卷积核大小为1*1;
[0057]
深层输入端口的输入为xh,浅层输入端口的输入为x
l
,第1条支路的输出r1(f(xh))与第2条支路的输出r2(f(maxpool(x
l
)))相乘,得到矩阵:e(x
hl
)=r1(f(xh))
·
r2(f(maxpool(x
l
))),式中,maxpool(
·
)表示最大池化操作;
[0058]
第3条支路的输出r3(f(maxpool(x
l
)))与矩阵e(x
hl
)逐像素相乘得到模块最终的输出结果:y(x
hl
)=r3(f(maxpool(x
l
)))
·
e(x
hl
);
[0059]
3.3)将非局部注意力模块的输出端口与非局部特征融合模块的第1支路的深层输入端口连接组成虚警注意模块aff。
[0060]
相关非局部操作主要通过计算两个位置之间的相似度来捕获远程依赖性。常用的相似度函数主要有高斯函数、嵌入型高斯函数、点积相似度和级联函数等。本实例使用但不限于使用点积相似度函数进行计算。
[0061]
步骤4:在pytorch框架下构建多维度注意力感知网络mda-net。
[0062]
参照图4,本步骤的具体实现如下:
[0063]
4.1)选用现有的三个卷积操作单元、一个最大池化操作单元、两个上采样模块、十八个残差块构成一个八层编解码结构的主干网络,其前四层为编码层,后四层为解码层,各层结构如下:
[0064]
第一层:第一卷积操作单元

最大池化操作单元,其输出特征为8维,尺寸为240
×
240;
[0065]
第二层:第一残差块

第二残差块

第三残差块,其输出特征为16维,尺寸为240
×
240;
[0066]
第三层:第四残差块

第五残差块

第六残差块

第七残差块,其输出特征为32维,尺寸为120
×
120;
[0067]
第四层:第八残差块

第九残差块

第十残差块

第十一残差块,其输出特征为64维,尺寸为60
×
60;
[0068]
第五层:第一上采样模块

第十二残差块

第十三残差块

第十四残差块

第十
五残差块,其输出特征为32维,尺寸为120
×
120;
[0069]
第六层:第二上采样模块

第十六残差块

第十七残差块

第十八残差块,其输出特征为16维,尺寸为240
×
240;
[0070]
第七层:第二卷积操作单元,其输出特征为4维,尺寸为240
×
240;
[0071]
第八层:第三卷积操作单元,其输出特征为1维,尺寸为240
×
240;
[0072]
所述第一卷积操作单元、第二卷积操作单元的卷积核大小均为3*3,步长均为1;第三卷积操作单元的卷积核大小为1*1,步长为1;
[0073]
所述最大池化操作单元的卷积核大小为3*3,步长为2;
[0074]
所述两个上采样模块,其卷积核的大小均为4*4,步长均为2;
[0075]
所述十八个残差块卷积核大小均为3*3,步长均为1;
[0076]
所述第四残差块和第八残差块均包含两个卷积层和一个平均池化层;其余残差块均由两个卷积层组成;
[0077]
4.2)在八层编解码结构的主干网络中嵌入编码端解码端交互引导edig模块和虚警注意模块aff模块,具体实现如下:
[0078]
edig1模块的浅层通道注意力子模块与主干网络中第二层的第三残差块相连接,edig1模块的深层通道注意力子模块与主干网络中第六层的第二上采样模块相连接,edig1模块的输出端口与主干网络中第六层的第十六残差块相连接;
[0079]
aff模块中的非局部注意力模块与主干网络中第三层的第七残差块相连接,aff模块中的非局部特征融合模块与主干网络中第二层的第三残差块相连接,非局部特征融合模块的输出端口分别与主干网络中第四层的第八残差块和edig2模块的浅层通道注意力子模块相连接;
[0080]
edig2模块的深层通道注意力子模块与主干网络中第五层的第一上采样模块相连接,edig2模块的输出端口与主干网络中第五层的第十二残差块相连接。
[0081]
步骤5:采用训练集及其标注信息通过梯度下降法对多维度注意力感知网络进行训练。
[0082]
本步骤的具体实现如下:
[0083]
5.1)将红外小目标训练集与其对应的标注数据按批量大小平分为多个配对的图像组,并将第一图像组输入到多维度注意力感知网络mda-net,得到网络各卷积操作的权值和偏置值以及网络预测的结果;
[0084]
5.2)根据网络预测的结果和红外图像的标注数据,通过网络的损失函数计算其损失值:
[0085][0086]
其中,p
i,j
表示网络在i行j列的预测结果,t
i,j
表示红外图像在i行j列的标注数据,p表示一组图像的网络预测结果,t表示一组图像的标注数据,l
iou
(p,t)表示在网络预测结果p和标注数据t这组数据下的网络损失值;
[0087]
5.3)利用nesterov accelerated gradient算法更新梯度方向,以最小化损失函数值作为目标,更新网络中的参数,得到一次参数更新后的多维度注意力感知网络;
[0088]
5.4)将第二图像组输入至一次参数更新后的多维度注意力感知网络,重复步骤5.1)至5.3),得到二次参数更新后的多维度注意力感知网络;以此类推,直至最后一组图像组输入至前一次更新后的多维度注意力感知网络,得到一次训练后的多维度注意力感知网络;
[0089]
5.5)将所有图像组依次输入至完成一次训练后的多维度注意力感知网络,重复步骤5.1)至5.4),得到二次训练后的多维度注意力感知网络;以此类推,直至所有图像组均被输入1200次,得到训练好的多维度注意力感知网络。
[0090]
步骤6:将测试集输入到训练好的多维度注意力感知网络中,输出红外小目标检测结果。
[0091]
本发明的效果通过以下仿真进一步说明:
[0092]
一.测试条件
[0093]
数据:采用dai等人提出的sirst数据集;
[0094]
实验平台:cpu为intel(r)core(tm)i7-7500u@2.70ghz,8gb ram,操作系统为ubuntu18.04,显卡使用rtx 2080,cuda版本为10.2,pytorch版本为1.10;
[0095]
参数设置:本发明训练批量大小设置为32,学习率设置为0.05,共训练1200轮;深度学习方法u-net算法、acm-u-net算法、alcnet算法的参数设置与原论文相同;传统方法top-hat算法、max-median算法、fkrw算法、ipi算法的参数设置如下表1。
[0096]
表1传统方法中的超参数设置
[0097][0098]
二.仿真测试内容
[0099]
测试1:使用top-hat算法、max-median算法、fkrw算法、ipi算法、u-net算法、acm-u-net算法、alcnet算法和本发明共8种方法分别对sirst数据集进行红外小目标检测,并计算其交并比iou、归一化交并比niou、检测率pd、虚警率fa和参数量params这5种客观评价指标,结果如表2:
[0100]
表2不同算法检测指标对比
[0101]
[0102][0103]
表2种各指标的计算公式如下:
[0104][0105][0106][0107][0108]
params=(2
×ci
×
w2)
×co

[0109]
式中,tp为预测为正样本的正样本数量,fp为预测为正样本的负样本数量,tn为预测为负样本的负样本数量,fn为预测为负样本的正样本数量,t为预测正确的数量,p为正样本总数,n为样本总数,w为卷积核的大小,ci为输入通道数,co为输出通道数。
[0110]
从表2可见,本发明在iou、niou、pd、fa指标中都取得了最好的表现,提高了检测率pd,显著降低了虚警率fa,且参数量params也低于u-net算法、acm-u-net算法,仅略高于alcnet算法。
[0111]
测试2:使用top-hat算法、max-median算法、acm-u-net算法和本发明共4种方法分别对sirst数据集进行红外小目标检测,结果如图5。其中:
[0112]
图5(a)为4种方法的检测结果3d图;
[0113]
图5(b)是4种方法的检测结果平面图,图框标注为检测出的目标,图像的右下角为放大图,以便更直观地呈现精细分割结果,虚线圆圈表示误检区域。
[0114]
从图5可见,传统方法top-hat算法、max-median算法在复杂场景中容易产生多个误检和漏检,这是由于传统方法的性能严重依赖于手动提取的特征,无法适应目标尺度和场景的变化。acm-u-net算法与传统方法相比的性能虽然提升很大,但是该方法在前三幅图中依旧存在误检现象。本发明方法不但能够实现目标的精准定位,而且几乎可以达到零误检的检测性能。
[0115]
由此可见,本发明提出的mda-net网络对目标大小和场景变化具有非常高的鲁棒性,获得了最佳的检测性能,能够在提高检测率的同时有效降低虚警率。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献