技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于可变形注意力特征融合的小目标检测方法  >  正文

基于可变形注意力特征融合的小目标检测方法

  • 国知局
  • 2024-10-09 16:22:57

本发明涉及图像检测,具体的说,是一种基于可变形注意力特征融合的小目标检测方法。

背景技术:

1、在图像检测,尤其是图像中小目标检测领域,例如肺结节检测,由于肺结节的直径一般小于3cm,有些甚至只有几毫米大小,因此在检测中容易被忽略或者误认为是正常结构。而且,由于肺结节形态多样,呈现多尺度和多形态,不规则且边缘模糊,同时肺部组织本身含有大量细小的血管、支气管,会给肺结节的检测带来干扰,这些是目前进行肺结节检测精度较低的主要原因。

2、传统的肺结节检测方法主要基于人工提取的特征和分类器模型进行肺结节检测和识别,主要有引入多尺度滤波器来增强和检测肺结节;基于区域生长算法进行肺结节检测,有效提取肺结节,并且能够处理图像中的噪声和边缘模糊等问题;以及引入机器学习算法中的随机森林模型,通过分析图像中的局部区域,提取和肺结节相关的特征;训练决策树来实现肺结节的识别和检测等。这些方法易受人工因素的影响,并且对复杂结节的特征提取困难,存在很大的局限性。

3、随着深度学习的发展,基于卷积神经网络的方法也被引入了肺结节检测领域。网络结构一般基于二维卷积神经网络和三维卷积神经网络设计。三维的肺结节检测算法能够利用结节在三维空间中的上下文信息进行检测,但是由于需要处理三维体积的数据,存在模型训练时间很长,对计算资源要求高,且模型参数量巨大,数据样本需求大,容易过拟合等问题,导致检测效果不佳。目前二维肺结节目标检测算法都是基于深度学习的目标检测网路,如两阶段的faster-rcnn系列和单阶段的yolo系列。faster-rcnn框架应用于肺结节检测,进行了候选区域生成网络的优化,采用了密集连接网络进行特征提取,有效的传递和重用特征信息,但是由于网络结构的复杂性,难以满足肺结节检测的实时性要求。在单阶段肺结节检测算法中,主要有引入注意力机制和多尺度特征融合方法,来自动学习图像中的显著区域,提升肺结节的检测效果,但是没有对提取的肺结节特征在融合之前做进一步处理、减少无关冗余特征对检测结果的负面影响。

技术实现思路

1、本发明的目的在于提供一种基于可变形注意力特征融合的小目标检测方法,用于解决现有技术中的检测方法中存在对复杂结节特征提取困难、引入特征层融合时的冗余信息对检测结果产生负面影响、难以满足实时性检测要求或检测效果不佳的问题。

2、本发明通过下述技术方案解决上述问题:

3、一种基于可变形注意力特征融合的小目标检测方法,包括:

4、步骤s100、获取数据集并进行数据预处理;

5、步骤s200、构建基于可变形注意力机制的增强小目标肺结节检测网络模型;

6、步骤s300、训练基于可变形注意力机制的增强小目标肺结节检测网络模型;

7、步骤s400、将待检测图像输入训练好的基于可变形注意力机制的增强小目标肺结节检测网络模型,输出检测结果。

8、进一步地,所述步骤s100具体包括:获取肺结节目标检测数据集,通过腐蚀和膨胀分割原始图像中的肺部区域,再通过随机旋转、中心旋转、平移、裁剪、尺寸缩放的方式对数据集进行数据增强。

9、具体地:

10、获取肺结节ct图像构成数据集;每张肺结节ct图像包含胸部的多个轴向切片;

11、对肺结节ct图像进行标签类别标注,标签类别包括非结节区、<a mm结节区和>=amm的结节区,a为设定的结节长度;优选的,a取值为3。

12、根据结节所在位置的z轴坐标,获取单个结节的二维切片,重新用数据集的标注格式进行标注,再进行数据格式转换;

13、通过腐蚀和膨胀法对数据集进行了肺实质分割,仅保留整个肺部区域,得到图片样本,并划分为训练集、测试集和验证集;

14、对训练集进行mosaic数据增强、mixup数据增强和随机裁剪、翻转、缩放处理,最后使用k-means聚类算法对锚点anchor进行重新聚类,生成大小合适的锚点。

15、进一步地,所述步骤s200具体包括:

16、步骤s210、构建可变形注意力特征融合模块,用于图像的浅层特征和深层特征的针对性融合;

17、步骤s220、构建小目标检测层,用于检测目标的位置和类别信息。

18、在yolov7的基础上改进基于可变形思想和自注意力结合的特征融合方式,增加小目标检测层,构建增强小目标肺结节检测网络模型,模型具体包括:可变形注意力特征融合模块,用于图像的浅层特征和深层特征的针对性融合;小目标检测层,用于补充微小肺结节的有效丰富空间信息。

19、进一步地,所述可变形注意力特征融合模块包括浅层特征采样模块和注意力计算模块,其中:

20、由偏移网络构成浅层特征采样模块,偏移网络对输入的浅层特征x∈rh×w×c进行学习,其中h、w分别表示特征层的高度和宽度,c表示特征通道数,得到4组大小为的偏移域,2为通道数,表示每一个采样点在x方向和y方向上的偏移变量,通过双线性插值得到浅层特征采样点

21、浅层特征层中感兴点的提取,借助了可变形思想。由偏移网络对输入的浅层特征进行学习,得到多组采样点的偏移变量,再通过双线性插值的方式计算得出采样点在浅层特征中的位置,最后将感兴趣的特征点从浅层特征中提取出来。为了提高可变形采样点的多样性,为注意力机制提供不同层次的语义信息,本发明利用深度可分离卷积对特征通道进行分组,平均池化下采样层调整采样点的数量,最后调整通道数,为每个组生成在x,y方向的偏移量。以输入浅层特征x∈rh×w×c(h,w分别表示特征层的高度和宽度,c表示特征通道数)为例,设置分组数量g为4。通过偏移网络最终生成4组大小为的偏移域,通道数为2表示每一个采样点在x方向和y方向上的偏移变量,最终通过双线性插值得到采样点

22、深层特征由网络叠加层数更深计算得到,如采用四个elan层得到特征图,上面的分辨率更高,最下面的分辨率更小,由于特征提取程度更高,所以下面的尺寸更小的即深层特征。

23、将采样点和深层特征投入自注意力模块进行注意力计算,注意力模块参考一般的多头注意力机制(multi-headed self-attention mechanism,msa)设计。采样点的分组数和多头注意力的头数相对应,用x1∈rh×w×c表示输入的深层特征,x2∈rhg×wg×c表示输入的浅层特征采样点,其中hg、wg分别表示特征层的高度和宽度,通过映射,将深层特征x1和采样特征x2分别通过可训练的变换矩阵wq、wk和wv,得到计算注意力所需的q,k,v,计算过程如下:

24、q(x1)=x1wq,k(x2)=x2wk,v(x2)=x2wv

25、其中wq、wk和wv都是需要学习的权重矩阵;

26、q:query(查询):查询向量用于获取与其他向量的相关性。在注意力机制中,query表示我们关注的目标或需要进行比较的向量。

27、k:key(键)(k):键向量用于计算query和value之间的相似性。在注意力机制中,key用于衡量query与其他向量之间的关联程度。

28、v:value(值)(v):值向量包含了需要根据query进行加权聚合的信息。在注意力机制中,value表示我们希望根据query的重要性q来加权聚合的向量。

29、根据设定的分组数,将q、k、v按照分组数等分、得到每一个头head1,head2,……,headh对应的qi,ki,vi,h为头的数量,计算他们之间的注意力,计算注意力的公式如下:

30、

31、其中,qi、ki、vi分别对应query、key和value,qi将与每个ki匹配计算两个向量间的相关性,相关性越大,对应得到的注意力权重也越大,dki表示向量ki的长度,最后,将vi与对应的注意力权重加权求和,得到注意力机制的输出结果,然后将每组注意力加权的结果拼接,再通过可训练的权重矩阵wz进行融合,得到最终的多组注意力结果:

32、multihead(q,k,v)=concatenate(head1,head2,...,headh)wz

33、

34、其中,concatenate(.)表示所有组沿着深度维度进行拼接。

35、进一步地,所述小目标检测层的目标检测头由卷积层和线性层组成,先通过一个卷积层对输入特征图进行处理和特征提取,然后通过在不同尺度上应用池化操作实现在不同尺度上提取特征,捕捉不同大小的目标信息,再通过一个卷积层和两个线形层,输出四个特征层中每个特征点对应的预测边界框坐标、类别置信度以及类别信息。

36、进一步地,还包括步骤s230:对目标检测结果进行后处理操作,得到最终的目标检测结果。

37、进一步地,所述后处理操作包括:

38、非极大值抑制去除重复检测;

39、设置置信度阈值去除置信度较低的框;

40、再将每个保留下来的边界框,根据预测出来的类别置信度,分配给对应的类别,得到最终的目标检测结果。

41、进一步地,所述步骤s300中,基于步骤s100得到的数据集,基于输入步骤s200中构建的增强小目标检测网络模型,进行肺结节检测网络模型的训练,具体包括:

42、步骤s310、基于可变形注意力机制的增强小目标肺结节检测网络模型的分类损失和边界框回归损失均采用二元交叉熵损失函数及adam优化器,超参数设置为:整初始学习率为0.0001,总迭代次数为3300次,batch size为8,l2权重正则化为0.0005;每一轮的训练保存最佳模型;其中,边界框回归损函数计算公式为:

43、

44、其中,c表示预测框和真实框的最小边界矩形,b和bgt分别表示预测框和真实框的质心,ρ表示两个质心间的欧式距离,wc、hc表示边界矩形框c对应的宽度和高度,liou表示预测框和真实框的iou损失,wgt为真实框的宽度,hgt为真实框的高度;eiou损失函数分别计算对象框的长度和宽度,通过计算预测结果和实际结果之前的损失并通过反向传播算法不断优化模型的参数;

45、步骤s320、肺结节检测性能评价指标采用精确率precision、召回率recall和平均精度ap,其中:

46、

47、

48、

49、其中,tp表示真阳性即正确识别的真阴影像素的总数;fn表示假阴性即正确识别的真阴影像素的总数;fp表示误报即被错误识别为阴影像素的非阴影;tn表示真负数即正确识别的真非阴影像素的数量;

50、步骤s330、从数据集中获取到的数据输入至基于可变形注意力机制的增强小目标肺结节检测网络模型中,再利用反向传播算法,进行模型训练。

51、本发明与现有技术相比,具有以下优点及有益效果:

52、(1)本发明针对尺寸较小目标特征集中于浅层特征中的特点,在特征融合金字塔中增加了四倍下采样的检测层,补充原本检测层中遗漏的小目标的空间位置等信息,有助于提取和增强小目标的特征表示,提高小目标的检测准确性。

53、(2)本发明构建了可变形注意力特征融合模块,利用可变形卷积改善传统卷积特征学习的局部性问题,有效提取浅层特征中关键特征,减少引入特征层融合时的冗余信息,特别是对小目标检测异常关键的浅层特征层中大量的无关结构和背景信息,减少背景冗余特征的干扰,并且以注意力的方式增强特征融合效果,促进浅层特征和深层特征的有效融合,最大程度利用所学习的特征,提高小目标检测的精度和准确率。

54、(3)本发明通过增加小目标检测层,补充小目标丰富细节特征。

本文地址:https://www.jishuxx.com/zhuanli/20240929/312852.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。