技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种用于高效定位目标的深度卷积神经网络注意力机制的制作方法 > 正文

一种用于高效定位目标的深度卷积神经网络注意力机制的制作方法

国知局
2024-07-31 23:06:26

本发明涉及计算机视觉注意力，具体指一种用于图像目标定位的深度卷积神经网络的注意力机制。

背景技术：

1、深度卷积神经网络是计算机视觉领域中重要的研究方向，在图像分类、目标检测、语义分割等领域中取得了很多重要的成果，并且出现了一系列的优秀模型，比如vgg[1]、resnet[2]、yolo[3]、mobilenet[4-5]等模型。设计更高效的模型结构仍是当前研究者要解决的重要问题[6-7]。

2、在深度卷积神经网络中，注意力机制可以帮助神经网络集中地关注重要的信息，同时减少对不重要信息的关注，从而使卷积神经网络获得更好的性能。最具有代表的se-net(se)[8]注意力机制，利用二维全局池化对特征图的空间进行压缩，然后在通道维度进行特征学习，为各种深度的卷积神经网络架构带来明显的性能提升。然而，se注意力只考虑对通道间信息的编码，忽略了特征图的空间位置信息。随后，注意力模块在这两个方向的发展很突出：(1)聚合通道特征的方式；(2)结合通道维度与空间维度的方式。具体而言，cbam[10]同时使用平均池化和最大池化在通道维度和空间维度上聚合特性。gcnet[18]是一种依靠自注意力机制、非局部网络和挤压-激励网络等技术的改进而得到的轻量级注意力网络。sa[19]在空间注意力与通道注意力的基础上，引入了特征分组与通道置换，得到了一种轻量型的注意力机制。cbam[10]，gcnet[18]、和sa[19]将空间注意和通道注意连续地结合起来。gsop[20]引入了二阶池化对整体图像进行高阶统计建模，增强了深卷积网的非线性建模能力。eca-net(eca)[21]采用了一个一维卷积滤波器来生成通道注意力权重，大大降低了se的模型复杂性。gsop[20]和eca[21]属于通道增强聚合的方式。然而上述的注意力网络中，要么缺乏对空间维度的长距离依赖；要么存在通道维关注对象的位置信息。虽然通过对通道的降维可以降低模型的复杂度，但它也破坏了通道及其权重之间的直接对应关系。

3、另外，bam[9]和cbam[10]，虽然在空间维度上提取注意力信息，但是他们不但无法对视觉任务所必需的长距离依赖性进行建模[11]，而且也降低输入特征图的通道维度。后来的coordinate attention(ca)[12]是通过将空间位置信息嵌入到通道注意力，使得移动网络利用位置信息在空间上捕捉长距离的相互关系，进而为许多卷积神经网络架构带来有效的性能提升。但是ca注意力同样降低了输入张量的通道维度，见图1，而且它应用在小模型上或者小bach size的模型训练中，往往会带来明显的伤害[13]，见表1和表2。

4、图片的空间维度含有很重要的位置信息，然而现有的注意力机制要么不能有效地利用空间信息，要么在利用空间信息的同时，却以降低通道维度为代价。

技术实现思路

1、本发明提供一种用于高效定位目标的深度卷积神经网络注意力机制，其在不对输入特征图进行通道降维的情况下，就能获得很好的空间维度的位置注意力预测，还能同时保持注意力模块的轻便。

2、本发明所采用的技术方案为：

3、一种用于高效定位目标的深度卷积神经网络注意力机制，该注意力机制为定位注意力local atention la，在空间维度上采用条形池化strip pooling来获取水平和垂直方向的特征向量，该向量具有丰富的目标位置信息；针对上述两个方向的特征向量，使用一维卷积分别对其进行局部交互，随后利用分组归一化group nomalization，gn和非线性激活函数sigmoid独立地再将其编码以生成相应方向的注意力，最后以乘积运算将其组合得到最终的定位注意

4、该注意力机制的具体实现：设一个卷积块的输出为其中c表示输入特征图的通道，h、w则表示输入特征图的高和宽，使用条形池化strip pooling在两个空间范围(h,1)和(1,w)分别沿水平方向和垂直方向对每个通道进行平均池化；公式(1)和公式(2)表示高度h处的第c个通道的和宽度w处的第c个通道的特征向量，

5、

6、使用一维卷积对两个方向的特征向量进行局部交互，再使用分组归一化gn和激活函数对其编码，就得到水平和垂直方向的位置注意力表示，见公式(7)和公式(8)；

7、yh＝σ(gn(fh(zh)))， (7)

8、yw＝σ(gn(fw(zw)))， (8)

9、其中，σ是非线性激活函数sigmoid；gn，group nomalization表示分组归一化；fh和fw表示一维depthwise convolution，作为水平和垂直方向的位置注意力表示；最后，通过公式(9)获得定位注意力块yc的输出；

10、yc＝xc×yh×yw， (9)。

11、更进一步的：

12、对于所述的fh、fw和gn的超参数配置为：kernel_size＝5，groups＝in_channels，num_group＝32；命名为la-b模块。

13、对于所述的fh、fw和gn的超参数配置为：kernel_size＝7，groups＝in_channels，num_group＝16；命名为la-t模块。

14、对于所述的fh、fw和gn的超参数配置为：kernel_size＝5，groups＝in_channels/8，num_group＝16；命名为la-s模块。

15、对于所述的fh、fw和gn的超参数配置为：kernel_size＝7，groups＝in_channels/8，num_group＝16；命名为la-l模块。

16、本发明提出基于深度卷积神经网络的定位注意力(la)模块，该模块可以准确捕获感兴趣区域的位置，保持输入特征图通道维数不变，并保留其轻量的特征，如图2所示。本发明在imagenet[15]、ms coco[16]、pascal voc[17]上的实验结果(如表4、表5和表6)表明，本发明的定位注意力(la)方法比当前最先进的方法具有更高的精度，同时在参数量和复杂度上具有非常好的竞争性。

技术特征：

1.一种用于高效定位目标的深度卷积神经网络注意力机制，其特征在于，该注意力机制为定位注意力localatention la，在空间维度上采用条形池化strip pooling来获取水平和垂直方向的特征向量，该向量具有丰富的目标位置信息；针对上述两个方向的特征向量，使用一维卷积分别对其进行局部交互，随后利用分组归一化group nomalization，gn和非线性激活函数sigmoid独立地再将其编码以生成相应方向的注意力，最后以乘积运算将其组合得到最终的定位注意力。

2.根据权利要求1所述的一种用于高效定位目标的深度卷积神经网络注意力机制，其特征在于，该注意力机制的具体实现：设一个卷积块的输出为其中c表示输入特征图的通道，h、w则表示输入特征图的高和宽，使用条形池化strip pooling在两个空间范围(h,1)和(1,w)分别沿水平方向和垂直方向对每个通道进行平均池化；公式(1)和公式(2)表示高度h处的第c个通道的和宽度w处的第c个通道的特征向量，

3.根据权利要求2所述的一种用于高效定位目标的深度卷积神经网络注意力机制，其特征在于，

4.根据权利要求2所述的一种用于高效定位目标的深度卷积神经网络注意力机制，其特征在于，

5.根据权利要求2所述的一种用于高效定位目标的深度卷积神经网络注意力机制，其特征在于，

6.根据权利要求2所述的一种用于高效定位目标的深度卷积神经网络注意力机制，其特征在于，

技术总结一种用于高效定位目标的深度卷积神经网络注意力机制，该注意力机制为定位注意力Local Atention LA，在空间维度上采用条形池化strip pooling来获取水平和垂直方向的特征向量，该向量具有丰富的目标位置信息；针对上述两个方向的特征向量，使用一维卷积分别对其进行局部交互，随后利用分组归一化Group Nomalization，GN和非线性激活函数Sigmoid独立地再将其编码以生成相应方向的注意力，最后以乘积运算将其组合得到最终的定位注意力。本发明在不对输入特征图进行通道降维的情况下，就能获得很好的空间维度的定位注意力，还能同时保持注意力模块的轻便。技术研发人员：徐伟,万毅受保护的技术使用者：北京三狮科技有限公司技术研发日：技术公布日：2024/7/29