技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于门控线性注意力机制的图像分类识别方法与装置  >  正文

基于门控线性注意力机制的图像分类识别方法与装置

  • 国知局
  • 2024-07-31 23:02:13

本发明属于计算机视觉领域,更具体地,涉及一种基于门控线性注意力机制的图像分类识别方法与装置。

背景技术:

1、在计算机视觉领域中,图像分类识别方法是最核心的研究方向,它会被用到各种视觉任务上作为底层的视觉处理器,支持各种应用。

2、然而目前的视觉基础网络设计都基于transformer和卷积神经网络(cnn)。传统的卷积神经网络(cnn)在提取局部特征方面表现优异,通过局部卷积操作和权重共享机制,cnn能够高效地捕捉图像的局部细节。然而,cnn的感受野是固定的,这限制了其对全局信息的捕捉能力。在处理需要全局上下文理解的任务时,cnn模型往往表现不佳。此外,随着网络深度的增加,计算复杂度和内存消耗也显著增加。transformer模型引入了自注意力机制,在自然语言处理和计算机视觉中取得了突破性进展。自注意力机制通过计算输入序列中每个元素与其他元素的相关性,能够捕捉全局上下文信息。然而,transformer的自注意力机制具有二次复杂度,即计算量随输入序列长度的平方增长,这在处理高分辨率图像时变得极为昂贵。尽管一些改进方法(如局部注意力和分层注意力)尝试降低计算复杂度,但它们在捕捉全局上下文信息方面仍然存在一定的不足。

3、现有图像分类识别方法受限于transformer和cnn的固有缺陷,无法提供高效的线性全局感知的能力,如何设计一个能够克服transformer和cnn缺陷,将二者的优点结合在一起的基础图像分类识别方法是一个至关重要且有待探索的命题。

技术实现思路

1、针对现有技术的缺陷及以上的改进需求,本方法旨在设计一种具有线性复杂度以及全局感受野的全新图像分类识别方法。本发明提供了一种经济的、高效、线性、全局的基于门控线性注意力机制的视觉基础网络。该方法主要依托于门控线性注意力机制,双向建模以及混合长短注意力机制编码模块。通过引入线性注意力机制,实现了不依赖于cnn的线性处理算子;通过引入方向敏感的双向建模,实现了对视觉序列全局上下文的感知;通过引入长短注意力机制,来使得模型能够感知二维局部的信息。该方法可以进行高效准确的图像分类识别。

2、为实现上述目的,本发明提供了一种基于门控线性注意力机制的图像分类识别方法,包括以下步骤:

3、(1)图像嵌入处理,包括以下子步骤:

4、(1.1)将待识别图像分块,铺平展开为图像序列;

5、(1.2)将图像序列输入到图像序列嵌入层中,处理得到图像特征序列;

6、(2)将图像特征序列输入到由vig基本处理单元堆叠构建成的图像基础处理网络得到新的图像特征序列,其中vig基本处理单元的处理过程包括以下子步骤:

7、(2.1)在局部信息编码层中对图像特征序列编码局部信息得到包含局部信息的图像特征序列;

8、(2.2)将包含局部信息的图像特征序列输入方向敏感的门控线性注意力层,通过门控线性注意力层得到包含1d全局信息的图像特征序列;

9、(2.3)将包含1d全局信息的图像特征序列输入到2d门控混合层,通过门控机制和1d全局信息进行动态混合得到动态混合的图像特征序列;

10、(2.4)将动态混合的图像特征序列输入到门控通道混合层,在通道层面对输入的图像特征序列进行混合特征,得到新的图像特征序列;

11、(3)将新的图像特征序列输入到池化层进行平均池化,将平均池化后的特征输入到线性层进行图片的类别预测。

12、本发明的一个实施例中,所述步骤(1.2)具体为:

13、将图像序列输入到图像序列嵌入层得到图像特征序列x∈rt×d,其中t是图片序列长度,d是特征通道数,r表示实数域。

14、本发明的一个实施例中,在所述步骤(2.1)具体为:

15、将图像特征序列输入到局部信息编码层,即x∈rt×d输入到3×3的分组卷积dwconv3×3中去,捕捉短期局部的2d信息,得到包含局部信息的图像特征序列xlocal=dwconv3×3(x)。

16、本发明的一个实施例中,所述步骤(2.2)具体为:

17、将包含局部信息的图像特征序列输入到方向敏感的门控线性注意力层,首先通过线性层输出查询q,键k,和值v矩阵,这些矩阵计算方式如下:

18、q,k,v=xlocalwq,xlocalwk,xlocalwv

19、其中和是可训练的权重矩阵,其中q=[q0,…,qt,…,qt-1],k=[k0,…,kt,…,kt-1],v=[v0,…,vt,…,vt-1],xlocal=[x0,…,xt,…,xt-1],qt,kt,vt,xt,表示特征序列q,k,v,xlocal中第t个特征,针对图片序列中的当前时刻t词元xt,计算方向敏感的门控:

20、

21、

22、其中,是正向门控,用于控制从前往后的信息流,是反向门控,用于控制从后往前的信息流,从而计算针对当前词元的正向反向的压缩状态:

23、

24、

25、

26、然后将当前的qt与压缩状态交互从而获得全局的感受野:

27、

28、

29、

30、得到最终的包含1d全局信息的图像特征序列ot。

31、本发明的一个实施例中,所述步骤(2.3)具体为:

32、将包含1d全局信息的图像特征序列输入到2d门控混合层,来动态的调整1d全局的信息o和2d局部信息xlocal的融合,首先通过线性层预测2d信息注入的比例:

33、g2d=sigmoid(xlocalw2d+b2d)

34、其中是可训练的权重,b2d是可训练的偏置,得到2d的门控g2d,最终将二者进行动态混合,得到动态混合的图像特征序列:

35、xhy=g2dxlocal+(1-g2d)⊙o。

36、本发明的一个实施例中,所述步骤(2.4)具体为:

37、将动态混合的图像特征序列xhy输入到门控通道混合层,混合不同通道的信息,首先通过线性层进行映射到y和z:

38、y,z=linear(xhy)

39、然后通过门控机制进行通道混合和线性变换得到最终的输出的新的图像特征序列xfinal:

40、xgate=y*z,

41、xfinal=linear(xgate)

42、本发明的一个实施例中,所述步骤(3)具体为:

43、将图像基础处理网络最后一层vig基本处理单元输出的图像特征序列xfinal∈rt×d进行池化,并使用线性层预测最终的类别分数:

44、ofinal=avgpool(xfinal)∈r1×d

45、y=sigmoid(ofinalwcls+bcls)∈r1×c

46、其中ofinal是池化后的特征,y是最终的类别置信度,c是类别数。

47、本发明的一个实施例中,所述方法还包括:核函数融合,将基础视觉处理单元中的双向注意力扫描融合到一个核函数中,以提高运行速度和减少显存占用。

48、按照本发明的另一方面,还提供了一种基于门控线性注意力机制的图像分类识别装置,包括至少一个处理器和存储器,所述至少一个处理器和存储器之间通过数据总线连接,所述存储器存储能被所述至少一个处理器执行的指令,所述指令在被所述处理器执行后,用于完成所述的基于门控线性注意力机制的图像分类识别方法。

49、总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有如下有益效果:

50、(1)准确度高:该发明针对基础图像分类识别方法模型设计引入多种门控机制,提供了鲁棒全局的空间感知能力;

51、(2)速度快:该发明提出的基于门控线性注意力机制的模型,计算量低,硬件感知程度高,通过减少存储搬运的cost可以得到大幅度加速;

52、(3)鲁棒性强:该发明在各种分辨率下都能获得优越的精度。

本文地址:https://www.jishuxx.com/zhuanli/20240730/195720.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。