技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于两阶段注意力定位框架的细粒度图像分类方法及系统  >  正文

基于两阶段注意力定位框架的细粒度图像分类方法及系统

  • 国知局
  • 2024-09-11 14:19:44

本发明涉及图像处理,特别是涉及一种基于两阶段注意力定位框架的细粒度图像分类方法及系统。

背景技术:

1、细粒度图像分类任务是针对基本类别下的子类进一步分类,具有广泛的应用场景,例如食物选择和虫害预测,因而吸引了越来越多人的关注。与传统分类任务相比,它的核心难点是类间相似和类内相异。在不同光照、姿态和拍摄角度下,想要准确分辨这些子类,就变得更加困难。

2、而为了有效识别子类别的微小差距,早期的工作通常使用带定位标注的数据。但是人工标注的成本太高,而且容易出错。为了缓解这个问题,弱监督的模型框架应运而生,它仅仅只需要一个类别标签,就能够获得很好的性能。常见的弱监督模型通常使用局部定位方法,它主要通过识别识别部分的边界框来识别输入图像中的细微差异,但是这样会增加网络的复杂度,使网络难以训练。一些方法尝试将vision transformer(vit)使用到细粒度分类中当中,获得了很好的效果。但是目前基于vit的方法主要集中在高层上集成特征依赖关系,这导致模型容易受到底层背景信息的干扰。

3、因此,如何放大细粒度图片的特征信息和减小图像中与目标无关的背景信息干扰是本领域技术人员亟需解决的问题。

技术实现思路

1、有鉴于此,本发明为解决如何放大细粒度图片的特征信息和减小图像中与目标无关的背景信息干扰的问题,提供了一种基于两阶段注意力定位框架的细粒度图像分类方法及系统,便于有效剔除图像中与目标无关的背景信息,放大细粒度图像的类间差距,能够更准确地判断出基础类别下子类的具体类别。

2、为实现上述目的,本发明采取的技术方案为:

3、第一方面,本发明实施例提供一种基于两阶段注意力定位框架的细粒度图像分类方法,该方法包括以下步骤:

4、s1、构建两阶段的细粒度图像分类模型;构建的所述细粒度图像分类模型包括依次连接的数据处理模块、第一主干特征提取网络、注意力选择模块、第二主干特征提取网络和损失函数计算模块;

5、s2、通过所述数据处理模块使用两种划分模式对细粒度图像进行划分,得到不重叠补丁序列和重叠的补丁序列,并分别对每个序列合并一个类令牌;

6、s3、在第一阶段将划分后的不重叠补丁序列输入到第一主干特征提取网络,生成注意力分数和一个类令牌;

7、s4、在第二阶段使用所述注意力选择模块将得到的多层的注意力分数进行整合,通过位置转换并从相应位置中挑选重叠的补丁序列;

8、s5、将挑选的重叠补丁序列输入到复用参数的第二主干特征提取网络,获取更精细的类令牌和图像特征;

9、s6、利用所述损失函数计算模块基于两个阶段的类令牌和最终的图像特征作为训练损失的组成部分,并根据第二阶段的类令牌获得细粒度图像分类结果。

10、在一个可选的实施方式中,所述步骤s1中,所述细粒度图像分类模型的所述第一主干特征提取网络和所述第二主干特征提取网络均为基于transformer encoder的特征提取器;所述特征提取器包含12层,每一层包含归一化模块、多头注意力模块和多层感知器模块;所述多层感知器模块连接线性层以及gelu激活函数。

11、在一个可选的实施方式中,所述步骤s2具体包括:

12、所述数据处理模块使用卷积操作对图像进行划分嵌入,并且通过设置不同参数得到两种划分模式的补丁序列;当将卷积核和步长都设置成p,输入维度为原始图像的rgb维度,输出维度为嵌入维度d,得到不重叠补丁序列;当将步长设置成s,使s小于p,得到的重叠的补丁序列;划分嵌入完成后,分别对重叠的补丁序列和不重叠补丁序列合并一个类令牌;并分别在这两个序列之上添加一个参数化的位置嵌入;得到最终的重叠补丁序列输入和不重叠补丁序列输入。

13、在一个可选的实施方式中,分别在两个序列之上添加一个参数化的位置嵌入的具体操作为:

14、

15、其中,z0表示处理后的最终序列,xclass表示一个用于分类的可学习的类令牌,表示划分嵌入的第n个补丁,epos表示一个可学习的位置编码参数。

16、在一个可选的实施方式中,所述步骤s4具体包括:

17、s41、将第一阶段中第一主干特征提取网络输出的每层注意力分数进行平均,公式为:

18、

19、其中,al表示第l层的平均注意力分数,k表示注意力头的序号。

20、s42、从预设层的注意力分数开始,使用指数移动平均对注意力分数进行整合,公式为:

21、

22、其中,α表示补丁的选择比率,表示整合的前l层的平均注意力分数;

23、s43、在分数矩阵中只保留第一个类令牌的注意力分数;对分数进行排序操作,将得分高于预设值的补丁位置转化为重叠补丁序列的相应位置,对重叠补丁序列进行重新选择以作输入。

24、在一个可选的实施方式中,所述步骤s6中,损失函数计算模块的工作过程包括:

25、将第二阶段输出的类令牌与地面真实标签作交叉熵计算,得到第一损失;

26、将第二阶段输出的图像特征按照批次进行对比损失计算,得到第二损失;

27、利用第二阶段输出的类令牌监督第一阶段输出的类令牌,通过kullback-leibler散度计算得到第三损失;

28、将三个损失相加得到最终损失进行训练监督;在测试时,根据第二阶段的类令牌获得细粒度图像分类结果。

29、第二方面,本发明实施例还提供一种基于两阶段注意力定位框架的细粒度图像分类系统,应用上述的一种基于两阶段注意力定位框架的细粒度图像分类方法,进行细粒度图像分类,该系统包括:

30、模型构建模块,用于构建两阶段的细粒度图像分类模型;构建的所述细粒度图像分类模型包括依次连接的数据处理模块、第一主干特征提取网络、注意力选择模块、第二主干特征提取网络和损失函数计算模块;

31、图像划分模块,用于通过所述数据处理模块使用两种划分模式对细粒度图像进行划分,得到不重叠补丁序列和重叠的补丁序列,并分别对每个序列合并一个类令牌;

32、特征提取模块,用于在第一阶段将划分后的不重叠补丁序列输入到第一主干特征提取网络,生成注意力分数和一个类令牌;并在第二阶段使用所述注意力选择模块将得到的多层的注意力分数进行整合,通过位置转换并从相应位置中挑选重叠的补丁序列;将挑选的重叠补丁序列输入到复用参数的第二主干特征提取网络,获取更精细的类令牌和图像特征;

33、图像分类模块,用于利用所述损失函数计算模块基于两个阶段的类令牌和最终的图像特征作为训练损失的组成部分,并根据第二阶段的类令牌获得细粒度图像分类结果。

34、与现有技术相比,本发明至少具有如下有益效果:

35、本发明提供了一种基于两阶段注意力定位框架的细粒度图像分类方法及系统,本发明中充分结合深度学习的优势,通过构建两阶段的细粒度图像分类模型,利用模型中的数据处理模块、主干特征提取网络、注意力选择模块和损失函数计算模块,便于有效地定位图片的重要目标区域,通过位置变换提取更精细的底层特征,提供更全面的信息,减少了底层背景信息的干扰,进而有助于提高细粒度图像分类精度。

36、本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

37、下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。

本文地址:https://www.jishuxx.com/zhuanli/20240911/290204.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。