技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于转换器模型的多尺度感知模型、目标识别方法及相关设备与流程 > 正文

基于转换器模型的多尺度感知模型、目标识别方法及相关设备与流程

国知局
2024-09-14 14:36:17

本公开涉及计算机，尤其涉及一种基于转换器模型的多尺度感知模型、目标识别方法及相关设备。

背景技术：

1、视觉转换器模型(visual transformer，vit)是将转换器模型(transformer)应用到图像分类上的模型。transformer采用自注意力机制(self-attention)，使得模型在处理单个像素点时，能获得其他所有像素点的信息，更好地获取图片的全局结构。

2、随着深度学习的不断发展，近年来涌现了大批量优秀的预训练模型。这种在大规模数据上训练得到的预训练模型，能够学习到普适的特征，有强大的泛化能力，基于这类预训练模型执行下游图像分类任务，通常比从头训练一个小模型效果更佳。而且由于参与训练的参数量减少，迭代速度也更快。但是，对预训练模型的大部分训练都是基于模型输出的全局特征做微调，因此，在小目标的识别上往往效果不佳。而针对小目标的识别，可能会考虑训练分类模型，但是训练数据标注成本高，且增加类别需要重新训练分类模型，迭代成本高。

技术实现思路

1、有鉴于此，本公开的实施例提供一种基于转换器模型的多尺度感知模型、目标识别方法及相关设备，可以在图像的分类任务中实现多尺度目标识别，特别是在小目标的识别上具有较佳的效果。此外，上述基于转换器模型的多尺度感知模型还具有训练参数量小、迭代速度快以及迭代成本低等特点。

2、本公开实施例所述的基于转换器模型的多尺度感知模型可以包括：

3、图像特征抽取网络，包括：由多级注意力模块堆叠而成的编码器，用于基于输入的待识别图像输出由所述多级注意力模块提取的多个图像块令牌(patch token)序列；

4、特征融合网络，用于将所述多个patch token序列进行融合，得到融合后的目标patch token序列；以及

5、至少一个卷积分类头网络，用于对所述目标patch token序列进行目标识别，得到所述待识别图像中至少一个目标对象及其对应的识别结果。

6、在本公开的实施例中，所述图像特征抽取网络包括：

7、图像切分模块，用于将所述待识别图像切分为多个图像块(patch)；

8、线性映射模块，用于分别对所述多个patch进行线性映射，得到所述多个patch对应的特征向量(embedding)；以及

9、编码器，包括多级堆叠的注意力模块，用于对所述多个patch对应的embedding进行编码，分别得到所述多级注意力模块中各个注意力模块提取的patch token序列。

10、在本公开的实施例中，所述图像特征抽取网络通过经过预训练的基于转换器(transformer)的图像分类模型实现。

11、在本公开的实施例中，所述特征融合网络用于采用相加的方式对所述多个patchtoken序列进行融合或者采用特征维度拼接的方式对所述多个patch token序列进行融合。

12、在本公开的实施例中，所述特征融合网络包括：

13、patch token序列选择模块，用于从所述多个patch token序列选择候选patchtoken序列；以及

14、融合模块，用于将所选择的候选patch token序列进行融合，得到所述目标patchtoken序列。

15、在本公开的实施例中，所述卷积分类头网络包括：由多个卷积模块堆叠而成的分类网络；以及全连接层。

16、在本公开的实施例中，所述卷积模块为残差块residual block；或者，所述卷积模块为密集块dense block。

17、对应上述基于转换器模型的多尺度感知模型，本公开的实施例还公开了一种目标识别方法。上述目标识别方法可以包括：提取输入的待识别图像对应的多个patch token序列；将所述多个patch token序列进行融合，得到融合后的目标patch token序列；以及对所述目标patch token序列进行目标识别，得到所述待识别图像中至少一个目标对象及其对应的识别结果。

18、在本公开的实施例中，提取输入的待识别图像对应的多个patch token序列包括：基于经过预训练的基于transformer的图像分类模型的图像切分模块将所述待识别图像切分为多个patch；基于经过预训练的基于转换器transformer的图像分类模型的线性映射模块分别对所述多个patch进行线性映射，得到所述多个patch对应的embedding；以及基于经过预训练的基于转换器transformer的图像分类模型的编码器利用多级堆叠的注意力模块对所述多个patch对应的embedding进行编码，分别得到所述多级注意力模块中各个注意力模块提取的patch token序列。

19、在本公开的实施例中，将所述多个patch token序列进行融合包括：采用相加的方式对所述多个patch token序列进行融合或者采用特征维度拼接的方式对所述多个patchtoken序列进行融合。

20、在本公开的实施例中，将所述多个patch token序列进行融合包括：从所述多个patch token序列选择候选patch token序列；以及将所选择的候选patch token序列进行融合，得到所述目标patch token序列。

21、在本公开的实施例中，将所选择的候选patch token序列进行融合包括：采用相加的方式对所述多个候选patch token序列进行融合或者采用特征维度拼接的方式对所述多个候选patch token序列进行融合。

22、在本公开的实施例中，对所述目标patch token序列进行目标识别包括：基于卷积分类头网络对所述目标patch token序列进行目标识别；其中，所述卷积分类头网络包括：由多个卷积模块堆叠而成的分类网络；以及全连接层。

23、此外，本公开的实施例还提供了一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述目标识别方法。

24、本公开的实施例还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使计算机执行上述目标识别方法。

25、本公开的实施例还提供了一种计算机程序产品，包括计算机程序指令，当所述计算机程序指令在计算机上运行时，使得计算机执行上述目标识别方法。

26、本公开实施例所述的基于转换器模型的多尺度感知模型、目标识别方法及相关设备中使用的卷积分类头网络采用了卷积结构，因而对图像局部信息具备较强的感知能力，而使用的图像特征抽取网络采用转换器模型结构，因而具有很强全局归纳建模能力。因此，本公开实施例提供的基于转换器模型的多尺度感知模型、目标识别方法以及相关设备可以同时具备全局信息以及具备信息的感知能力，从而可以实现多尺度的目标识别，且对于大小目标均具有较好的性能。

27、此外，上述图像特征抽取网络可以通过经过预训练的基于转换器模型的网络实现，因而具有强大的泛化能力。而且，由于上述图像特征抽取网络不参与训练，因此，在本公开的实施例中，无论是模型的训练成本以及迭代成本都很低。

28、进一步，由于上述图像特征抽取网络不参与训练，在部署上述基于转换器模型的多尺度感知模型时，还可将训练好的多个卷积分类头网络合并在一起、共享一个骨干网络，从而构造一个多分类模型，这种构造方式可以在基本不增加推理成本的情况下支持多个类别，同时新增类别不会对已有类别产生影响，这极大程度上降低了部署资源的成本以及模型迭代的成本。