技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于类别语义监督的小样本目标检测系统及方法、计算机程序产品、存储介质及终端 > 正文

基于类别语义监督的小样本目标检测系统及方法、计算机程序产品、存储介质及终端

国知局
2024-07-31 22:52:51

本发明涉及计算机视觉领域，尤其涉及基于类别语义监督的小样本目标检测系统及方法、计算机程序产品、存储介质及终端。

背景技术：

1、目标检测是计算机视觉中一项重要而艰巨的任务。在自动驾驶、视频监控、智能交通等领域得到了广泛应用。它的主要目标是准确地识别出图像中所有感兴趣的物体的位置和类别。目前，目标检测方法通常可分为两大类。以faster r-cnn为代表的两级检测器，采用rpn(region proposal networks)来实现对前景区域的初始边界框建议，得到一系列目标的候选框(proposals)。然后对这些proposals进行roi(regions-of-interest)池化，从而能够提取框特征，用于后续的分类和每个proposals的边界框回归任务。另一个被广泛采用的概念以yolo算法为基础的单阶段的目标检测器。与两级检测器相比，单阶段检测器，提供了实现简单和检测速度更快的优点。这些方法直接密集地扫描图像，提取对象的类别概率和位置坐标。但是，它们相对于两阶段检测器普遍精度较低。所以为了提高结果的精度，本发明主要是基于两阶段的目标检测方法进行改进。

2、传统的小样本目标检测方法主要包括两种，分别是基于元学习的小样本目标检测方法和基于迁移学习的小样本目标检测方法。基于元学习的小样本目标检测方法通过编码查询集(query set)和支持集(support set)，然后基于支持集特征对具有查询特性的图像进行密集的可视化搜索。而基于迁移学习的小样本目标检测方法通常就是建立在两阶段的faster r-cnn上，使用预训练和微调的范式解决小样本场景下常常会发生的过拟合的问题，这种方法实现起来相对简单，但是却能得到很不错的结果，所以目前很多的小样本目标目标检测方法都是基于这种思路进行展开的。

3、传统的基于迁移学习的小样本目标检测方法采用微调的过程中，往往都忽略了在基类泛化到新类的过程中前景与背景的概念发生了转变这一问题。在基类进行预训练的过程中，基类物体被视为前景，此时如果新类出现在图像中，就会被视为背景。但是当使用新类进行微调的时候，上述前景与背景的概念发生了转变，新类变为了前景，而基类却成为了背景，这时大量基类图像训练的模型很难快速的泛化到新类。

技术实现思路

1、本发明的目的在于克服现有技术的问题，提供了一种基于类别语义监督的小样本目标检测系统及方法、计算机程序产品、存储介质及终端。

2、本发明的目的是通过以下技术方案实现：一种基于类别语义监督的小样本目标检测系统，该系统包括目标检测模型，包括第一骨干网络、区域建议网络、感兴趣区域池化网络以及分类回归模块，第一骨干网络与区域建议网络、感兴趣区域池化网络连接，且区域建议网络与感兴趣区域池化网络连接，感兴趣区域池化网络与分类回归模块连接，其特征在于，所述系统还包括：

3、类别语义监督模块，为文本编码器，用于对图像的前景文本标注进行编码处理得到语义向量；

4、将语义向量与第一骨干网络输出的特征图进行对齐处理，通过对齐处理后得到的特征图对区域建议网络的编码特征进行监督。

5、在一示例中，将第一骨干网络替换为第二骨干网络与第三骨干网络；第二骨干网络与区域建议网络连接，第三骨干网络与感兴趣区域池化网络连接。

6、在一示例中，第一骨干网络、第二骨干网络、第三骨干网络均包括依次连接的主干特征提取模块以及特征映射模块，主干特征提取模块用于提取图像浅层特征，特征映射模块用于获取图像类别敏感特征。

7、需要进一步说明的是，上述系统各示例对应的技术特征可以相互组合或替换构成新的技术方案。

8、本发明还包括一种基于类别语义监督的小样本目标检测方法，基于上述任一示例或多个示例所述系统进行实施，该方法包括以下步骤：

9、将数据集按照类别分为基类数据集、新类数据集；

10、采用基类数据集对类别语义监督模块进行训练；

11、采用基类数据集中基类图像对目标检测模型进行训练，训练过程中使用基类图像的类别信息输入类别语义监督模块得到语义向量，将语义向量与第一骨干网络输出的特征图进行对齐处理，通过对齐处理后得到的特征图对区域建议网络的编码特征进行监督；

12、采用新类数据集中新类图像对分类回归模块中的分类器层、分类器层，特征映射模块，微调过程中使用新类图像的类别信息输入类别语义监督模块得到语义向量，将语义向量与第一骨干网络输出的特征图进行对齐处理，通过对齐处理后得到的特征图对区域建议网络的编码特征进行监督，完成对目标检测模型的训练；

13、将待预测图像输入完成训练的目标检测模型，经过特征提取、候选区域生成、候选区域特征图提取、分类回归处理预测得到目标的类别信息以及位置信息。

14、在一示例中，对齐处理包括：

15、将语义向量进行拓展处理，使语义向量与第一骨干网络或第二骨干网络输出的特征图维度相同，再对语义向量、特征图进行拼接处理。

16、在一示例中，采用基类数据集对类别语义监督模块进行训练，包括：

17、对基类图像的前景目标进行文本标注；

18、对文本标注进行编码得到语义向量，并对基类图像进行特征提取得到特征图，再将文本特征以及特征图进行对齐处理，完成类别语义监督模块的训练。

19、在一示例中，文本标注用于模型训练阶段或者目标预测阶段，模型训练阶段文本标注用于注明前景目标对应的基类类别，目标预测阶段文本标注用于注明前景目标对应的基类类别或前景目标当前已知的所有新类类别。

20、需要进一步说明的是，上述方法各示例对应的技术特征可以相互组合或替换构成新的技术方案。

21、本发明还包括一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述任一示例或多个示例组合形成的所述基于类别语义监督的小样本目标检测方法的步骤。

22、本发明还包括一种存储介质，其上存储有计算机指令，所述计算机指令运行时执行上述任一示例或多个示例组成形成的所述基于类别语义监督的小样本目标检测方法的步骤。

23、本发明还包括一种终端，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行上述任一示例或多个示例形成的所述的基于类别语义监督的小样本目标检测方法的步骤。

24、与现有技术相比，本发明有益效果是：

25、1.在一示例中，本发明引入类别语义监督模块(category semantic supervisionmodule，cssm模块)对输入区域建议网络rpn的特征进行指导，进而解决小样本目标检测中原本存在的微调过程中前景背景的概念转换的问题，使得模型能够更快的适应前景背景概念的转变，进而能够在rpn的结构中输出更加合理的目标的候选框(proposals)，减少因前景背景概念的转变导致将基类误认为前景作为proposals进行输出进而导致最终检测精度降低的问题。

26、2.在一示例中，使用两个独立的骨干网络将输入区域建议网络rpn和感兴趣区域池化网络roi的特征进行解耦，在rpn的骨干网络backbone中，专注于提升对于proposals预测的准确性，而在roi的backbone中，专注于提升对proposals特征的提取，以此分别获得更加准确的特征表示，以此提升模型整体的预测性能。同时，使用双backbone的结构在一定程度上使得原本的特征表示更加充分，利用特征解耦的思想，避免了原本rpn和roi所带来的不同的学习目标的冲突，提升了学习速率。