技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于跨模态提示学习的红外目标小样本检测方法与流程 > 正文

基于跨模态提示学习的红外目标小样本检测方法与流程

国知局
2024-08-30 14:28:50

本发明涉及环境检测，具体涉及一种基于跨模态提示学习的红外目标小样本检测方法。

背景技术：

1、挥发性有机化合物(vocs)气体的泄露和排放是造成大气污染的主要元凶之一，且vocs化学性质活泼，易发生爆炸对我们的生命财产造成威胁。因此，有效的对工业vocs气体的检测和治理是目前环境保护的主要课题之一。将红外成像与深度学习两者结合的检测方法已经取得了很好的成效。但在实际的应用场景中依旧存在着许多挑战，例如，高质量工业vocs场景数据少，实际vocs排放场景复杂存在气体被遮挡、气体中心透明度高等，且红外成像中vocs可辩别性差，标注困难。

技术实现思路

1、为解决上述技术问题，本发明提供一种基于跨模态提示学习的红外目标小样本检测方法，采用基于度量的元学习方法实现小样本检测，其中添加文本提示来减少小样本训练所带的过拟合问题，并引入知识蒸馏来学习软提示生成器，从而实现对小样本或零样本的场景vocs检测；可以实现对少量且复杂vocs场景数据的学习和检测。

2、为解决上述技术问题，本发明采用如下技术方案：

3、一种基于跨模态提示学习的红外目标小样本检测方法，具体包括以下步骤：

4、步骤一，制作包含vocs气体排放场景的基类数据集，并利用两个共享权重的视觉骨干网络，分别提取基类数据集中支持图像的特征和查询图像的特征；对支持图像和查询图像进行分类，每个类别具有类名；

5、步骤二，基于支持图像特征和对类名编码后得到的文本编码令牌，利用跨模态生成器建立文本模态与图像模态之间的联系，并生成融合模态特征；

6、步骤三，基于查询图像特征和融合模态特征，通过候选框生成器，得到候选框；再使用roi网络分别提取查询图像特征和支持图像特征的候选区域，将候选区域再次使用跨模态生成器建立模态联系；

7、步骤四：对候选区域进行分类和回归预测，得到预测结果。

8、进一步地，步骤一具体包括以下步骤：

9、s11，在公开的红外数据集的基础上，通过渲染工具合成包含vocs泄露场景的支持图像，并采集包含真实环境下的vocs排放场景的查询图像，来制作基类数据集；

10、s12，从基类数据集中采样多个训练集，每个训练集d＝{s,q}，s为支持图像的数据集，q为查询图像的数据集，数据集s、q具有n个类别，每个类别包含k张图像和n个类别对应的类名的集合ti为第i个类对应的类名；

11、s13，利用视觉骨干网络提取支持图像特征和查询图像特征：

12、

13、

14、其中，fv为视觉骨干网络，为数据集s中第i个类别的第j个支持图像，为数据集q中第i个类别的第j个查询图像；和分别表示对应i个类别的支持图像特征和查询图像特征；hv、wv和cv分别表示图像特征的高度、宽度和通道数量。

15、进一步地，所述视觉骨干网络为faster rcnn特征提取网络、深度残差网络或者vgg网络。

16、进一步地，所述跨模态生成器包括软提示生成器、文本模态编码器、文本网络特征提取器以及融合器；

17、步骤二具体包括以下步骤：

18、s21，首先，利用文本模态编码器对类名编码：

19、li＝e(ti)；

20、其中，li为第i个类别的类名对应的文本编码令牌；e(·)为文本模态编码器，由全连接层组成；

21、s22，利用软提示生成器生成软提示，并引入文本提示来学习跨模态特征，这里采用蒸馏学习的方法，即教师网络将添加li进行提示学习，而学生网络不添加li：

22、

23、

24、

25、

26、其中，gs(·)和gt(·)分别为学生网络和教师网络的软提示生成器，和分别为类别i对应的学生软提示和教师软提示，和分别为学生网络和教师学生网络生成的跨模态特征，pool(·)为池化操作，m为文本编码令牌的数量，ct为文本编码后维度，ft为文本网络特征提取器；

27、s23，利用融合器来融合支持图像特征和跨模态特征：

28、

29、

30、其中，f(·)为fc(·)抽象表达式，为全连接层；和分别表示类别i对应的学生网络生成的融合模态特征和教师网络生成多个融合模态特征。

31、进一步地，步骤三具体包括：

32、s31：将查询图像特征和学生网络生成的融合模态特征或者将查询图像特征和教师网络生成的融合模态特征输入到候选框生成器中；

33、

34、或者

35、其中，pg(·)为faster rcnn网络中候选框生成器；在网络训练阶段通过得到，在网络验证阶段通过得到，和分别为在查询图像特征中选取出来的候选框和融合模态特征中选取出来的选取出来的候选框；

36、s32：通过roi网络提取查询图像特征和支持图像特征中候选区域：

37、

38、

39、其中，roi(·)为roi网络，具体采用faster rcnn网络；tq和tp分别为查询图像特征中的候选区域和支持图像特征中的候选区域；

40、s33：将tp再次输入到跨模态生成器中，得到学生网络和教师网络对应的再融合模态特征

41、进一步地，步骤四具体包括：

42、s41：将查询图像特征中的候选区域tq，以及学生网络和教师网络对应的再融合模态特征送入检测头进行分类和回归预测：

43、或者

44、其中，pc(·)为现有faster rcnn网络的检测头，ans为实际预测结果；在网络训练阶段ans通过得到，在网络验证阶段ans通过得到。

45、进一步地，对由视觉骨干网络、跨模态生成器、候选框生成器、roi网络和检测头构成的检测模型进行训练时，采用的整体损失函数ltot为：

46、ltot＝lrpn+lrcnn+lkd+lc；

47、lrpn和lrcnn分别为候选框生成器的损失和检测头的分类回归损失；lkd为学生网络和教师网络损失，用来约束学生网络和教师网络提取类别语义一致性问题：

48、

49、lc为对比损失，用来加强支持图像特征和跨模态特征之间空间联系：

50、

51、其中，τ为超参。

52、与现有技术相比，本发明的有益技术效果是：

53、利用小样本检测来实现对未知场景下的vocs气体检测，并通过提示学习降低过拟合现象，并以蒸馏学习的方式实现小样本少标注或零标注，提升了迁移到实际应用的效率。

技术特征：

1.一种基于跨模态提示学习的红外目标小样本检测方法，其特征在于，具体包括以下步骤：

2.根据权利要求1所述的基于跨模态提示学习的红外目标小样本检测方法，其特征在于，步骤一具体包括以下步骤：

3.根据权利要求2所述的基于跨模态提示学习的红外目标小样本检测方法，其特征在于，所述视觉骨干网络为faster rcnn特征提取网络、深度残差网络或者vgg网络。

4.根据权利要求2所述的基于跨模态提示学习的红外目标小样本检测方法，其特征在于，所述跨模态生成器包括软提示生成器、文本模态编码器、文本网络特征提取器以及融合器；

5.根据权利要求4所述的基于跨模态提示学习的红外目标小样本检测方法，其特征在于，步骤三具体包括：

6.根据权利要求5所述的基于跨模态提示学习的红外目标小样本检测方法，其特征在于，步骤四具体包括：

7.根据权利要求6所述的基于跨模态提示学习的红外目标小样本检测方法，其特征在于，对由视觉骨干网络、跨模态生成器、候选框生成器、roi网络和检测头构成的检测模型进行训练时，采用的整体损失函数ltot为：

技术总结本发明涉及环境检测技术领域，公开了一种基于跨模态提示学习的红外目标小样本检测方法，包括：制作包含VOCs气体排放场景的基类数据集，并利用共享权重的视觉骨干网络提取目标特征；利用跨模态生成器建立文本模态与图像模态之间的联系，并生成融合模态特征；使用ROI网络分别提取查询特征和支持特征，且支持特征再次使用跨模态生成器建立模态联系；对候选区域进行分类和回归预测。用小样本检测来实现对未知场景下的VOCs气体检测，并通过提示学习减低过拟合现象，并以蒸馏学习的方式实现小样本少标注或零标注，提升了对于迁移到实际应用的效率。技术研发人员：许镇义,康宇,谭几方,王福田,陶良钊,丁宗英,三先军受保护的技术使用者：合肥综合性国家科学中心人工智能研究院（安徽省人工智能实验室）技术研发日：技术公布日：2024/8/27