技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于交互关系匹配的有限数量样本目标检测网络  >  正文

一种基于交互关系匹配的有限数量样本目标检测网络

  • 国知局
  • 2024-11-21 11:34:16

本发明涉及计算机视觉和机器学习,尤其涉及一种基于交互关系匹配的有限数量样本目标检测网络。

背景技术:

1、如今,通过利用数量庞大的高质量数据,深度学习方法在自然语言处理、计算机视觉等领域的多种复杂任务中取得了惊人的表现。然而,神经网络模型中不断增加的深度是有代价的,现阶段的深度学习模型往往包含大量需要学习的参数,当用来学习的数据量不够时,数据中的有限信息不足以整定模型中的大量参数,深度学习方法就很可能会失效,失效的原因是数据量较少时模型过拟合,特征过度表达,从训练集中学到的局部样本特征无法代表所有样本的总体分布,泛化能力差。

2、在计算机视觉研究领域内,视觉分类、目标跟踪和目标检测均属于主要研究内容。其中,目标检测作为最重要的视觉任务之一,在广泛的工业场景中具有大量的应用需求。例如,在智能监控领域,目标检测可以用于实时监测和识别视频中的目标,以提高安全性和效率;在自动驾驶领域,目标检测可以用于追踪并且识别道路上的车辆、行人和障碍物,以实现更加智能的驾驶功能;在医学影像分析领域,目标检测可以用于检测和定位疾病标记物,如肿瘤和病变,以此来为医学诊断提供高效的筛选和决策;在军事领域,目标检测可以用于追踪并识别打击目标,支持情报收集和战场决策。

3、通常,在进行常规情形的目标检测时,需要使用一个大规模、样本分布均匀且标注丰富的监督数据集,以保证算法模型能进行训练、微调和超参寻优。然而,在许多实际场景中,获取样本数据往往具有一定困难,主要包括对象尺度的不确定性、背景的不确定性以及待检测数目的不确定性等,此类困难导致数据集标注和采样难以完整地覆盖不同种类样本的分布,并且一些特定类别的样本数据较为稀有。如果只利用有限数量样本的数据对常规检测模型进行有监督的目标检测算法训练,很容易使算法模型在学习中出现过拟合问题。

4、目前,国内外文献已经逐渐将有限数量样本学习的方法使用在图像分类任务上,现有的有限数量样本目标检测方法主要有两种形式,第一类为预训练后进行微调的方法,第二类就是构建元学习框架的方法。其中,第一类的代表算法tfa(two-stage fine-tuningapproach)使用faster r-cnn为主干网络在数据量充足的基本类别数据集上训练至收敛,再迁移至数据量较少的新颖类别数据集上微调模型预测头的最后几层。第二类的元学习检测形式首次经fsrw(few-shot object detection via feature reweighting)算法所开创,fsrw模型在传统的通用目标检测模型基础上增加了元学习器分支,并以元学习方式训练网络至收敛。目前这两种形式的方法,虽然出发点不同,但它们之间的共性是:都仍然高度依赖于已经很成熟的cnn(卷积神经网络)通用目标检测模型,例如yolo系列模型、r-cnn系列模型以及他们的变体网络结构。然而设计这些通用目标检测模型的初衷,均不是面向有限数量样本场景,并没有针对样本数量的稀缺问题进行特殊考虑,容易在各个不同的方面出现局限性,大大限制了有限数量样本场景下的性能,主要问题和不足之处包括以下几个方面:

5、(1)现有方法的锚定框预选与新颖类别分类存在一定冲突。当前有限数量样本目标检测卷积网络绝大多数都以两阶段检测法faster r-cnn为基本网络架构,以保证在该条件下能完成稳定且更加准确的检测任务。然而即便是执行两阶段检测,仍存在局限性和任务冲突。当模型利用基本类别数据集训练时,模型很快能学习至将基本类别目标识别为前景,但潜在的新颖类别目标会被模型倾向于识别为背景。即使继续跨域在新颖类别数据集上微调,也难以获得足够的泛化性能。在两阶段目标检测方法的检测流程中,rpn(regionproposal network,候选框提取网络)输出的高质量预选锚定框对于总体的检测效果来说是至关重要的,在此跨域情况下,rpn网络分辨背景与前景的能力受到了混淆,输出的预选锚定框质量变差,也间接导致后一级的预测头功能受到影响,分类性能降低,因此原始的rpn网络需要加以改进才能适应有限数量样本场景。

6、(2)目前广泛采用的原型提取方法不能完全利用有限样本的信息。在以往的现有算法中,大多数模型通常采用将多个支持对象特征进行平均处理,聚合归一化以表示类别原型,然后与询问集分支进行特征融合后用于最后的回归和分类。原型的质量会直接影响有限数量样本场景下的分类任务性能,现有方法提取出的原型难以充分代表支持集中每个新颖类别的信息。首先,在有限数量样本目标检测中,简单的平均化处理可能会模糊重要的判别细节,不能完全利用支持集中本来就数量稀缺的样本信息。其次,支持特征被平均聚合到原型中,意味着不仅每个目标都被网络模型同等对待,甚至每个支持特征中的所有像素对原型的贡献程度都是保持恒等不变的,这会使重要的目标对象被杂乱的背景淹没。另外,单张询问图像和多张支持图像之间的相似性是存在差异的,在多张支持图像之间执行平均化的聚合会导致具有决定性意义的图像被其他非重要图像淹没。

7、(3)样本数量较少时特征未能有效对齐,导致网络模型难以学到分支相似关系。现有的算法主要侧重于对询问集图像、支持集图像进行特征提取,以及对这两个分支之间的相似度关系进行建模。然而,直接比较两个分支特征之间的相似程度并不能完美地匹配询问集特征与类原型之间的对应关系,原因在于从支持集中同一类别提取出的特征映射存在错位现象,当样本数量很少的情况下,错位出现的概率增加,由此引起的支持集样本类内方差的增大会对两分支之间的类别匹配带来负面影响。

技术实现思路

1、针对现有技术存在的不足,本发明在两阶段目标检测技术路线的基础上,设计适用于元学习的两个分支,将询问集图像与支持集图像并行输入模型主干来提取特征,进一步构建出可以进行高效元学习的完整网络模型结构,实现样本数量有限情况下的目标检测。

2、本发明提供一种基于交互关系匹配的有限数量样本目标检测网络,所述目标检测网络包括双分支输入层、特征提取主干网络层、交互关系匹配模块、动态集成原型模块、双向特征对齐模块和预测头网络层;双分支输入层分别使用询问集图像和支持集图像作为网络模型的输入图像;特征提取主干网络层利用resnet-101神经网络主干为两个分支同时进行特征提取,产生询问集特征和支持集特征;交互关系匹配模块分别接收来自两个分支主干网络的特征,并输出预选框特征向量,引导网络关注新颖类别前景信息;动态集成原型模块用于动态聚合生成稳健且高质量的原型,并输出原型特征向量;双向特征对齐模块用于改善特征错位,接收的输入为预选框特征向量和原型特征向量,输出为融合特征;预测头网络层用于对图像中的目标进行定位和分类,利用融合特征输出网络预测的类别和位置,包括对预选框分类和对预选框位置进行回归定位,目的是利用深层特征分别判别图像中目标对象的所属类别和具体位置,在本发明中,将图像数据分为支持集图像和询问集图像,分别作为网络模型两个分支的输入。

3、进一步地,所述交互关系匹配模块分别在双分支包含两个平行的3×3卷积层,用来将双分支的特征分别嵌入为成对的键值对映射,对于询问集分支,输出的键值对映射为特征向量kq与vq,同理,对于支持集分支,每一类别的特征都被独立嵌入为成对的键值对映射,该分支的键值对映射为特征向量ks与vs,然后将生成的键映射和值映射用于在rpn网络生成预选的锚定框流程中对支持集和询问集执行交互关系匹配操作,计算得到寻址矩阵fqs(kq,ks),将该寻址矩阵归一化后,用于对支持集特征对应的值映射vs进行加权求和,以此来检索支持集特征中重要的细节信息,为rpn网络生成预选锚定框提供有效的支持信息,将经过检索后的支持集特征信息与来自询问集的vq一起执行拼接操作concat[·,·]后,馈送至rpn层生成预选的锚定框。

4、进一步地,寻址矩阵fqs(kq,ks)的第i行、第j列对应元素的计算公式为:fqs(kq,ks)i,j=φ(kqi)tφ′(ksj),其中,kq表示询问集键映射,ks表示支持集键映射,i和j分别表示询问集特征键映射和支持集特征键映射的位置索引,φ和φ'分别表示两个不同的线性变换层。

5、进一步地,所述动态集成原型模块包括依次连接的卷积层、类内全局平均化层、通道关系动态集成层、mlp层和原型集成层,对于支持集分支,一共有n个候选类别,每个类别含有k个支持集样本,将每一个单独的样本si经过特征提取主干网提取的特征映射记为θ(si),将单个支持样本特征通过卷积层得到特征再再将支持集分支的共计n个候选类别和类内的k个支持集样本按类别执行全局平均化得到特征favg,然后对上述两个特征执行通道关系卷积算子γc(·,·),此时的卷积层能够提取单个支持样本特征中的特殊细节信息,也能够提取出同一类别所有支持样本的共性特征,通过反向传播更新卷积参数,网络模型可以在单个样本局部细节和整体样本共性特征之间学习达到一种动态平衡,由此得到通道关系动态集成特征fi,最后将通道关系动态集成特征fi通过mlp层及归一化后得到置信度图mi,置信度图mi用于对同一类别的k个样本进行加权求和,从而集成得到有效的、稳健的动态集成原型。

6、进一步地,和favg的计算方式为:其中conv(·)表示3×3的卷积层。

7、进一步地,通道关系动态集成特征fi的计算方式为:置信度图mi的计算方式为:mi=softmax(mlp(fi)),动态集成原型为其中表示按元素相乘。

8、进一步地,所述双向特征对齐模块将预选框特征向量fp与原型特征向量fe执行两个方向的特征对齐操作,预选框特征向量fp为将预选锚定框内的信息经过roi-align操作投影后得到,原型特征向量fe为将动态集成原型进行下采样,并通过mlp层将维度调整至与预选框特征保持一致,由此得到的特征记作原型特征向量fe,按照as(φ,ρ)=φρt计算原型对齐矩阵,其中矩阵表示特征向量和特征向量各自局部特征之间相似程度的关联度矩阵,并对fe执行原型对齐;按照aq(φ,ρ)=σ(∑row(φρt))计算前景对齐矩阵,其中矩阵表示特征向量和特征向量各自局部特征之间相似程度的关联度矩阵,σ(∑row())表示按行求和后取sigmoid归一化,并对fp执行前景对齐,最终对两分支对齐后的特征执行特征融合,改善跨分支的特征错位现象,提高新颖类别识别效果。

9、进一步地,在有限数量样本条件下,采用三阶段元学习策略对网络模型进行训练,训练后能够快速学习并识别出图像集中数量稀少的新颖类别目标,所述三阶段元学习策略依次分为元训练阶段、元微调阶段和元测试阶段。

10、本发明的有益技术效果为:本发明提出的基于交互关系匹配的有限数量样本目标检测网络改善了两阶段检测器的锚定框预选处理与新颖类别目标检测之间存在的冲突,并且更充分地利用支持集的有限样本信息集成稳健的原型,最后优化改进不同分支之间的特征对齐方式,缓解特征错位造成的负面影响,从而有效实现样本数量有限情况下的目标检测。首先,本发明在rpn网络输出预选锚定框时将两分支特征进行交互关系匹配,通过将两个分支的特征分别嵌入为键映射和值映射,利用分支间注意力,执行一次像素级的相似关系匹配,引导网络关注新颖类别前景信息;其次,本发明提出动态集成原型方法,提取样本内局部信息和样本间通道特征,更好地平衡支持集中单个样本局部细节和整体样本共性特征之间的关系,稳健地处理类内变化,聚合生成更加高质量的原型;最后,本发明在预测头进行分类和回归前进行跨分支的双向特征对齐,不仅使用询问集分支信息对原型进行特征对齐,而且利用动态集成原型后的支持集分支信息对预选框特征向量进行前景对齐,最终使两个分支之间相似的细节在彼此的特征维度中更加接近,方便进行对比和特征融合,改善特征错位带来的负面影响,具体包括:

11、(1)搭建一个双分支元学习网络,经过元学习策略训练后可以有效地执行有限数量样本目标检测任务,快速适应识别、检测新颖类别目标,在样本有限的军事、医疗、工业检测等场景下,尤其在数据量极端稀缺的情况下,该检测网络仍可以执行常规检测模型无法胜任的检测任务;

12、(2)设计交互关系匹配模块,缓解新颖类别目标被混淆为背景的现象;

13、(3)利用支持集特征动态集成原型,以权衡单个样本局部特征和整体共性特征之间的重要性;

14、(4)设计双向特征对齐模块,改善相同类别目标对象在不同分支特征图之间存在的特征错位问题。

本文地址:https://www.jishuxx.com/zhuanli/20241120/331819.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。