技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于深度全局特征和局部特征联合学习的NetVLAD图像位置识别方法  >  正文

基于深度全局特征和局部特征联合学习的NetVLAD图像位置识别方法

  • 国知局
  • 2025-01-10 13:11:30

本发明属于视觉位置识别技术,具体涉及一种基于深度全局特征和局部特征联合学习的netvlad图像位置识别方法。

背景技术:

1、最近几年位置识别已经受到了学术界和工业界的广泛关注。对于查询图像,视觉位置识别是基于先前收集的一组图像来识别图像被捕获的地点,可能带有某种形式的标签信息,例如人提供的文本标签或传感器捕获的gps数据。视觉位置识别是同时定位与地图绘制(simultaneous localization and mapping,slam)、自主导航、等许多重要应用的核心技术。然而,由于地点的外观变化很大,例如视点的变化、季节的变化、光照的变化、天气的变化以及树木、汽车等不相关的物体,因此地点识别在计算机视觉和机器学习中一直是一个挑战。

2、如果提供了各种类型的标签信息,位置识别可以转化为图像检索问题或分类问题。流行的作品符合前一种语境。这组方法遵循一个非常相似的流程,首先提取局部特征描述符[尺度不变特征变换(sift)特征],然后通过聚类在局部描述符上构建词汇表,形成用于图像检索的全局特征表示。典型的全局特征表示包括词袋(bow)、局部聚合描述符向量(vlad)、hamming嵌入和fisher向量(fv)。上述方法的缺点之一是它们依赖于整体特征表示,而没有明确区分图像的不同区域,特征表示可能缺乏图像的局部性信息。因此,一些方法直接使用局部描述符,在全局特征创建之前对局部描述符进行检索或重新加权,以强调图像中信息量最大的区域。作为比较,基于分类的方法,使用量化局部特征描述符衍生的特征表示来训练每个位置的分类器。

3、尽管vpr是作为图像检索任务制定的,但在识别位置方面存在特定的挑战和用例,这将其与其他检索问题区分开来。这些挑战主要与场景的复杂性和世界的动态性有关。首先,地方的图像几乎从来没有在前景中出现过一个单一的识别物体。相反,它们通常包含多个视觉元素。许多这些元素可能没有携带关于该地点的有用信息,它们甚至可能遮挡背景中更有用的对象。此外,景观的外观会随着时间的推移而自然变化,这不仅是因为动态物体或物理变化,还因为光照、天气和季节的变化。vpr中的其他挑战来自于1)重复出现的元素和使不同的地方看起来相似的建筑模式的存在,以及2)可以从各种各样的角度观察一个地方。

4、因此,在应对以上两个挑战方面,本发明提出了基于深度全局特征和局部特征联合学习的netvlad图像位置识别方法,它提出了一个结合卷积神经网络深度激活聚合的netvlad广义池化层的全局特征和卷积神经网络浅层激活聚合的局部特征的细心选择的模型。通过仔细平衡两个头部之间的梯度流,使得整个网络只利用图像级标签就可以端到端学习。我们还引入了一种基于自编码器的局部特征降维技术,将其集成到模型中,提高了训练效率和匹配性能。

技术实现思路

1、本发明的目的是提供一种基于深度全局特征和局部特征联合学习的netvlad图像位置识别方法。在离现阶段构建图像数据库,提取卷积神经网络主干resnet网络中的深层激活,并加入netvlad层将深度激活聚合为一个全局特征,局部特征更适合用于编码局部信息的中间层,这可以通过采用注意力模块来实现,其目标是预测提取的局部特征中哪些对感兴趣的对象具有区别性。此外,为了紧凑地表示数百到数千个局部特征,我们集成一个小的卷积自编码器模块,该模块负责学习合适的低维表示。

2、本发明所述的一种基于深度全局特征和局部特征联合学习的netvlad图像位置识别方法,图1和图2为本发明流程图和系统框架图,包括以下步骤:

3、步骤一、在市中心街道等场景共部署9500个位置已知的参考点(access point,ap),记为ap1,…,apm,第j个ap记为apj(j≤m,j为整数),并在每一个图像上标注相应的gps位置信息。

4、步骤二、使用手持相机在每个参考点处分别拍摄了一定数量的图像(大约24张),包括水平方向和斜上45°方向。这些图像用于构建一个图像数据库,其中90%的图像被用作训练集,10%的图像被用作测试集。所有的训练图像和测试图像都具有640*480像素的分辨率。

5、步骤三、利用netvlad将深度激活聚合成全局特征。如图3所示是netvlad网络框架图,具体包括以下步骤:

6、步骤三(一)、利用卷积神经网络来获取浅层激活和深层激活。给定一张图像,我们应用卷积神经网络主干得到两个特征映射:和分别表示较浅和较深的激活,其中h,w,c分别对应每种情况下的通道高度,宽度和数量。对于普通卷积网络,hd≤hs,wd≤ws,cd≥cs;更深的层具有空间较小的地图,具有更多的通道。设表示这些地图中位置h,w的特征。在我们的方法中我们将这些特征通过relu非线性之后获得来确保获得的特征是非负的。

7、步骤三(二)、构建netvlad全局描述符。为了将深度激活聚合成一个全局特征,我们采用了netvlad层一种新的广义vlad层,该层通过可微操作实现了vlad的嵌入和聚合,从而实现了网络的端到端训练。此外,netvlad提供了比vlad更多的可训练参数,从而提供了更大的灵活性。图3展示了netvlad网络结构示意图为了构造一个可以通过反向传播进行训练的层,需要层的操作对其所有参数和输入都是可微的。因此,关键的挑战是使vlad池可微。

8、vlad中的不连续源是描述符xi对聚类中心ck的硬赋值ak(xi)。为了使这个操作可微,我们用描述符对多个簇的软赋值来代替它:

9、

10、将描述符xi的权重分配给聚类ck的大小,与它们的接近度成正比,但相对于接近度其他集群中心。的范围在0到1之间,最接近簇中心的权重最高。α是一个参数(正常数),它控制响应随距离大小的衰减。

11、通过展开式(1)中的平方,很容易看出在分子和分母之间消去,得到以下形式的软赋值:

12、

13、其中向量wk=2αck,标量bk=-α||ck||2。netvlad层的最终形式是通过将软赋值(2)插入到vlad描述符中得到netvlad描述符:

14、

15、其中{wk},{bk}和{ck}是每个聚类k的可训练参数集。与原始vlad描述符类似,netvlad层通过将描述符xi的软赋给聚类k加权,在描述符空间的不同部分聚集残差(xi-ck)的一阶统计量。然而,与原始vlad的{ck}相比,netvlad层有三个独立的参数集{wk},{bk}和{ck}。这比原来的vlad具有更大的灵活性。

16、步骤三(三)、利用一种弱监督排序损失来学习一种能够优化位置识别性能的表示fθ。也就是说,对于给定的测试查询图像q,目标是将来自近处的数据库图像排名高于数据库中所有其他较远的图像ii。换句话说,我们希望查询q与近处图像之间的欧几里得距离小于数据库ii中到远处图像的距离,即:对于距离查询在地图上超过一定距离的所有图像ii。我们将展示如何将这个要求转化为训练三元组之间的排序损失。

17、从我们创建的数据集中,我们获得了一个元组的训练数据集,其中对于每个训练查询图像q,我们有一组潜在的正例和一组确定的负例

18、潜在正例图像集包含至少一个应该与查询匹配的正例图像,但我们不知道是哪一个。为了解决这种歧义,我们建议确定最佳匹配的潜在正图像

19、

20、对于每个训练元组目标就变成了学习一个图像表示fθ,使得训练查询q与最佳匹配电位正的之间的距离小于查询q与所有负图像qj之间的距离

21、

22、基于这种直觉,我们定义一个弱监督排序损失lθ为训练元组

23、

24、其中l是铰链损失l(x)=max(x,0),m是给出边界的常数参数。注意,上式是负图像的单个损失的总和。对于每个负数,如果查询与负数之间的距离大于查询与最佳匹配的正数之间的距离,则损失l为零。相反,如果查询图像到负图像之间的距离与查询图像到最佳匹配正图像的距离之间的差值小于边界值,则损失值与这样的负图像的数量成正比。注意,上述损失与常用的三重损失有关,但适用于我们的弱监督场景,使用类似于多实例学习的公式。

25、步骤四、构建一个基于卷积神经网络的全局特征和局部特征联合学习框架。如图4所示是基于netvlad全局特征和局部特征联合学习框架。利用卷积神经网络主干的浅层激活来获取局部特征,同时将全局特征和局部特征联合起来进行端到端学习。

26、步骤四(一)、选择相关区域匹配。这可以通过采用注意力模块m来实现,其目标是预测提取的局部特征中哪些对感兴趣的对象具有区别性。这用a=m(s)来执行,其中m是一个小的卷积网络,表示与s的特征相关联的注意力评分图。

27、步骤四(二)、进行局部描述符降维。此外,由于通常使用数百到数千个局部特征,因此必须紧凑地表示它们。为此,我们建议集成一个小的卷积自编码器(ae)模块,该模块负责学习合适的低维表示。得到局部描述符为l=t(s),其中t是自编码器的编码部分,对应于一个1×1的卷积层,带有ct滤波器。注意,与s相反,局部描述符l不被限制为非负。

28、步骤四(三)、构建局部特征损失。为了训练局部特征,我们使用了两个损失。首先,均方误差回归损失衡量自编码器重建s的能力。表示s'=t'(l)为s的重建版本,具有相同的维度,其中t'是一个带有cs滤波器的1×1卷积层,其次是relu。

29、

30、其次,交叉熵分类损失激励注意力模块选择有区别的局部特征。这是通过首先将重构特征s·与注意权值ah,w进行池化来实现的:

31、

32、然后使用标准的softmax-cross-entropy loss::

33、

34、式中vi,bi为类i的分类器权值和偏置,k为基真类的指标;这往往会使判别特征的注意权重较大。总损耗为lg+λlr+βla。

35、步骤四(四)、控制梯度。在实验上直接优化上述总损失会导致次优结果,因为重建和注意力损失项会严重干扰通常在训练深度模型时获得的分层特征表示。特别是,两者都倾向于使较浅的特征s更具语义性和更少的可本地化性,从而最终变得更稀疏。稀疏特征可以更容易地优化lr,而更多的语义特征可能有助于优化la;因此,这将导致本地功能性能不佳。

36、我们通过停止从lr和la到网络骨干的梯度反向传播来避免这个问题,即到s。这意味着网络骨干仅基于lg进行优化,并且将倾向于产生所需的分层特征表示。

37、步骤五、将测试图像输入到训练好的模型,与数据库图像进行匹配,输出得到最匹配的图像,并获取相对应的gps位置信息。

38、有益效果

39、本发明从图像的匹配和基于图像的定位出发,首先,在目标区域内部署多个参考点并取90%和10%划分训练集和测试集;其次,构建基于深度全局特征和局部特征联合学习的netvlad位置识别框架,用于学习图像的全局特征和局部特征;最后,将查询图像输入进去后利用全局特征与数据库图像进行初排序,而后再利用局部特征来重新排列顶级结果,从而提高系统的精度。

本文地址:https://www.jishuxx.com/zhuanli/20250110/351531.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。