技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于统一变换器的视觉地点识别框架的制作方法  >  正文

基于统一变换器的视觉地点识别框架的制作方法

  • 国知局
  • 2024-10-21 14:26:30

本文描述的实施例一般涉及用于视觉地点识别的统一框架、训练以及实现。

背景技术:

1、视觉地点识别(vpr)是一种通过将未提供位置的查询图像与已知相应位置的参考图像进行匹配来找出查询图像位置的技术。

2、用于视觉地点识别的传统实现通常利用聚合卷积神经网络(cnn)特征用于对参考图像的全局取回,并利用基于随机样本一致性(ransac)的几何验证来对参考图像进行重新排序。

技术实现思路

1、在一个示例实施例中,基于统一变换器(transformer)的视觉地点识别(vpr)训练框架包括可训练特征取回变换器模块,其从查询图像中提取全局特征和局部特征,从参考图像中提取全局特征和局部特征,并基于从查询图像中提取的全局特征和从参考图像中提取的全局特征来训练全局取回变换器。vpr训练框架还包括可训练重新排序变换器模块,其基于从查询图像提取的局部特征和从参考图像提取的局部特征来训练至少一个重新排序变换器。

2、根据至少一个其他示例实施例,一种训练基于统一变换器的视觉地点识别(vpr)框架的方法,包括:对查询图像的多个部分的线性表示进行编码,对查询图像的随机初始化的类别词元进行编码,对参考图像的多个部分的线性表示进行编码,对参考图像的随机初始化的类别词元进行编码,基于查询图像的已编码的类别词元和参考图像的已编码的类别词元来训练全局取回变换器,并且基于查询图像的多个部分的已编码的线性表示的至少一部分和参考图像的已编码的线性表示的至少一部分来训练至少一个重新排序变换器。

3、根据至少一个其他示例实施例,一种用于实现视觉地点识别(vpr)的统一全局取回和重新排序框架包括全局取回模块,该全局取回模块由具有查询图像的全局特征的已编码的类别词元以及由具有参考图像的全局特征的已编码的类别词元来训练,并且该重新排序模块由具有查询图像的局部特征的已编码的区块词元和由具有参考图像的局部特征的已编码的区块词元来训练。

技术特征:

1.一种基于统一变换器的视觉地点识别vpr训练框架,包括:

2.根据权利要求1所述的基于统一变换器的vpr训练框架,其中所述可训练特征取回变换器模块通过以下方式从所述查询图像中提取所述全局特征:

3.根据权利要求1所述的基于统一变换器的vpr训练框架,其中所述可训练特征取回变换器模块通过以下方式从所述查询图像中提取局部特征:

4.根据权利要求1所述的基于统一变换器的vpr训练框架,其中所述可训练特征取回变换器模块通过以下方式从所述参考图像中的相应参考图像中提取全局特征:

5.根据权利要求1所述的基于统一变换器的vpr训练框架,其中所述可训练特征取回变换器模块通过以下方式从所述参考图像中的相应参考图像中提取局部特征:

6.根据权利要求1所述的基于统一变换器的vpr训练框架,其中所述可训练重新排序变换器模块用于通过以下方式训练所述至少一个重新排序变换器:

7.根据权利要求6所述的基于统一变换器的vpr训练框架,其中对转换后的所述线性特征词元的所述变换包括:

8.根据权利要求6所述的基于统一变换器的vpr训练框架,其中将与所述查询图像相对应的所述线性特征词元的所述数目减少到相对于所述固定数目的维度的所述固定数目是基于所述查询图像的所生成的注意力图。

9.根据权利要求6所述的基于统一变换器的vpr训练框架,其中将与所述相应参考图像相对应的所述线性特征词元的所述数目减少到相对于所述固定数目的维度的所述固定数目是基于所述相应参考图像的所生成的注意力图。

10.一种训练基于统一变换器的视觉地点识别vpr框架的方法,包括:

11.根据权利要求10所述的方法,其中对所述至少一个重新排序变换器的所述训练包括:

12.根据权利要求11所述的方法,还包括:

13.一种用于实现视觉地点识别vpr的统一全局取回和重新排序框架,包括:

14.一种在其中存储有计算机可执行组件的媒体平台,所述计算机可执行组件在被执行时执行操作以通过执行如权利要求10所述方法来实现视觉地点识别vpr。

15.一种用于存储可执行指令的计算机可读介质,所述可执行指令在被执行时使一个或多个处理器执行与训练特征取回变换器模块相关的功能,所述功能包括:

16.根据权利要求15所述的计算机可读介质,

17.根据权利要求15所述的计算机可读介质,

18.一种用于存储可执行指令的计算机可读介质,所述可执行指令在被执行时使一个或多个处理器执行与训练重新排序变换器模块相关的功能,所述功能包括:

19.根据权利要求18所述的计算机可读介质,其中对转换后的所述线性特征词元的所述变换包括:

技术总结本公开的实施例提供了一种基于统一变换器的视觉地点识别框架。统一地点识别框架利用统一变换器模型来处理取回和重新排序。重新排序模块利用特征相关性、注意力值和x/y坐标,并且学习以确定图像对是否来自同一位置。技术研发人员:朱思捷,杨林杰,沈晓辉,王恒受保护的技术使用者:脸萌有限公司技术研发日:技术公布日:2024/10/17

本文地址:https://www.jishuxx.com/zhuanli/20241021/318161.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。