技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种融合语义深度与连续信息的长期视觉定位方法  >  正文

一种融合语义深度与连续信息的长期视觉定位方法

  • 国知局
  • 2024-08-05 12:00:24

本发明涉及计算机视觉,尤其涉及一种融合语义深度与连续信息的长期视觉定位方法。

背景技术:

1、准确的视觉定位是机器人完成导航,规划任务的基础。视觉定位,指的是从数据库中检索出与查询图像最相似的图像来作为查询图像的位姿。相比较于基于gps以及基于雷达等方式,图像检索具有成本低,操作简单的优势。在室外环境下,查询图像可能会是各种各样的天气和季节状况。长期视觉定位主要是针对这样的场景,克服外观和环境的变化,来确定自身的位姿。例如,在视觉slam中(simultaneous localization and mapping,即时定位与地图构建)中,利用查询图像和数据库图像的匹配中,准确的定位可以帮助机器人判断是否经过相同的位置,以完成视觉slam中闭环的任务,从而完成地图优化的任务,这对建图和定位中的累计误差消除是至关重要中的。

2、文献《ieee international conference on robotics and automation(icra),5958-5964,2019》训练了一种可转换的网络结构,它可以对图像的昼夜和白天进行转换,随后基于视觉描述符来完成特征匹配,该算法能够在光照变化剧烈的条件下完成视觉定位。《ieee international conference on intelligent robots and systems(iros),3684-3689,2019》训练多个编码器和解码器,可以在不同的季节,天气中进行变化,对环境中的不变特征提取不变特征,用于完成长期的视觉定位任务。《ieee transactions on imageprocessing,1342-1353,2020》利用提取环境中的语义和深度信息,并且借助于域适应的思想,将虚拟数据集上学习的特征提取能力迁移到真实数据集中,利用编码器提取的特征进行视觉定位,从而完成视觉定位任务。然而,目前长期视觉定位算法对环境中的不变特征利用较少。因此,针对外观变化情形下的网络训练,如何能够利用环境中的更多不变特征来完成视觉定位是一个关键问题。

技术实现思路

1、针对现有技术的不足,本发明提供一种融合语义深度与连续信息的长期视觉定位方法;

2、一种融合语义深度与连续信息的长期视觉定位方法,包括以下步骤:

3、步骤1:获取输入图像,提取所述输入图像的多尺度特征;

4、步骤1.1:获取输入图像,输入图像包括虚拟数据集图像和真实数据集图像;对输入图像进行随机重排操作;

5、步骤1.2:采用多尺度编码器从输入图像中提取多尺度特征;

6、其中,所述多尺度特征为多尺度编码器的每一个卷积阶段,共包含八层多尺度特征。

7、步骤2:根据提取的多尺度特征,生成输入图像的语义图和深度图;

8、步骤2.1:定义第一特征为第五层多尺度特征,第二特征为第六层多尺度特征,第三特征为最后一层多尺度特征;

9、步骤2.2:对第三特征进行上采样处理;

10、x’8=u(x8)

11、其中x’8为x8的上采样结果,u为上采样操作。

12、步骤2.3:对多尺度特征进行级联处理,获得深度信息以及语义信息,生成输入图像的深度图和第一语义图;

13、所述第一语义图的生成过程:

14、

15、

16、其中seg1为生成的第一语义图,为上采样操作,为按通道维度进行拼接,x’s2为对第三特征7次上采样和多尺度特征级联的结果,conv1为卷积操作,卷积核大小为3×3。

17、所述深度图的生成过程:

18、

19、

20、其中dep为生成的深度图,为上采样操作,为按通道维度进行拼接,x'd2为对第三特征7次上采样和多尺度特征级联的结果,conv2为卷积操作,卷积核大小为3×3;

21、步骤2.4:对生成的深度信息融合到语义信息的生成中,得到基于深度指导的第二语义图;

22、所述第二语义图的生成过程:

23、

24、其中seg2为生成的第二语义图,conv3为卷积操作,卷积核大小为3×3,为上采样操作,为按在空间维度上逐点相乘操作,为按通道维度进行拼接。

25、步骤2.5:将生成的第一语义图和深度图进行语义信息计算,真值的语义图和深度图进行语义深度信息计算,输入到融合判别器模块中,增加语义图和深度图的准确性;

26、具体通过融合判别器模块来增加语义和深度信息的准确性,包括以下步骤;

27、步骤2.5.1:对于语义图计算自信息,其中自信息表示为:

28、is=-ps·logps

29、其中,ps代表每一个像素是语义标签c的概率

30、步骤2.5.2:将计算的语义自信息和深度信息进行相乘,得到语义-深度信息:

31、ids=gd(e(iv))×is

32、其中ids为语义-深度信息,iv为虚拟数据集图像的输入,gd为深度信息解码器,e为多尺度编码器网络,is为语义的自信息。

33、步骤2.5.3:根据计算的语义-深度信息的计算公式,同时计算真值的语义和深度信息,与生成的语义深度信息一起构建融合判别器的损失函数:

34、

35、利用的是bce损失函数,t代表真值的语义和深度信息类别,f代表基于多尺度特征生成的语义和深度信息类别;

36、步骤3:根据提取的多尺度特征,判别多尺度特征的所述类别

37、将提取的多尺度特征输入到特征判别器d中,根据如下损失函数使得从虚拟数据集提取的多尺度特征更近似于真实数据集实现域适应:

38、ldis=d(e(ir)-1)2+d(e(iv))2

39、其中ir代表真实数据集的输入图像,iv代表虚拟数据集的输入图像;真实图像的所述类别为真值类别,虚拟图像的所述类别为虚假类别。

40、步骤4:调整输入图像顺序为顺序图像,利用图像序列这一潜在特征设计第一约束;

41、所述第一约束为提取的多尺度特征的连续性约束;具体为,对输入图像的远近帧构建相对距离,对与参考样本的相对距离构建连续帧损失;

42、步骤5:计算多尺度特征之间的相似度,在包含位姿图像的待查询数据库中得到与输入图像相似度最近的目标图像。

43、所述相似度为,对第一特征、第二特征,计算与数据库中待查询图像之间的l1距离,将得到的l1距离作为输入图像和待查询图像的相似度。

44、所述视觉定位方法,基于视觉定位模型实现,具体包括多尺度编码器-解码器网络、特征判别器模块和融合判别器模块;其中多尺度编码器包含多尺度特征提取模块,解码器包含语义信息生成模块、深度信息生成模块,基于深度指导的语义信息生成模块。

45、所述的多尺度特征提取模块包括卷积层,激活层;将输入图像输入多尺度特征提取模块,得到多尺度特征;

46、所述的语义信息生成模块、深度信息生成模块,语义深度信息生成模块包含级联上采样和激活层组成;所述级联上采样模块至少由4倍上采样层以及卷积层构成;

47、将所述的多尺度特征通过平铺输入到特征判别器,得到多尺度特征的所属类别;所述类别分为虚拟图像和真实图像;

48、所述特征判别器模块包括激活层,卷积层;

49、将所述语义图进行自信息计算,将计算结果与深度图相乘得到语义深度互信息;将语义深度互信息输入到融合判别器模块,得到语义深度信息的所属类别;

50、所述的融合判别器包括激活层,卷积层;

51、所述的类别分为真值类别和生成类别;

52、所述视觉定位模型的训练过程,具体包括以下步骤:

53、获取视觉定位网络和训练集,所述训练集分为虚拟数据集和真实数据集。其中,所述虚拟数据集训练集包括多个三元组,每个三元组包括属于同一场景的第一训练图像和第二训练图像,以及属于不同场景的第三训练图像;真实数据集表示为第四训练图像;

54、将所述第一训练图像输入所述视觉定位模型,得到所述第一训练图像的多尺度特征;

55、将所述第二训练图像输入所述视觉定位模型,得到所述第二训练图像的多尺度特征;

56、将所述第三训练图像输入所述视觉定位模型,得到所述第三训练图像的多尺度特征;

57、将所述第四训练图像输入所述视觉定位模型,得到所述第四训练图像的多尺度特征;

58、根据所述第一训练图像、第二训练图像以及第三训练图像的语义图、深度图,构建交叉熵语义损失函数、深度损失函数、三元组损失函数以及融合判别器损失函数;根据所述第一训练图像、第四训练图像得到的多尺度特征,构建特征判别器损失函数;

59、所述的交叉熵语义损失函数定义如公式(1)所示;

60、

61、其中lseg表示所述交叉熵损失,c,h,w分别表示语义类别数,输入图像高和宽,代表语义图类别c的语义真值,ps(h,w,c)是像素(w,h)上第c个语义标签的概率;

62、所述深度损失函数定义如公式(2)和(3)所示;

63、

64、

65、其中ldep表示深度损失,h和w分别代表输入图像和真值图的高度和宽度,gtdep为深度真值,δ代表为深度的阈值,iv为虚拟数据集图像的输入,gd为深度信息解码器,e为所述的第一神经网络。

66、所述三元组损失函数定义如公式(4)所示;

67、

68、其中ltri表示三元组损失,q,q+,q-分别表示参考样本、正样本以及负样本,ls和lk代表从第s层到第k层的多尺度特征,m为距离阈值;

69、所述融合判别器损失函数定义如公式(5)所示;

70、

71、其中ldisf表示所述融合判别器损失,ids表示语义图和深度图的互信息,表示和真值直接的损失。t代表真值的语义-深度信息,f代表生成的语义-深度信息。

72、所述的特征判别器损失函数如公式(6)所示:

73、ldis=d(e(ir)-1)2+d(e(iv))2                   (6)

74、其中ldis表示所述特征判别器损失,d表示为特征判别器,e表示为特征编码器,ir表示真实数据集的输入图像。

75、基于上述损失函数对视觉定位模型中的多尺度特征提取模块,语义信息生成模块,深度信息生成模块,基于深度指导的语义信息生成模块,特征判别器模块和融合判别器模块进行迭代训练,直至所述损失函数满足预设条件,得到训练后的视觉定位模型。

76、采用上述技术方案所产生的有益效果在于:

77、本发明提供一种融合语义深度与连续信息的长期视觉定位方法,针对以往视觉定位方法在外观变化情形下的泛化性差、图像表征能力的不足,本方法融合语义信息,深度信息和紧耦合的语义深度信息为多尺度特征作为不变特征用于视觉定位。并且利用数据集的连续性,提出基于连续帧的损失函数,能够进一步增加视觉定位的精度。此外,还引入了三元组损失来克服同一场景下外观变化的影响。该方法能够提升外观和季节变化情形下查询图像和数据库图像的特征表征能力,从而保证提取的多尺度特征能够应对外观变化的影响,提升移动机器人的视觉定位能力,以便服务于导航等应用场景。具体包括以下有益效果:

78、(1)本发明提出利用语义信息、深度信息和紧耦合的语义深度信息作为不变信息,可以有效应对场景外观变化;

79、(2)本发明提出连续帧模块,利用图像序列的连续性,引导模型学习到数据集的潜在特性;

80、(3)本发明提出基于不变的信息和连续性用于视觉定位任务,在网络中完成外观变化环境下域不变多尺度特征的提取。利用多尺度特征计算图像之间的相似度,完成准确的视觉定位任务,提升了机器人在外观边下场景下的视觉定位准确性,有助于开展更智能化的视觉导航等工作。

本文地址:https://www.jishuxx.com/zhuanli/20240802/260582.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。