技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于集中式神经网络的移动机器人多场景视觉定位方法 > 正文

基于集中式神经网络的移动机器人多场景视觉定位方法

国知局
2024-07-31 22:55:12

本发明涉及移动机器人场景视觉定位领域，特别涉及基于集中式神经网络的移动机器人多场景视觉定位方法。

背景技术：

1、科技的进步让采用机器人进行作业劳动成为了智能产业中不可或缺的一环，如采用机器人打扫、搬运等，这一领域也吸引了许多科研人员开始聚焦于机器人相关技术并取得了非常好的应用成果。但是采用机器人进行搬运或者清扫需要机器人能够感知到周围环境并定位，以达到精确定位的目标，因此移动机器人在工作场景中的视觉定位成为本领域的研究重点。

2、目前基于结构的视觉定位系统(structure-based visual localizationsystems)利用基于ransac的pnp算法(ransac-based perspective-n-point(pnp)algorithm)，在通过匹配局部描述子构建2d关键点和3d场景坐标关联之后确定相机姿态。随着深度学习的进步，基于学习的视觉定位工作主要分为三个主要部分：绝对姿态回归(absolute pose regression)、相对姿态回归(relative pose regression)和场景坐标回归(scene coordinate regression)。在这些工作中，场景坐标回归方法通过训练效果良好的卷积神经网络(convolutional neural network)直接回归3d场景坐标，并辅以pnp算法进行相机姿态回归，因其高精度和良好的表现，这些方法在当代基于学习的定位研究中备受关注。虽然这些方法取得了令人印象深刻的结果，但它们存在固有的局限性。目前的场景坐标回归框架是针对特定的场景设置的，当泛化到新场景时需要进行重新训练，即当机器人在n个场景中作业时，需要n个独立的场景坐标回归模型，这种设计使得模型的整体大小随场景数量线性增长，这对于资源受限的机器人系统来说是不现实的，导致存储需求大。基于多任务学习的视觉定位方法为应对上述挑战提供了一种有力的解决策略，它将每个特定的场景定位都视作一个独立的任务相较于为每个任务单独训练模型，多任务学习的策略通过在各任务间共享参数，大大降低了存储需求，从而能够更加高效地完成学习过程，提升了视觉定位的效率。然而现有基于多任务学习的视觉定位方法注重对于梯度的数学方法优化，而忽略了场景本身的优先级，对所有场景进行公平的优化势必会影响困难场景的定位的速度，因此目前的多场景视觉定位方法还存在定位效率低的问题。

技术实现思路

1、本发明目的是为了解决现有多场景视觉定位方法还存在定位效率低的问题，而提出了基于集中式神经网络的移动机器人多场景视觉定位方法。

2、基于集中式神经网络的移动机器人多场景视觉定位方法，包括以下步骤：

3、s1、移动机器人获取待视觉定位图像，将待视觉定位图像输入到训练好的集中式神经网络中，获得每个待视觉定位图像的三维场景坐标和一维不确定度；

4、所述待视觉定位图像为rgb图像；

5、所述待视觉定位图像为移动机器人作业的任务空间图像；

6、所述训练好的集中式神经网络，通过以下方式获得：

7、步骤一、获取任务场景图像，并将任务场景图像坐标作为任务场景图像标签，将任务场景图像及对应的标签组成训练集；

8、步骤二、利用训练集训练集中式神经网络获得训练好的集中式神经网络；

9、所述集中式神经网络包括：主体子网络、回归器子网络；

10、所述主体子网络用于获取任务场景图像的特征，并将任务场景图像的特征输入到回归器子网络；

11、所述主体子网络由k个场景分支组成，每个场景分支包括b个特征提取单元；

12、其中，k是任务场景数量，b个特征提取单元链式连接；

13、所述特征提取单元用于提取任务场景图像的中间特征表示；

14、所述特征提取单元中包括：特征提取分支子单元、注意力分支子单元、特征融合子单元；

15、所述特征提取分支子单元用于提取不同任务场景图像中的共性特征，并将共性特征发送给特征融合子单元；

16、所述特征提取分支子单元中依次包括：3*3卷积层、批归一化层、relu激活函数层；

17、所述注意力分支子单元用于学习当前任务场景图像中任务的特征掩码，并将当前任务场景图像中特定任务的特征掩码发送给特征融合子单元；

18、所述注意力分支子单元中依次包括：平均池化层、mlp层、relu激活函数层、mlp层、sigmoid激活函数层；

19、所述特征融合子单元用于将任务场景图像中的共性特征与当前任务场景图像中特定任务的特征掩码融合，获得任务场景图像的中间特征表示；

20、所述回归器子网络利用每个任务场景图像的特征获取每个任务场景图像的三维场景坐标和一维不确定度；

21、所述回归器子网络中包括并列的多个回归单元；回归单元的个数为k个；

22、所述回归单元包括：三个第一子单元、第二分支子单元、第三分支子单元；

23、三个第一子单元依次链式连接，最后一个第一子单元的输出数据为第二分支子单元和第三分支子单元的输入；

24、每个第一子单元中依次包括：3*3卷积层、批归一化层、relu激活函数层；

25、第二分支子单元中依次包括：3*3卷积层、批归一化层、relu激活函数层、1*1卷积层；

26、第三分支子单元中依次包括：3*3卷积层、批归一化层、relu激活函数层、1*1卷积层；

27、s2、利用pnp位姿求解算法和每个待视觉定位图像的三维场景坐标、一维不确定度和获得每个移动机器人摄像头的六自由度位姿。

28、进一步地，所述特征提取单元用于提取任务场景图像的中间特征表示，具体为：

29、a1、将任务场景图像输入到特征提取分支子单元提取不同任务场景图像中的共性特征，具体为：

30、

31、其中，b取1到b，b是本特征提取单元标号，是第k个任务场景对应的第b个特征提取单元的输入特征图，是第k个任务场景对应的第b个特征提取单元中特征提取分支子单元的输出特征，cin是输入特征图通道数，hin输入特征图长度，win是输入特征图宽度，γ和β是可学习参数，μ和σ2是在上计算的均值和方差，τ()是relu激活函数，∈是数值稳定性的常数，是卷积权重，co是输出特征图通道的维度，ks是卷积核大小；

32、a2、将任务场景图像输入到注意力分支子单元获得前任务场景图像中特定任务的特征掩码；

33、a3、将a1获得的不同任务场景图像中的共性特征和当前任务场景图像中特定任务的特征掩码融合获得任务场景图像的中间特征表示。

34、进一步地，所述a2中的将任务场景图像输入到注意力分支子单元获得前任务场景图像中特定任务的特征掩码，具体为：

35、

36、其中，是第k个任务场景对应的第b个特征提取单元中注意力分支子单元输出的特征掩码，分别是两个全连接层的权重，δ是sigmoid函数，r是减少比率。

37、进一步地，所述a3中的将a1获得的不同任务场景图像中的共性特征和当前任务场景图像中特定任务的特征掩码融合获得任务场景图像的中间特征表示，具体为：

38、

39、

40、其中，是第k个任务场景图像对应第b个特征提取单元输出的任务场景图像的中间特征表示，i',z∈[1,cin]，是中间变量，是的第z个元素，yk[z,:,:]是第z个通道中对应的所有元素，ai’是中的第i'个元素中。

41、进一步地，所述特征提取分支子单元、注意力分支子单元中运行过滤式共享机制，具体为：

42、所述过滤式共享机制用于将主体子网络中每个场景分支中第b个特征提取单元中特征提取分支子单元中的卷积层权重参数互相共享；

43、卷积层共享的权重参数，具体为：：

44、

45、其中，sb是可学习判断参数，φ(sb)是sb的二元函数，是第b个特征提取单元特征提取分支子单元中卷积层共享的权重参数，是第b个特征提取单元所有任务场景的共享权重，是第k个任务场景第b个特征提取单元的专属权重，b∈[1,b]。

46、进一步地，sb的二元函数φ(sb)，如下式：

47、

48、

49、其中，j'∈[1,co]，sj',b是sb的第j'个分量，λb是第b个特征提取单元的预设阈值，φ(sj',b)是sj',b的二元函数。

50、进一步地，第b个特征提取单元的预设阈值λb具体为：

51、λb＝mean(sb)+k'*std(sb)

52、其中，mean(sb)是sb中所有元素的平均值，std(sb)是sb中所有元素的方差，k'是预设加权阈值。

53、进一步地，所述步骤二中的利用训练集训练集中式神经网络获得训练好的集中式神经网络，采用如下损失函数：

54、

55、其中，是第t个轮次任务k的权重系数，是任务复杂度整合到后的损失权重，是第t个轮次任务k的动态损失。

56、进一步地，任务复杂度整合到后的损失权重如下：

57、

58、

59、

60、

61、其中，是第t个轮次任务k的归一化复杂度，lt-1是t-1个轮次所有任务的总损失，是t-1个轮次第k个任务的总损失，vk是第k个任务场景相对于所有任务场景综合的损失程度，ω'是超参数，是第t个轮次的总体初复杂度，是第k个任务第t个轮次的初复杂度。

62、进一步地，第t个轮次的总体初复杂度具体为：

63、

64、第k个任务第t个轮次的初复杂度具体为：

65、

66、其中，是t-2个轮次第k个任务的总损失，lt-2是t-2个轮次所有任务的总损失。

67、本发明的有益效果为：

68、本发明为了应对不同场景固有的复杂性和变化性，确保在多场景视觉定位任务中具有卓越的定位性能和强大的适应性提出了集中式神经网络，集中式神经网络中包括一个具有两个精简并行分支的特征提取单元(bfeu)，其中一个分支能够跨场景提取通用特征，另一个分支致力于学习针对每个单独任务的特征定制的软注意掩码，这有助于自动识别通道维度的场景独有特征。befu将特征提取分成两个并行的分支，在没有任务通用特征输入的干扰的情况下，befu的注意力分支充当显式的特定任务建模角色，因此能够提取出更多与任务相关的特征。此外，本发明提出了一种过滤式共享机制(fsm)，定义了bfeu的得分，并利用指数移动平均算法和指示函数来更新和二值化得分，使网络能够自适应地确定bfeu的参数的共享状态。最后，本发明引入了一种复杂性优先的梯度算法(cpga)，利用任务复杂性来平衡不同任务的优化进度，为不同复杂度的任务场景设置不同优先级，提升了困难任务场景定位的速度，提升了单位时间内任务场景内定位效率。同时本发明提升了复杂任务场景的定位精度。