技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于终身学习的视觉定位方法和装置 > 正文

基于终身学习的视觉定位方法和装置

国知局
2024-10-21 15:25:23

本技术涉及计算机视觉、图像处理，特别是涉及基于终身学习的视觉定位方法和装置。

背景技术：

1、鲁棒且高精度的定位与建图是实现无人平台自主导航的基础。其中，基于几何模型的传统视觉同时定位与建图系统（slam）因其低廉的成本与轻量的结构而得到了广泛的应用。

2、基于几何模型的传统视觉同时定位与建图系统主要由：特征跟踪，局部地图管理和闭环校正三大模块构成。其中，特征跟踪和局部地图管理这两模块根据前后帧图像匹配信息以及滑动窗口内局部地图信息进行位姿求解与优化，这两模块可统称为视觉里程计；随后闭环检测模块再根据当前路段中检测的闭环节点来校正里程计积累误差。

3、然而，在纹理稀少以及光照变化较为剧烈的环境下，前端的里程计很难找到足够的可靠特征点，这容易导致跟踪失败的情况发生。这种现象归咎于前端基于手工设计的局部特征检测和匹配算法是基于图像区块的像素梯度等低层图像信息开发的。因此光照的剧烈变化极容易影响特征点提取算法的性能从而引发slam整体系统的定位失败。

4、因此，出现了基于深度学习的自监督单目视觉定位方法（基于自监督学习的视觉里程计），该方法使用卷积神经网络构成视觉特征提取器以此来提取图像的全局特征并端对端的转化为位姿估计值，采用多视图几何模型构建误差函数以此来优化网络的训练，通过多轮迭代训练得到优化后的位姿估计值，在训练过程中不需要位姿标签。然而，该方法无法准确估计场景的尺度信息，因此应用场景受限。

5、深度估计是一种从单张或者多张图像预测场景深度信息的技术，是计算机视觉领域非常热门的研究方向，在三维重建、场景理解、环境感知等任务中起到了关键作用。根据训练方式的不同，现有方法主要分为基于监督学习、无监督学习和半监督学习三大类。有监督方法需要大量输入图像与深度图数据对来驱动模型的训练，但是由于真实的深度图获取困难，此类方法的成本高昂。而无监督方法无须自带标签的数据即可完成模型的训练，算法根据数据本身的结构和特性，通过几何关系，将标签构造出来，这种方法可以充分利用数据中的几何信息对模型进行训练。使用深度估计方法，能够生成全局尺度一致的深度标签。

6、深度学习方法是将原始数据通过多层神经网络的前向传播映射到一个高维度的特征空间，将原始信息转化为高维隐式特征，在迭代训练的过程中，该隐式特征会选择性的保留原始数据中与当前任务相关的信息，与当前任务不相关的信息会被舍去。同样的，深度学习神经网络的参数也会根据当前任务的数据分布进行调整。如果一个在先前任务数据上训练的深度学习神经网络在新任务数据上进一步训练，网络为了减小误差会迭代调整网络参数使得参数能拟合新任务的数据分布，应用于原先任务的网络参数信息则会大量丢失。如果两个数据分布存在明显差异则在新任务数据上调整的网络参数无法适用于先前任务数据。

7、基于自监督学习的视觉里程计本质上是一种基于深度学习的定位方法，深度学习类的方法是在训练集上对输入数据与预测标签的非线性关系进行拟合。然而在训练新分布的数据时，原先训练的数据的测试性能会大幅度降低。这在深度学习领域称为“灾难性遗忘”。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种基于终身学习的视觉定位方法和装置，能够减缓“灾难性遗忘”现象。

2、基于终身学习的视觉定位方法，包括：

3、获取图像序列，所述图像序列包括时间上连续的多组图像，每组图像包括目标图像和源图像；

4、根据深度估计网络和位姿估计网络，分别构建快速学习模型和持续记忆模型；

5、根据快速学习模型和持续记忆模型，分别得到重投影图像，以计算一致性误差；以所述图像序列作为输入图像，根据所述一致性误差，对快速学习模型进行训练，得到快速学习模型参数；

6、根据快速学习模型参数，对所述持续记忆模型进行更新，得到持续记忆模型参数；持续记忆模型参数为：

7、；

8、式中，为持续记忆模型参数，为持续记忆模型中深度估计网络参数，为持续记忆模型中位姿估计网络参数；

9、根据快速学习模型参数和持续记忆模型参数，进行视觉定位。

10、在一个实施例中，根据快速学习模型和持续记忆模型，分别得到重投影图像，包括：

11、根据快速学习模型，预测目标图像与对应源图像之间的相对位姿，结合所述相对位姿与相机矩阵，将源图像扭曲到对应目标图像，得到快速学习模型的重投影图像；

12、根据持续记忆模型，预测目标图像与对应源图像之间的相对位姿，结合所述相对位姿与相机矩阵，将源图像扭曲到对应目标图像，得到持续记忆模型的重投影图像。

13、在一个实施例中，计算一致性误差，包括：

14、计算快速学习模型的重投影图像与持续记忆模型的重投影图像之间的像素时空一致性，以所有像素时空一致性的平均值作为一致性误差。

15、在一个实施例中，计算快速学习模型的重投影图像与持续记忆模型的重投影图像之间的像素时空一致性，包括：

16、；

17、式中，为像素时空一致性，为平衡参数，为和之间的结构相似性指数，为持续记忆模型的重投影图像，为快速学习模型的重投影图像。

18、在一个实施例中，以所述图像序列作为输入图像，根据所述一致性误差，对快速学习模型进行训练，得到快速学习模型参数，包括：

19、以所述图像序列作为输入图像，计算光度损失和平滑损失，以构成无监督深度估计的总训练损失，得到无监督误差；

20、根据所述无监督误差以及所述一致性误差，对快速学习模型进行训练，得到快速学习模型参数。

21、在一个实施例中，快速学习模型参数为：

22、；

23、式中，为快速学习模型参数，为快速学习模型中深度估计网络参数，为快速学习模型中位姿估计网络参数。

24、在一个实施例中，根据快速学习模型参数，对所述持续记忆模型进行更新，得到持续记忆模型参数，包括：

25、通过知识蒸馏学习的方式，将快速学习模型参数固化至持续记忆模型的自身网络参数中，以对所述持续记忆模型进行更新，得到持续记忆模型参数。

26、在一个实施例中，在获取图像序列之后，还包括：构建经验回放池，以所述经验回放池的输出和所述图像序列一起作为输入图像；

27、所述经验回放池用于图像序列的记忆和回放。

28、基于终身学习的视觉定位装置，包括：

29、获取模块，用于获取图像序列，所述图像序列包括时间上连续的多组图像，每组图像包括目标图像和源图像；

30、构建模块，用于根据深度估计网络和位姿估计网络，分别构建快速学习模型和持续记忆模型；

31、学习模块，用于根据快速学习模型和持续记忆模型，分别得到重投影图像，以计算一致性误差；以所述图像序列作为输入图像，根据所述一致性误差，对快速学习模型进行训练，得到快速学习模型参数；

32、记忆模块，用于根据快速学习模型参数，对所述持续记忆模型进行更新，得到持续记忆模型参数；持续记忆模型参数为：

33、；

34、式中，为持续记忆模型参数，为持续记忆模型中深度估计网络参数，为持续记忆模型中位姿估计网络参数；

35、定位模块，用于根据快速学习模型参数和持续记忆模型参数，进行视觉定位。

36、上述基于终身学习的视觉定位方法和装置，将脑神经科学中的互补学习理论引入到视觉里程计的构建中，参考“海马体-脑皮层”互补学习模型，设计了“快速学习-持续记忆”的双网络视觉里程计框架，以形成终身学习方法，并参考人脑中的回忆机制，设计了一种基于水塘抽样的经验回放框架，能够减缓深度学习“灾难性遗忘”现象，并保证网络保留有先前任务的性能。具体地：快速学习模型模拟海马体的快速学习功能，使用典型的自监督误差对网络进行训练，使用训练误差梯度优化快速学习模型参数；同时，持续记忆模型则将快速学习模型参数通过蒸馏学习的方式固化至自身网络参数中，并构建一致性误差，约束“持续记忆”网络与“快速学习”网络的参数变化，达到减缓“灾难性遗忘”现象的目的。