技术新讯 > 控制调节装置的制造及其应用技术 > 基于语义强化学习的自主水下机器人轨迹跟踪控制方法 > 正文

基于语义强化学习的自主水下机器人轨迹跟踪控制方法

国知局
2024-08-01 00:15:51

本发明属于水下机器人控制，具体涉及基于语义强化学习的自主水下机器人轨迹跟踪控制方法。

背景技术：

1、随着社会、经济的发展，海底光缆、管道的铺设距离越来越长。随之而来的问题是对其日常维护、巡检工作日益增加。同时，海洋环境的光照弱，能见度低，并且存在动态障碍物和变化海流的影响，增加了维护、巡检的难度。近年来，传感器技术、智能制造以及人工智能等新一代信息技术的飞速发展，机器人逐渐代替人完成高危环境中的工作。自主水下机器人作为一种典型的智能无人系统，因自带能量、控制灵活、航行范围广而深、作业类型丰富等特性，成为巡检海底光缆、管道的重要载体。

2、海底光缆、管道维护和巡检的一个重要环节是对光缆和管道进行跟踪。强化学习能够通过与环境交互、学习做出最优决策，是自主水下机器人实现轨迹跟踪的常用方法。然而，基于强化学习的自主水下机器人轨迹跟踪存在以下难点：（1）动态的海洋环境给自主水下机器人的感知带来困难，尤其是动态障碍物和其他的巡检水下机器人增加了发生碰撞的几率，仅仅通过自主水下机器人携带的视觉传感器感知信息，很难准确预测潜在的危险，实现精准避障。（2）强化学习采用试错的方式找出最优决策，动态的环境可能突然出现障碍物，使得自主水下机器人在训练过程中无法躲避，其安全性得不到保证，从而难以完成海底光缆、管道巡检。（3）海洋环境中海流是影响自主水下机器人航行的因素之一，在跟踪过程中一旦海流使自主水下机器人偏离轨迹，之前训练的模型无法适用于偏航后的轨迹跟踪。同时，一旦环境发生变化，之前学习得到的最优策略不再适用，需要重新计算得到新的最优策略。强化学习通常采用放弃原有策略，从初始状态开始学习。该方式跟踪效率较低，没有充分利用已有的经验，这与实际需求不一致。

3、因此，基于上述三个难点需要设计出更行知有效的轨迹跟踪方法使得自主水下机器人具有更高的巡检效率，得到更好的安全保障，使其能够符合实际工程的需求。

技术实现思路

1、本发明所要解决的技术问题是针对上述现有技术的不足，提供基于语义强化学习的自主水下机器人轨迹跟踪控制方法。

2、为实现上述技术目的，本发明采取的技术方案为：

3、基于语义强化学习的自主水下机器人轨迹跟踪控制方法，包括：

4、s1：自主水下机器人通过视觉传感器获取海洋环境图像信息；

5、s2：基于海洋环境图像信息，利用基于强化学习的轨迹跟踪控制器进行强化学习训练，得到最优的运动决策；

6、s3：采用语义理解器对海洋环境图像信息进行海洋环境特征点提取和语义理解，得到海洋环境语义；

7、s4：采用安全检查器对最优的运动决策、海洋环境语义、历史不安全事件信息判断自主水下航行器的运动决策是否安全，若安全，则自主水下机器人执行运动决策，并返回s1，否则执行s5；

8、s5：对于不安全的动作，自主水下机器人在安全约束下利用强化学习重新做出新的运动决策，然后执行s4的安全判断，若仍不安全，表示自主水下机器人无法躲避发生碰撞，则将当前不安全事件存储至安全检查器中，并基于状态恢复机制重训练。

9、为优化上述技术方案，采取的具体措施还包括：

10、上述的s3采用语义理解器对海洋环境图像信息进行海洋环境特征点提取和语义理解，得到海洋环境语义，包括：

11、s31：将海洋环境图像信息输入语义编码器，语义编码器将海洋环境图像信息输入语义分割网络，获得像素级语义图像；

12、s32：语义编码器对海洋环境图像信息进行光流跟踪，通过比较当前图像和之前图像的差别，分辨出静态管道、电缆和动态障碍物的特征点，并剔除动态障碍物的特征点，得到剔除动态障碍物特征点的图像；

13、s33：将剔除动态障碍物特征点的图像和像素级语义图像进行语义信息融合；

14、s34：在融合后的语义信息中根据特征点最小距离设置特征点均匀分布掩膜，从而分离出静态的需要跟踪管道、电缆的语义编码信息，实现静态跟踪对象从融合后的语义信息中的分离；

15、s35：在分离出了静态跟踪对象的融合后的语义信息中设置感兴趣的区域，即动态障碍物的区域；

16、s36：在所述感兴趣的区域重新提取特征点，得到动态障碍物的语义编码信息，

17、s37：将语义编码信息输入到语义解码器，得到海洋环境语义信息。

18、上述的语义解码器采用lstm解码器。

19、上述的s5对于不安全的动作，自主水下机器人在安全约束下利用强化学习重新做出新的运动决策，包括：

20、s51：定义一个临界状态集和不安全动作集，如公式（7）和（8）所示：

21、；（7）

22、；（8）

23、其中，表示自主水下机器人的临界状态集，、是第 t时刻和第 t+1时刻自主水下机器人的状态，是自主水下机器人的状态集，是自主水下机器人的危险状态集，是自主水下机器人不安全动作集，是第 t时刻自主水下机器人的动作，是自主水下机器人的动作集；

24、s52：基于临界状态集和不安全动作集，预测围绕障碍物的危险状态以及各个状态对应的危险动作为：

25、；（9）

26、其中，是危险状态集合中的一个特定危险状态，，表示预测的危险状态和该状态对应的预测危险动作，表示根据危险状态预测的危险状态集，表示根据预测的危险状态预测的危险动作集；

27、s53：将预测的危险状态和危险动作添加到训练集中，对强化学习进行训练；

28、s54：通过步骤s53的训练以后，自主水下机器人采用选择策略，根据不同的概率选择不同的行动，当概率为时，动作和状态选择策略为：

29、；（10）

30、当概率为时，自主水下机器人的动作和状态策略选择：

31、（11）

32、其中，表示在状态为、动作为情况下的最优的行动策略，是状态为、动作为情况下所有动作累计奖励值，是除不安全动作之外的所有动作累计奖励值，为探索概率，表示利用概率；

33、s55：根据步骤s54的策略选择的自主水下机器人的动作和状态，使得自主水下机器人对管道、电缆的轨迹跟踪表示为寻找基于安全检查器的安全约束下的最大化动作代价函数；

34、s56：自主水下机器人做完一次动作以后，对最大动作代价函数进行更新；

35、s57：自主水下机器人基于所述的最大化动作代价函数及其更新，做出新的运动决策。

36、上述的s55所述的最大化动作代价函数为：

37、；（12）

38、同时满足安全约束：

39、；（13）

40、其中，表示行动决策为情况下的可以积累的奖励，表示奖励的折扣因子，表示在状态采取动作后可以获得的奖励值，表示在行动决策情况下的数学期望，表示时刻。

41、上述的s56对最大动作代价函数进行更新，其表示为：

42、；（14）

43、其中，表示状态为、动作为情况下所有动作累计奖励值，表示状态为、动作为情况下所有动作累计奖励值，表示强化学习的学习效率，状态为、动作为情况下得到的奖励。

44、上述的s5将当前不安全事件存储至安全检查器中，并基于状态恢复机制重训练，包括：

45、步骤a）对自主水下机器人进行管道、电缆跟踪巡检的运动策略和所述运动策略引起的安全状态进行采样并记录，如公式（15）所示：

46、；（15）

47、其中，表示安全状态和运动策略的序列，，，表示第1时刻、第2时刻、第 t时刻的安全状态，，，表示第1时刻、第2时刻、第 t时刻的运动策略；

48、步骤b）对每个采样的安全状态赋予一个考虑时间系数、安全状态相关性系数、安全性系数的可信度因子；

49、步骤c）当发生不可避免的安全事件时，状态恢复机制从赋值后的安全状态中选择值最大的可信度因子对应的安全状态作为重新训练返回的开始状态；

50、步骤d）安全强化学习返回到上一个安全状态，并将引发不安全事件添加到训练集中，重新开始训练。

51、上述的可信度因子为：

52、；（16）

53、；（17）

54、；（18）

55、；（19）

56、可信度因子与对应状态的序列，如公式（20）所示：

57、；（20）

58、其中，，，表示第1时刻、第2时刻、第 t时刻的安全状态对应的可信度因子，表示时间系数，表示安全状态和的相关性系数，表示安全性系数，表示时间、相关性系数和安全性系数在可信度因子中所占权重，表示可信度因子与对应状态的序列，，，表示第1时刻、第2时刻、第 t时刻的安全状态，表示两个安全状态间的时间间隔，表示安全状态和的协方差，，表示安全状态和的自相关性，、是常数，表示相邻安全状态的安全值。

59、上述的步骤c）当发生不可避免的安全事件时，状态恢复机制从赋值后的安全状态中选择值最大的可信度因子对应的安全状态作为重新训练返回的开始状态，如公式（21）所示：

60、（21）

61、其中，表示发生不安全事件后安全强化学习重训练返回的开始状态，表示值最大的可信度因子对应的安全状态。

62、本发明具有以下有益效果：

63、首先在环境感知环节中增加视觉语义理解，使自主水下机器人能够更好的理解环境信息以及变化，预测潜在的危险，然后，充分利用强化学习自适应性强的优点，在训练环节增加安全约束，着力保证自主水下机器人的安全性，最后，设计状态恢复机制，一旦自主水下机器人发生碰撞，能够自动恢复到上一个最优安全状态，而不是恢复到初始状态重新开始训练，提高训练效率。