水下机器人路径规划方法和装置
- 国知局
- 2024-08-01 00:14:31
本发明涉及机器人,尤其涉及一种水下机器人路径规划方法和装置。
背景技术:
1、随着全球人口的增长,人类对于海洋渔业资源的需求逐渐增加。海洋牧场网箱巡检不仅关乎着养殖生物的健康和养殖环境的稳定,更直接关系到海洋资源的可持续利用和海洋生态系统的保护。传统的巡检方法往往依赖于人工操作或简单的机械设备,效率低下、成本高昂、无法满足实时监测的需求,且易受环境条件的限制。采用水下机器人进行水下巡检被广泛认为是一种可行的方案,然而,在复杂的海洋环境下,如何快速、高效的生成一条最优的巡检路径仍然值得不断探索。
技术实现思路
1、本发明提供一种水下机器人路径规划方法和装置,用以解决现有技术中的水下巡检路径规划方法在复杂环境中的路径规划效率和准确性较低的缺陷。
2、第一方面,本发明提供一种水下机器人路径规划方法,包括:
3、获取水下机器人当前时刻的状态空间,所述状态空间包括位置信息和航向信息;
4、将所述状态空间输入至预先构建的多智能体强化学习模型中,得到所述多智能体强化学习模型输出的所述水下机器人当前时刻的动作空间,所述动作空间包括俯仰驱动力和偏航驱动力;
5、其中,所述多智能体强化学习模型是基于样本水下机器人t时刻的样本状态空间训练得到的。
6、在一些实施例中,所述多智能体强化学习模型的确定过程包括:
7、确定目标起点和目标终点,基于差分进化粒子群优化算法de-pso从所述目标起点至所述目标终点进行全局路径搜索,得到初始路径;
8、对所述初始路径进行膨胀,得到可行区域;
9、基于所述可行区域和所述样本水下机器人t时刻的样本状态空间,利用双深度q网络ddqn对初始多智能体强化学习模型进行训练,训练完成后得到所述多智能体强化学习模型。
10、在一些实施例中,所述确定目标起点和目标终点,基于差分进化粒子群优化de-pso算法从所述目标起点至所述目标终点进行全局路径搜索,得到初始路径,包括:
11、获取水下所有待监测网箱的位置坐标和尺寸信息,确定所述目标起点和目标终点,设定粒子群种群数目和最大迭代次数,初始化de-pso算法参数,确定每一粒子的初始位置和初始速度,所述每一粒子表示网箱巡检路径优化问题的一个解;
12、确定所述每一粒子的最优解,计算所述每一粒子的适应度值,根据所述每一粒子的适应度值,确定所述粒子群的全局最优解;
13、根据所述每一粒子的最优解和所述全局最优解,对所述每一粒子的速度和位置进行更新;
14、从所述粒子群中确定候选粒子,基于所述候选粒子进行变异操作,得到变异粒子,对所述变异粒子的位置进行更新;
15、计算所述候选粒子和所述变异粒子的适应度值,确定下一代粒子;
16、计算各所述下一代粒子的适应度值,确定各所述下一代粒子的个体最优解和对应的群体最优解;
17、判断是否满足终止条件,若是,则输出所述群体最优解,若否,则从根据所述每一粒子的最优解和所述全局最优解,对所述每一粒子的速度和位置进行更新开始进行循环,直至输出所述群体最优解。
18、在一些实施例中,所述每一粒子的速度更新公式如下:
19、
20、其中,vi(k+1)表示第i个粒子在第k+1次迭代的速度,vi(k)表示第i个粒子在第k次迭代的速度,表示第i个粒子在第k次迭代的最优解,gpa(k)表示所述粒子群第k次迭代的全局最优解,xi(k)表示第i个粒子在第k次迭代的位置,w为惯性权重,r1和r2为0到1之间的随机数,c1和c2为学习因子;
21、所述每一粒子的位置更新公式如下:
22、xi(k+1)=xi(k)+vi(k+1)
23、其中,xi(k+1)表示第i个粒子在第k+1次迭代的位置。
24、在一些实施例中,所述利用双深度q网络ddqn对初始多智能体强化学习模型进行训练,包括:
25、将所述t时刻的样本状态空间输入至所述初始多智能体强化学习模型中的选择q网络,得到所述初始多智能体强化学习模型输出的所述样本水下机器人t时刻的动作空间的预测结果;
26、利用所述初始多智能体强化学习模型中的评估q网络构建多个奖励函数,基于所述样本水下机器人t时刻的动作空间的预测结果,以及所述可行区域,计算总奖励函数值;
27、基于所述总奖励函数值,对所述选择q网络的参数进行更新;
28、按照预设时间间隔对所述评估q网络的参数进行更新。
29、在一些实施例中,所述多个奖励函数包括到达目标点对应的第一奖励函数、可行区域搜索对应的第二奖励函数、规避静态障碍物对应的第三奖励函数以及角度和距离对应的第四奖励函数,所述总奖励函数值的表达式如下:
30、rtot=η1*rtarget+η2*rprior+η3*robstacle+η4*rdis_ang
31、其中,rtotal表示所述总奖励函数值,rtarget表示第一奖励函数值,rprior表示第二奖励函数值,robstacle表示第三奖励函数值,rdis_ang表示第四奖励函数值,η1表示第一奖励函数值的权重,η2表示第二奖励函数值的权重,η3表示第三奖励函数值的权重,η4表示第四奖励函数值的权重。
32、在一些实施例中,所述第一奖励函数值的计算公式如下:
33、
34、其中,d2tar表示所述水下机器人的当前位置与目标点的欧式距离,dthr表示预设的第一距离阈值,μ1为正奖励值;
35、所述第二奖励函数值的计算公式如下:
36、
37、其中,st+1表示所述初始多智能体强化学习模型预测的路径,aprior表示所述可行区域,μ2为正奖励值,μ3为负奖励值;
38、所述第三奖励函数值的计算公式如下:
39、其中,st+1表示所述初始多智能体强化学习模型预测的路径,aprior表示所述可行区域,μ2为正奖励值,μ3为负奖励值;
40、所述第三奖励函数值的计算公式如下:
41、
42、其中,lobs表示所述水下机器人与静态障碍物之间的距离,lt_obs表示预设的第二距离阈值,μ4为负奖励值;
43、所述第四奖励函数值的计算公式如下:
44、
45、其中,lt表示当前时刻所述水下机器人与目标点之间的距离,lt+1表示执行所述当前时刻的动作空间后,下一时刻所述水下机器人与目标点之间的距离,μ5,μ6,μ7,μ8,m1,m2为正系数,φ1表示所述水下机器人的实际俯仰角与理想俯仰角之差的绝对值,φ2表示所述水下机器人的实际偏航角与理想偏航角之差的绝对值。
46、在一些实施例中,所述选择q网络包括注意力增强的长短期记忆lstm模型,所述将所述样本状态空间输入至所述初始多智能体强化学习模型中的选择q网络,得到所述初始多智能体强化学习模型输出的所述样本水下机器人t时刻的动作空间的预测结果,包括:
47、计算每一时刻的样本状态空间对应的隐藏状态,基于软注意力机制计算所述每一时刻的样本状态空间的注意力权重;
48、基于所述每一时刻的样本状态空间对应的隐藏状态和所述每一时刻的样本状态空间的注意力权重,计算加权隐藏状态;
49、基于所述加权隐藏状态,得到所述样本水下机器人t时刻的动作空间的预测结果。
50、在一些实施例中,所述隐藏状态的更新公式如下:
51、it=σ(wixst+wihht-1+bi)
52、ft=σ(wfxst+wfhht-1+bf)
53、ot=σ(woxst+wohht-1+bo)
54、gt=tanh(wgxst+wghht-1+bg)
55、ct=ft*ct-1+it*gt
56、ht=ot*tanh(ct)
57、其中,it、wix、wih和bi表示所述lstm模型的输入门的参数,ft、wfx、wfh和bf表示所述lstm模型的遗忘门的参数,ot、wox、woh和bo表示所述lstm模型的输出门的参数,gt、wgx、wgh和bg表示所述lstm模型的更新门的参数,st表示第t时刻的样本状态空间,ht表示第t时刻的隐藏状态,ht-1表示第t-1时刻的隐藏状态,ct表示第t时刻的记忆参数,ct-1表示第t-1时刻的记忆参数;
58、所述加权隐藏状态的计算公式如下:
59、αt=softmax(wαht+ba)
60、
61、其中,c′表示加权隐藏状态,αt表示第t时刻的样本状态空间的注意力权重,wα和ba表示所述软注意力机制的参数。
62、第二方面,本发明还提供一种水下机器人路径规划装置,包括:
63、获取单元,用于获取水下机器人当前时刻的状态空间,所述状态空间包括位置信息和航向信息;
64、输出单元,用于将所述状态空间输入至预先构建的多智能体强化学习模型中,得到所述多智能体强化学习模型输出的所述水下机器人当前时刻的动作空间,所述动作空间包括俯仰驱动力和偏航驱动力;
65、其中,所述多智能体强化学习模型是基于样本水下机器人t时刻的样本状态空间训练得到的。
66、本发明提供的一种水下机器人路径规划方法和装置,通过获取水下机器人当前时刻的状态空间,将状态空间输入至预先构建的多智能体强化学习模型中,得到多智能体强化学习模型输出的所述水下机器人当前时刻的动作空间,能够在复杂环境中准确、高效地进行路径规划。
本文地址:https://www.jishuxx.com/zhuanli/20240730/200184.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表