基于ETM-MDQN的无人机自适应路径规划方法、装置及介质
- 国知局
- 2024-07-31 23:42:22
本发明涉及智能信息,尤其是涉及一种基于etm-mdqn的无人机自适应路径规划方法、装置及介质。
背景技术:
1、随着无人机技术的不断成熟,无人机已经广泛应用到农业、军事、救援等各个领域。在面临三维复杂环境时,无人机如何快速稳定的实现自适应路径规划,是确保其安全飞行和成功完成任务的关键。虽然现有的强化学习方法在路径规划的研究中应用广泛,但是其与环境交互的过程中往往需要消耗大量的时间和计算资源。除此之外,现有的方法没有考虑更长时间范围内的奖励信号,导致不能更有效地处理长时间的依赖性。
技术实现思路
1、本发明的目的是考虑到现有技术中过于频繁的策略更新可能导致无人机飞行轨迹的不稳定性,甚至需要更多的计算资源和能量,从而影响无人机的能源效率的问题,而提供一种基于etm-mdqn的无人机自适应路径规划方法、装置及介质,基于事件触发机制etm(event-triggering mechanism),通过设置触发条件和相应的事件操作,减少时间的消耗,提高计算的效率;使用的度强化学习的mdqn(multi-step dqn)算法以考虑未来多个时间步的奖励,而不仅仅是当前时间步的奖励,更全面地评估动作的长期影响,且通过平滑奖励信号减缓训练中的不稳定性,并通过事件触发机制节省无人机路径规划的计算资源。
2、本发明的目的可以通过以下技术方案来实现:
3、一种基于etm-mdqn的无人机自适应路径规划方法,包括以下步骤:
4、步骤1:构建深度强化学习mdqn网络,将无人机路径规划问题建模为马尔可夫决策过程;
5、步骤2:根据无人机与障碍物的实际距离状态和状态变化误差设定事件触发机制的触发条件,当满足预设的事件触发条件时更新无人机的动作策略和mdqn网络的q值;
6、步骤3:通过最小化损失函数优化mdqn网络的参数;
7、步骤4:利用优化后的mdqn网络进行实时无人机自适应路径规划。
8、所述马尔可夫决策过程的状态空间s包括无人机、目标点和障碍物的二维位置坐标,无人机和目标点、障碍物之间的距离,以及无人机的速度和运动方向。
9、所述马尔可夫决策过程的动作空间a由无人机的速度以及速度方向和水平线的夹角表示,动作输出为由角度变化量和速度组成的元组。
10、所述马尔可夫决策过程的奖励函数r包括目标奖励、障碍物奖励和角度奖励:
11、r=r1+r2+r3
12、其中,r1表示目标奖励,r2表示障碍物奖励,r3表示角度奖励,
13、
14、
15、
16、其中,ddm为无人机n与目标点的初试距离,ddm'为无人机到目标点的实际距离,dbn为无人机到障碍物的距离,dh为无人机与障碍物的安全距离,βn为无人机的当前方向和目标方向之间的偏离角。
17、根据无人机的当前状态和ε-greedy策略,mdqn网络执行n步动作,累积对应的奖励,基于mdqn的价值网络预测对应的q值并将其作为目标q值进行训练,执行当前时刻的最优动作策略,得到对应的奖励和新状态,并将当前状态、动作、奖励、新状态存储到经验回放缓冲区中;其中,所述ε-greedy策略在mdqn网络训练过程中采用指数方式逐步减小探索率ε的值。
18、所述步骤2中的事件触发机制中设定的触发条件包括无人机与障碍物的实际距离状态s(t)和状态变化误差e(t),如果无人机与障碍物的实际距离小于或等于设定的安全距离,并且当前状态与最近一次触发状态之间的变化误差e(t)超过预设的阈值m(t),则触发事件来更新无人机的动作策略和mdqn的q值。
19、所述mdqn网络以均方差作为损失函数计算目标q值与预测q值之间的差异:
20、l(θ)=e[(yt(n)-q(st,at;θ))2]
21、其中,e是贝尔曼方程,q(st,at;θ)为网络输出的q值,st为t时刻的状态,at为t时刻无人机的动作,θ为价值网络的参数,yt(n)为价值网络预测的目标q值。
22、所述mdqn网络利用adam优化器估计梯度的一阶矩和二阶矩来调整学习率,执行梯度下降法更新价值网络的参数θ,同时,使用软更新方法将价值网络的参数与目标网络的参数θ'进行加权平均,以此来最小化损失函数l(θ),将当前的q值q(st,at;θ)向目标q值yt(n)进行一步更新:
23、q(st,at;θ)←(1-α)·q(st,at;θ)+αyt(n)
24、其中α为学习率,控制新估计q值和旧估计q值之间的权衡。
25、一种基于etm-mdqn的无人机自适应路径规划装置,包括存储器、处理器,以及存储于所述存储器中的程序,所述处理器执行所述程序时实现如上述所述的方法。
26、一种存储介质,其上存储有程序,所述程序被执行时实现如上述所述的方法。
27、与现有技术相比,本发明具有以下有益效果:
28、(1)本发明利用事件触发的思想,将其应用于深度强化学习问题中,根据无人机与障碍物的安全距离设置事件触发的条件,当无人机远离障碍物时保持原有的动作策略,降低了策略更新频率,有效减轻了算法的计算负担。
29、(2)本发明使用深度强化学习的mdqn算法以考虑未来多个时间步的奖励,而不仅仅是当前时间步的奖励,更全面地评估动作的长期影响,且通过平滑奖励信号减缓训练中的不稳定性,能够更有效地利用收集的经验来更新q值,进而帮助无人机更好地执行路径规划。
技术特征:1.一种基于etm-mdqn的无人机自适应路径规划方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于etm-mdqn的无人机自适应路径规划方法,其特征在于,所述马尔可夫决策过程的状态空间s包括无人机、目标点和障碍物的二维位置坐标,无人机和目标点、障碍物之间的距离,以及无人机的速度和运动方向。
3.根据权利要求1所述的一种基于etm-mdqn的无人机自适应路径规划方法,其特征在于,所述马尔可夫决策过程的动作空间a由无人机的速度以及速度方向和水平线的夹角表示,动作输出为由角度变化量和速度组成的元组。
4.根据权利要求1所述的一种基于etm-mdqn的无人机自适应路径规划方法,其特征在于,所述马尔可夫决策过程的奖励函数r包括目标奖励、障碍物奖励和角度奖励:
5.根据权利要求1所述的一种基于etm-mdqn的无人机自适应路径规划方法,其特征在于,根据无人机的当前状态和ε-greedy策略,mdqn网络执行n步动作,累积对应的奖励,基于mdqn的价值网络预测对应的q值并将其作为目标q值进行训练,执行当前时刻的最优动作策略,得到对应的奖励和新状态,并将当前状态、动作、奖励、新状态存储到经验回放缓冲区中;其中,所述ε-greedy策略在mdqn网络训练过程中采用指数方式逐步减小探索率ε的值。
6.根据权利要求1所述的一种基于etm-mdqn的无人机自适应路径规划方法,其特征在于,所述步骤2中的事件触发机制中设定的触发条件包括无人机与障碍物的实际距离状态s(t)和状态变化误差e(t),如果无人机与障碍物的实际距离小于或等于设定的安全距离,并且当前状态与最近一次触发状态之间的变化误差e(t)超过预设的阈值m(t),则触发事件来更新无人机的动作策略和mdqn的q值。
7.根据权利要求1所述的一种基于etm-mdqn的无人机自适应路径规划方法,其特征在于,所述mdqn网络以均方差作为损失函数计算目标q值与预测q值之间的差异:
8.根据权利要求7所述的一种基于etm-mdqn的无人机自适应路径规划方法,其特征在于,所述mdqn网络利用adam优化器估计梯度的一阶矩和二阶矩来调整学习率,执行梯度下降法更新价值网络的参数θ,同时,使用软更新方法将价值网络的参数与目标网络的参数θ'进行加权平均,以此来最小化损失函数l(θ),将当前的q值q(st,at;θ)向目标q值进行一步更新:
9.一种基于etm-mdqn的无人机自适应路径规划装置,包括存储器、处理器,以及存储于所述存储器中的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-8中任一所述的方法。
10.一种存储介质,其上存储有程序,其特征在于,所述程序被执行时实现如权利要求1-8中任一所述的方法。
技术总结本发明涉及一种基于ETM‑MDQN的无人机自适应路径规划方法、装置及介质,其中方法包括以下步骤:构建深度强化学习MDQN网络,将无人机路径规划问题建模为马尔可夫决策过程;根据无人机与障碍物的实际距离状态和状态变化误差设定事件触发机制的触发条件,当满足预设的事件触发条件时更新无人机的动作策略和MDQN网络的Q值;通过最小化损失函数优化MDQN网络的参数;利用优化后的MDQN网络进行实时无人机自适应路径规划。与现有技术相比,本发明充分利用计算资源,考虑了未来多个时间步的奖励,提高了复杂环境下路径规划策略的鲁棒性和有效性。技术研发人员:薛珊,刘哲,张卫东,谢威,苏晓杰,刘腾飞,王海,陈挚,陈浩,贾泽华,郭东生,谢涛受保护的技术使用者:海南大学技术研发日:技术公布日:2024/6/18本文地址:https://www.jishuxx.com/zhuanli/20240730/198181.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。