技术新讯 > 控制调节装置的制造及其应用技术 > 基于最大熵安全强化学习的无人机路径规划方法及装置  >  正文

基于最大熵安全强化学习的无人机路径规划方法及装置

  • 国知局
  • 2024-07-31 23:44:17

本发明属于路径规划,具体涉及一种基于最大熵安全强化学习的无人机路径规划方法及装置。

背景技术:

1、随着智能化决策与空中装备性能的快速发展,无人机(unmanned aerialvehicle,uav)由于较好的机动性和灵活性在战场打击任务和灾后救援任务等方面具有良好的发展前景。所以uav需要拥有较高的自主路径规划能力,以应对复杂多变的飞行环境,其在获取动态变化的环境信息后,进行路径规划的能力就变得尤为重要。显然,如何快速且安全的到达指定目标地点是无人机路径规划的最终目标,也是无人系统领域的研究热点。

2、针对无人机路径规划问题,现有技术主要以传统的数学方法和启发式算法为主。传统的数学方法原理简单,有着很多的改进,在大多数情况下能够完成对路径规划的需求,因此有着十分广泛的应用。dijkstra算法是由edsger w.dijkstra在文献“e.w.dijkstra,anote on two problems in connexion with graphs,in edsger wybe dijkstra:hislife,work,and legacy,2022,pp.287-290”中提出的一种求解最短路径的算法,该算法通过正向遍历所有节点得到最优路径,但当节点数目过多时,该算法会消耗大量的时间与内存导致效率过低。a*是由peter等人在文献“p.e.hart,n.j.nilsson,and b.raphael,aformal basis for the heuristic determination of minimum cost paths,ieeetransactions on systems science and cybernetics,1968,vol.4,no.2,pp.100-107”中对dijkstra算法进行改进后提出的一种启发式搜索算法。a*算法通过评估函数对节点进行针对性扩展,一定程度上解决dijkstra算法的效率问题,但在地图精度较大仍会产生很大的计算量。d*是anthony stenz在文献“a.stentz,optimal and efficient path planningfor partially-known environments,in proceedings of the 1994ieee internationalconference on robotics and automation,1994:ieee,pp.3310-3317”中对a*算法的改进,d*在计算出到达终点的路径后,动态地利用评估函数对节点进行更新,并基于当前状态对下一阶段的路径进行重新规划,因此相比于a*算法,d*算法能够在动态环境下取得很好的效果。启发式算法有粒子群算法、差分进化算法、模拟退火算法等,文献“v.roberge,m.tarbouchi,and g.labonté,fast genetic algorithm path planner for fixed-wingmilitary uav using gpu,ieee transactions on aerospace and electronic systems,2018,vol.54,no.5,pp.2105-2117”提出了一种在图形处理单元上并行实现遗传算法来解决静态环境中的路径规划问题。文献“z.yu,z.si,x.li,et al,a novel hybrid particleswarm optimization algorithm for path planning of uavs,ieee internet ofthings journal,2022,vol.9,no.22,pp.22547-22558”提出了一种新的混合粒子群优化算法,该算法通过合并模拟退火算法以解决复杂环境下路径规划问题。

3、经典算法基本可以解决一些路径规划问题,但仍有不足之处,比如在复杂的环境下,经典算法计算复杂度急剧上升,甚至无法求解,这也被称为维数诅咒问题。虽然启发式算法可以在一定程度上解决经典算法的不足,但是无论是经典算法还是启发式算法,以上这些算法更适合解决静态路径规划问题。静态路径规划问题的全局环境诸如地形、障碍物和干扰的信息是已知的,并且可以在检测之前规划路径。然而,对于动态路径规划问题,全局环境信息是未知的,需要实时规划路径。相对而言,动态环境下的实时路径规划具有更大的现实意义和难度。

技术实现思路

1、为了解决现有技术中存在的上述问题,本发明提供了一种基于最大熵安全强化学习的无人机路径规划方法及装置。本发明要解决的技术问题通过以下技术方案实现:

2、第一方面,本发明提供了一种基于最大熵安全强化学习的无人机路径规划方法包括:

3、s100,己方无人机获取动态环境信息,所述动态环境信息包括己方无人机自身的状态信息、动态障碍物信息和静态障碍物信息;

4、s200,己方无人机依据所述动态环境信息、自身动作、采取动作所获得的奖励、约束信息构建无人机路径规划的决策模型,并采用基于最大熵深度强化学习的sac算法通过对所述决策模型求解得到无人机路径规划的近似最优策略;

5、s300,己方无人机基于所述近似最优策略,将所述动态环境信息输入至所述决策模型中得到当前执行动作,并按照所述当前执行动作执行直至达到目的地得到无人机的规划路径。

6、第二方面,本发明提供了一种基于最大熵安全强化学习的无人机路径规划装置包括:

7、获取模块,被配置为己方无人机获取动态环境信息,所述动态环境信息包括己方无人机自身的状态信息、动态障碍物信息和静态障碍物信息;

8、训练模块,被配置为己方无人机依据所述动态环境信息、自身动作、采取动作所获得的奖励、约束信息构建无人机路径规划的决策模型,并采用基于最大熵深度强化学习的sac算法通过对所述决策模型求解得到无人机路径规划的近似最优策略;

9、规划模块,被配置为己方无人机基于所述近似最优策略,将所述动态环境信息输入至所述决策模型中得到当前执行动作,并按照所述当前执行动作执行直至达到目的地得到无人机的规划路径。

10、有益效果:

11、本发明针对空域场景下受约束的无人机路径规划问题,提出了一种基于最大熵安全强化学习的无人机路径规划方法及装置,采用最大熵深度强化学习中的sac算法对构建的决策模型作迭代训练,在训练过程中构建了一个空域场景下无人机路径规划的强化学习环境,环境设有静态障碍物、动态障碍物与目标地点。其次,考虑到无人机的动力学方程约束以及其安全避障需求,从安全强化学习的角度将该路径规划问题建模为约束markov决策过程。最后,设计了相应的奖励函数,采用sac算法迭代寻求该问题的近似最优策略,并用monte carlo测试对算法进行了分析。结果表明,本发明sac算法训练后的无人机能够在动态不确定的环境中自主进行路径规划,并且比其他策略更具优越性,规划出的动态环境下的路径更准确。

12、以下将结合附图及实施例对本发明做进一步详细说明。

本文地址:https://www.jishuxx.com/zhuanli/20240730/198365.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。