技术新讯 > 控制调节装置的制造及其应用技术 > 一种基于深度强化学习的多无人机路径规划方法及设备  >  正文

一种基于深度强化学习的多无人机路径规划方法及设备

  • 国知局
  • 2024-08-01 00:05:41

本发明属于深度学习,具体涉及一种基于深度强化学习的多无人机路径规划方法及设备。

背景技术:

1、在过去几年中,物联网(iot)迅速发展,未来的物联网系统将需要适应日益增长的流量需求。由于容量和覆盖范围有限,仅靠地面网络无法提供广泛的接入,特别是在农村和偏远地区。在这些地区,物联网设备将被广泛部署以执行特殊任务,如环境测量和天气监测,这种情况下物联网被称为远程物联网(iort)。值得注意的是,物联网设备通常功耗有限,尤其在基站部署稀疏或附近没有可用基站的情况下,它们无法支持长距离传输。

2、为了解决上述问题,设计了一个空天地一体化网络(sagin),结合了卫星、无人机(uavs)和地面系统,为物联网应用提供无缝覆盖。虽然卫星具有提供全球覆盖并具有可接受的传播延迟的能力,但由于卫星与iort设备之间的距离较远以及iort设备的传输功率有限,iort设备直接连接到卫星仍然是一项困难的任务。作为低空飞行器,无人机无需依赖地面基础设施,具有快速建立无线网络的能力。此外,无人机具有高度移动性和灵活部署特性,这使它们在地面基础设施不足或被破坏时迅速为地面设备提供通信服务的优势明显。在iort网络场景下,无人机能够帮助卫星实现无缝覆盖,并提高网络的信道容量。根据以上分析,无人机在从物联网设备收集数据方面表现出特殊的潜力,它们可以作为卫星和物联网设备之间的中继,不仅扩展了覆盖范围,而且提高了信道质量和系统吞吐量。

3、常见的路径规划算法一般可以分为三类:传统算法、启发式算法和强化学习算法。传统算法和启发式算法都是基于监督式的算法,需要依赖大量的先验知识和专家知识。而强化学习是一种无监督的学习方法,智能体与环境不断交互获得瞬时奖励,并根据这些交互样本,来学习到一种最优的策略。

4、对于基于传统方法的无人机路径规划已经有很多研究。s.zhang等人应用图论和凸优化方法来优化蜂窝网络中的无人机路径,以最小化无人机的飞行时间,并确保无人机在飞行过程中至少与一个基站保持连接。wu等人同时考虑了无人机的轨迹和传输功率优化问题,并提出了一种迭代算法,通过经典的块坐标下降和连续凸优化技术解决非凸问题,以最大程度地保持用户的公平性。然而,基于离线优化的路径规划仍然存在一些缺陷,即使有准确的模型和相关参数信息,也很难获得全局信道模型参数,另外,这些离线问题大多数也是高度非凸的、难以解决的,无法应用于移动用户的实时路径规划场景中。

5、最近,随着强大智能工具的发展,机器学习被广泛认为是处理复杂环境中动态调度问题的潜在解决方案,尤其是深度强化学习(drl)技术已成为一种具有巨大发展前景的新兴技术,并受到了广泛关注。由于无人机的高机动性和无人机辅助网络环境的动态性,传统的优化算法难以解决无人机的轨迹规划问题,利用深度强化学习算法,无人机可以无需知道完整的网络信息,通过迭代交互式学习构建大量物联网环境知识,并相应地更新其行动策略。因此,将深度强化学习应用于无人机的轨迹规划以提供某种形式的通信服务或收集数据已得到广泛研究。例如,yi等人期望无人机在时间和能量约束下收集状态更新数据并到达最终目的地。为了最小化传感器节点数据aoi的总和,文献采用了deep q网络(dqn)方法来优化解决方案。khodaparast等人采用基于ddpg的方法在受阻限制的环境中生成无人机的最佳轨迹,并在数据收集过程中控制传感器的发射功率。此外,drl与多无人机控制的结合也在各种场景中进行了研究。例如,pan等人研究了多个无人机从传感器节点收集数据的问题,将其描述为经典的旅行推销员问题。然后,结合了遗传算法和深度学习来解决无人机路径规划问题。wu等提出了一种轨迹设计方法,旨在最小化由多个无人机产生的感知数据的信息时代,这些数据可以传输到地面基站或移动蜂窝设备。venturini等人提出了一种分布式dqn方法,用于控制在未知环境中执行目标检测和跟踪任务的无人机组。

6、虽然,已有的技术方案在一定程度上可以实现路径规划的目标,但仍然存在路径规划效率低下、不同无人机之间协作困难、无人机能耗较高、方法适应性不足等缺点,特别是在复杂的sag-iort网络模型中。

技术实现思路

1、为了解决现有技术中所存在的上述问题,本发明提供了一种基于深度强化学习的多无人机路径规划方法及设备。

2、本发明要解决的技术问题通过以下技术方案实现:

3、本发明提供一种基于深度强化学习的多无人机路径规划方法,应用于n个无人机中的每个无人机m,所述方法包括:

4、获取自身的第n时刻的状态;第n时刻的状态包括:第n时刻的位置坐标、第n时刻与k个采集设备中各个采集设备之间的距离、第n时刻的采集设备调度状态、第n时刻的能耗;k和n均为大于1的整数;

5、将所述第n时刻的状态输入自身训练好的路径规划网络中,得到第n时刻的动作;第n时刻的动作包括:第n时刻的飞行方向、第n时刻的飞行速度、第n时刻的移动高度、第n时刻需要调度的所述采集设备;

6、其中,所述训练好的路径规划网络是所述无人机m采用maddpg算法和与多个不同时刻一一对应的多个全局样本数据训练得到,其中,t时刻对应的一个全局样本数据包括:所述n个无人机第t时刻的状态、第t+1时刻的状态、第t时刻的动作、第t时刻的奖励值;所述奖励值包括:能量消耗奖励。

7、本发明还提供一种基于深度强化学习的多无人机路径规划设备,包括处理器、通信接口、存储器和通信总线,所述处理器、所述通信接口和所述存储器通过所述通信总线完成相互间的通信;

8、所述存储器,用于存放计算机程序;

9、所述处理器,用于执行存储器上所存放的程序时,实现上述基于深度强化学习的多无人机路径规划方法所述的步骤。

10、与现有技术相比,本发明的有益效果:

11、1)本发明采用基于maddpg算法的多无人机路径规划方案,能够实现智能化的路径规划,有效协调多个无人机之间的行动,从而提高数据传输速率,相较于传统算法或基于单智能体的深度学习方法,本发明能够更快速地适应复杂环境下的需求变化,提高路径规划的效率;

12、2)本发明利用maddpg算法实现了多无人机之间的智能化协作通信,能够更有效地协调多个无人机之间的行动,提高系统整体性能,相较于传统算法或单智能体深度学习方法,本发明的路径规划方案能够更好地实现多个无人机之间的协作与通信,提高数据传输的效率和稳定性;

13、3)本发明在路径规划过程中考虑了无人机的飞行能耗问题,以便通过深度强化学习算法实现能耗优化与数据传输速率最大化之间的平衡,相较于传统算法或单智能体深度学习方法,本发明能够更有效地降低无人机的飞行能耗,延长系统的运行时间和寿命;

14、4)深度强化学习算法具有较强的自适应性和学习能力,能够根据实时环境变化灵活调整路径规划策略,从而适应复杂多变的场景,提高了路径规划的灵活性和效果;

15、总之,本发明的路径规划方法相较于现有相关方法具有更高的效率、更好的能耗控制和更强的智能化协作能力,能够更好地解决空-天-地-远程物联网中的路径规划问题,从而提高系统的整体性能和可靠性。

16、以下将结合附图及对本发明做进一步详细说明。

本文地址:https://www.jishuxx.com/zhuanli/20240730/199630.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。