技术新讯 > 控制调节装置的制造及其应用技术 > 路径规划方法、装置、电子设备以及存储介质与流程 > 正文

路径规划方法、装置、电子设备以及存储介质与流程

国知局
2024-11-19 09:46:20

本申请涉及计算机，具体涉及一种路径规划方法、装置、电子设备以及存储介质。

背景技术：

1、最近无人机越来越受欢迎，作为许多应用的复杂监测仪器。通信技术的进步以及机载传感器的日益小型化，以及新算法和软件的开发，为无人机在许多领域的扩展使用开辟了道路，从而开辟了科学研究、环境监测和地质灾害监测等方面的新途径。

2、超视距(beyond the visual line of sight，bvlos)的提出使得无人机飞行具备一定程度的自主性和效率，同时降低了成本，增加了监视或交付的粒度，因此成为无人机行业的焦点。由于这些方面，这样的系统正在逐渐获得他们在无人机市场的份额。随着对扩展自治水平的需求，bvlos无人机满足了高性能避障和导航算法的需求，这些算法将允许自主无人机在最少或没有人为干预的情况下运行。

3、传统的人工智能算法在文献中被广泛用于在二维或三维环境中寻找最短路径、避开障碍物、以及在已知和稳定的环境中成功导航无人机。然而，当环境发生变化时，需要花费大量的时间重新规划路线，可见，目前的路径规划效率较低。

技术实现思路

1、本申请实施例提供一种路径规划系统、方法、电子设备以及存储介质，可以提高路径规划效率，从而提高无人机的任务处理效率。

2、第一方面，本申请实施例提供了一种路径规划方法，包括：

3、获取预设范围的环境图像以及当前的位置信息；

4、根据所述环境图像、位置信息以及预设的目标终点，构建无人机对应的状态向量；

5、基于预设的策略网络以及所述状态向量，输出所述无人机对应的候选操作；

6、根据预设的奖励网络以及所述环境图像预估所述候选操作对应的奖励，并基于所述奖励规划从当前位置飞行至所述目标终点的飞行路径。

7、可选的，在本申请的一些实施例中，所述根据预设的奖励网络预估所述候选操作对应的奖励，包括：

8、提取所述环境图像的深度信息；

9、将所述深度信息以及所述候选操作输入至预设的奖励网络，得到所述候选操作对应的奖励。

10、可选的，在本申请的一些实施例中，所述将所述深度信息以及所述候选操作输入至预设的奖励网络，得到所述候选操作对应的奖励，包括：

11、将所述深度信息以及所述候选操作输入至预设的奖励网络，输出所述候选操作对应的即时奖励和长期累积奖励。

12、可选的，在本申请的一些实施例中，所述基于所述奖励规划从当前位置飞行至所述目标终点的飞行路径，包括：

13、获取预设策略信息；

14、确定预设策略信息中各预设策略的策略权重；

15、基于所述策略权重对所述所述候选操作对应的奖励进行调整；

16、根据调整后奖励规划从当前位置飞行至所述目标终点的飞行路径。

17、可选的，在本申请的一些实施例中，所述基于所述奖励规划从当前位置飞行至所述目标终点的飞行路径，包括：

18、基于所述奖励，在所述候选操作中确定目标操作；

19、获取执行所述目标操作后的更新后位置；

20、根据更新后位置以及所述环境图像，规划从更新后位置飞行至所述目标终点的飞行路径。

21、可选的，在本申请的一些实施例中，所述基于预设的策略网络以及所述状态向量，输出所述无人机对应的候选操作，包括：

22、确定所述无人机的可执行操作；

23、基于预设的策略网络、所述状态向量以及可执行操作，输出所述无人机对应的候选操作。

24、可选的，在本申请的一些实施例中，还包括：

25、获取初始路径规划模型，所述初始路径规划模型包括基础策略网络以及基础奖励网络；

26、采集样本无人机在预设环境的样本环境信息以及样本位置；

27、根据所述样本环境信息以及样本位置对所述初始路径规划模型进行训练，得到策略网络和奖励网络。

28、第二方面，本申请实施例提供了一种路径规划装置，包括：

29、获取模块，用于获取预设范围的环境图像以及当前的位置信息；

30、构建模块，用于根据所述环境图像、位置信息以及预设的目标终点，构建无人机对应的状态向量；

31、输出模块，用于基于预设的策略网络以及所述状态向量，输出所述无人机对应的候选操作；

32、预估模块，用于根据预设的奖励网络以及所述环境图像预估所述候选操作对应的奖励；

33、规划模块，用于基于所述奖励规划从当前位置飞行至所述目标终点的飞行路径。

34、相应的，本申请还提供一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时如上任一所述方法的步骤。

35、本申请还提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上任一所述方法的计算机程序。

36、本申请提供一种路径规划方法、装置、电子设备以及存储介质，在获取预设范围的环境图像以及当前的位置信息后，根据所述环境图像、位置信息以及预设的目标终点，构建无人机对应的状态向量，接着，基于预设的策略网络以及所述状态向量，输出所述无人机对应的候选操作，最后，根据预设的奖励网络以及所述环境图像预估所述候选操作对应的奖励，并基于所述奖励规划从当前位置飞行至所述目标终点的飞行路径。在本申请提供的路径规划的方案中，可以根据环境图像、位置信息以及预设的目标终点，构建无人机对应的状态向量，然后，基于预设的策略网络、奖励网络以及状态向量，规划从当前位置飞行至目标终点的飞行路径，由此，当环境发生变化时，可以避免花费大量的时间重新规划路线的情况，提高了路径规划效率，进而提高了无人机的任务处理效率。

技术特征：

1.一种路径规划方法，其特征在于，包括：

2.根据权利要求1所述的路径规划方法，其特征在于，所述根据预设的奖励网络预估所述候选操作对应的奖励，包括：

3.根据权利要求2所述的路径规划方法，其特征在于，所述将所述深度信息以及所述候选操作输入至预设的奖励网络，得到所述候选操作对应的奖励，包括：

4.根据权利要求1所述的路径规划方法，其特征在于，所述基于所述奖励规划从当前位置飞行至所述目标终点的飞行路径，包括：

5.根据权利要求1所述的路径规划方法，其特征在于，所述基于所述奖励规划从当前位置飞行至所述目标终点的飞行路径，包括：

6.根据权利要求1所述的路径规划方法，其特征在于，所述基于预设的策略网络以及所述状态向量，输出所述无人机对应的候选操作，包括：

7.根据权利要求1至6任一项所述的路径规划方法，其特征在于，还包括：

8.一种路径规划装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时如权利要求1至7任一项所述的路径规划方法的步骤。

10.一种存储介质，其特征在于，存储有能够被处理器加载并执行如权利要求1至7任一项所述的路径规划方法的计算机程序。

技术总结本申请实施例公开了一种路径规划方法、装置、电子设备以及存储介质，包括：获取预设范围的环境图像以及当前的位置信息；根据所述环境图像、位置信息以及预设的目标终点，构建无人机对应的状态向量；基于预设的策略网络以及所述状态向量，输出所述无人机对应的候选操作；根据预设的奖励网络以及所述环境图像预估所述候选操作对应的奖励，并基于所述奖励规划从当前位置飞行至所述目标终点的飞行路径。本方案可以提高路径规划效率。技术研发人员：冯建辉,王耀龙,江能清,王陈喜,胡健,杨楠受保护的技术使用者：云南电网有限责任公司怒江供电局技术研发日：技术公布日：2024/11/14