技术新讯 > 控制调节装置的制造及其应用技术 > 一种无人艇集群的追逃博弈控制方法、设备及介质  >  正文

一种无人艇集群的追逃博弈控制方法、设备及介质

  • 国知局
  • 2024-07-30 09:23:59

本技术涉及无人艇控制,特别涉及一种无人艇集群的追逃博弈控制方法、设备及介质。

背景技术:

1、随着科技飞速进步,水面无人艇集群已成为海洋领域的革命性工具,极大的引发了研究者们对其广泛应用前景的兴趣。水面无人艇集群具有令人瞩目的多功能性。随着对海洋的探索和无人系统的发展,无人艇(usv,unmanned surface vessel)已成为水域勘探、协同作战、海域救援等任务的重要载体。因此无人艇集群追逐-逃避问题作为协同捕获任务的典型案例,已成为usv技术研究的热门课题。多智能体追逐-逃避(mpe,multiagentparticle environment)是一种包含两组参与者的竞争模型:追捕无人艇和躲避无人艇。该模型常用于描述一种动态情况,追捕无人艇的目标是尽快找寻和捕获躲避无人艇,躲避无人艇则尽力保持足够距离,以避免被追捕无人艇捕获。

2、多艘无人艇在水域中同时执行追逐移动目标的任务时,需要确保它们能有效的分配追逃任务,这意味着需要高效的协同追逃策略。随着usv集群技术发展,针对usv集群追逃博弈控制问题,已经诞生了很多控制方法,包括基于规则的方法:基于规则的方法使用一组预定义的规则和策略来指导追捕无人艇的行为。例如,可以定义追捕规则要求追捕无人艇在遇到目标时相应地改变航向或速度,以实现追捕。模型预测控制(mpc,model predictivecontrol):一种基于数学模型的控制方法,可以用于无人艇集群的追捕行为。通过预测未来一段时间内的追捕无人艇轨迹,mpc算法可以选择最优的控制策略以实现追捕。这种方法在复杂环境中表现出色,但是对系统动态建模要求高。深度强化学习(drl,deepreinforcement learning):依赖于实际的系统模型的控制方法,能够从动态环境中自适应地学习控制策略,具有较强的适应性。

3、上述方法大都采用集中控制策略,通常表现出对中央控制单元的高度依赖,从而会引入单点故障(spof,single point of failure)的漏洞。此外,集中式控制算法还面临高昂的计算和通信开销。一些研究中针对该漏洞引入了分布式捕获控制算法,例如基于相邻无人艇之间距离的分布式捕获算法,利用双延迟深度确定性策略梯度对其进行训练,并成功地将该捕获策略应用于虚拟现实场景。然而,上述方法大多是基于粒子系统进行研究,没有考虑现实世界的局限性,如感知范围的限制、欠驱动下的动态特性和环境中的随机障碍以及干扰。由此可见,存在无人艇集群的追逃博弈的控制稳定性及鲁棒性差的问题。

技术实现思路

1、本技术提供了一种无人艇集群的追逃博弈控制方法、设备及介质,可以解决无人艇集群的追逃博弈的控制稳定性及鲁棒性差的问题。

2、第一方面,本技术实施例提供了一种无人艇集群的追逃博弈控制方法,该追逃博弈控制方法包括:

3、分别针对追逃博弈项目中的每个追捕无人艇,进行以下步骤:

4、获取追捕无人艇的当前速度,以及与躲避无人艇之间的当前距离;

5、根据躲避无人艇与追捕无人艇之间的当前距离,获取追捕无人艇向躲避无人艇移动的移动速度,并根据追捕无人艇在从追捕无人艇指向躲避无人艇的法向速度,获取追捕无人艇的环绕速度;

6、基于移动速度和环绕速度获取追捕无人艇追捕的期望速度;

7、根据追捕无人艇的当前速度以及每个障碍物的当前速度,生成追捕无人艇与每个障碍物之间的速度障碍区域;障碍物位于追捕无人艇当前的感知范围内,障碍物为追逃博弈项目中的其他追捕无人艇或静态障碍物;

8、基于追捕无人艇对应的所有速度障碍区域,获取追捕无人艇的当前局部观测结果;当前局部观测结果用于描述追捕无人艇当前的感知范围内所有障碍物的信息;

9、基于追捕无人艇的当前速度、期望速度、对应的所有速度障碍区域,构建用于评价追捕无人艇的追捕效果的奖励函数;

10、将当前局部观测结果添加到全局状态中,并根据奖励函数和全局状态获取追捕无人艇的最终追捕策略;所述全局状态用于描述所述追捕无人艇所处环境的当前环境信息,所述最终追捕策略中的追捕动作用于描述所述追捕无人艇的速度变化量,所述最终追捕策略中的追捕状态用于描述所述追捕无人艇的当前速度;

11、根据最终追捕策略控制追捕无人艇。

12、第二方面,本技术实施例提供了一种无人艇集群的追逃博弈控制装置,包括:

13、第一获取模块,获取追捕无人艇的当前速度,以及与躲避无人艇之间的当前距离;

14、第二获取模块,根据躲避无人艇与追捕无人艇之间的当前距离,获取追捕无人艇向躲避无人艇移动的移动速度,并根据追捕无人艇在从追捕无人艇指向躲避无人艇的方向上的法向速度,获取追捕无人艇的环绕速度;

15、期望速度获取模块,基于移动速度和环绕速度获取追捕无人艇追捕的期望速度;

16、生成模块,根据追捕无人艇的当前速度以及每个障碍物的当前速度,生成追捕无人艇与每个障碍物之间的速度障碍区域;障碍物位于追捕无人艇当前的感知范围内,障碍物为追逃博弈项目中的其他追捕无人艇或静态障碍物;

17、第三获取模块,基于追捕无人艇对应的所有速度障碍区域,获取追捕无人艇的当前局部观测结果;当前局部观测结果用于描述追捕无人艇当前的感知范围内所有障碍物的信息;

18、构建模块,基于追捕无人艇的当前速度、期望速度、对应的所有速度障碍区域,构建用于评价追捕无人艇的追捕效果的奖励函数;

19、添加模块,将当前局部观测结果添加到全局状态中,并根据奖励函数和全局状态获取追捕无人艇的最终追捕策略;所述全局状态用于描述所述追捕无人艇所处环境的当前环境信息,所述最终追捕策略中的追捕动作用于描述所述追捕无人艇的速度变化量,所述最终追捕策略中的追捕状态用于描述所述追捕无人艇的当前速度;

20、控制模块,根据所述最终追捕策略控制所述追捕无人艇。

21、第三方面,本技术实施例提供了一种终端设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,该处理器执行上述计算机程序时实现上述的无人艇集群的追逃博弈控制方法。

22、第四方面,本技术实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述的无人艇集群的追逃博弈控制方法。

23、本技术的上述方案有如下的有益效果:

24、在本技术的实施例中,通过获取追捕无人艇的当前速度,以及与躲避无人艇之间的当前距离,然后根据躲避无人艇与追捕无人艇之间的当前距离,获取追捕无人艇向躲避无人艇移动的移动速度,并根据追捕无人艇在从追捕无人艇指向躲避无人艇的方向上的法向速度,获取追捕无人艇的环绕速度,然后基于移动速度和环绕速度获取追捕无人艇的期望速度,再根据追捕无人艇的当前速度以及每个障碍物的当前速度,生成追捕无人艇与每个障碍物之间的速度障碍区域,然后基于追捕无人艇对应的所有速度障碍区域,获取追捕无人艇的当前局部观测结果,再基于追捕无人艇的当前速度、期望速度、对应的所有速度障碍区域,构建用于评价追捕无人艇的追捕效果的奖励函数,再将当前局部观测结果添加到全局状态中,根据奖励函数和全局状态获取追捕无人艇的最终追捕策略,最后根据最终追捕策略控制追捕无人艇。其中,基于移动速度和环绕速度获取期望速度,考虑了追捕无人艇的单体信息以及集体信息,使得期望速度的精确性提高,同时,根据速度障碍区域得到的当前局部观测结果能够很好地反映追捕无人艇感知范围内障碍物的信息,考虑了感知范围的限制以及障碍物的干扰,具有实际性,基于当前速度、精确性高的期望速度、对应的所有速度障碍区域构建的奖励函数能够更全面且准确地评价追捕无人艇的追捕效果,基于具有实际性的当前局部观测结果、全面且准确的奖励函数得到的最终追捕策略的合理性提高,进而提高无人艇集群的追逃博弈的控制稳定性和鲁棒性。

25、本技术的其它有益效果将在随后的具体实施方式部分予以详细说明。

本文地址:https://www.jishuxx.com/zhuanli/20240730/149375.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。