基于自适应分层决策的异构多智能体导航与避障控制方法
- 国知局
- 2024-07-31 23:51:49
本发明涉及异构多智能体协调运动与避障控制,具体涉及一种基于自适应分层决策的异构多智能体导航与避障控制方法。
背景技术:
1、多智能体协同的许多研究工作都是在引入基于行为的控制范式之后开展的,shepherding作为典型的异构多智能体行为范式,受到许多研究者的关注。目前,shepherding控制方法包括gcm+v控制方法(global centre of mass+v control,基于质量中心的“v”形控制方法)和弧形控制方法。
2、弧形控制方法以及gcm+v控制方法的本质都在于当集群半径大于给定阈值后会以弧形或v形的轨迹环绕集群运动,将处于集群外围的个体向集群中心驱赶,同时,无人机是根据目标的朝向来调整轨迹的,以便于使得集群朝向目标的位置运动。但是这种通过环绕集群的运动来促使集群聚拢的方式是有可能会失效的。
3、首先,当在环境中添加障碍物后,集群在障碍物凹槽内的滞留可能会导致个体的离群。如图1和图2所示,随着集群半径的不断增加,无人机运动幅度将会增大,进而导致集群失去控制。即使集群滞留在障碍物凹槽后不出现个体离群状况,但由于无人机无法穿越障碍物导致无法环绕集群进行驱赶,而无人机在几组简单的规则引导下的驱赶路径方向可能会被障碍物阻挡,因此很难将集群驱赶至目标区域。
4、其次,尽管gcm+v控制方法实现了collect(聚拢集群)与drive(驱赶集群)动作的转换,但这两种动作在任务执行过程中的转换条件是固定的,这可能会导致随着任务的进行,在特定的条件下无人机可能会执行不必要的动作。例如,当集群被障碍物分成两部分,如图3所示,此时应该停止drive动作,采取collect动作将集群聚集在一起,但由于集群只是被分成了两部分,集群半径仍小于阈值,因此无人机只会继续采取drive动作,而这将导致集群继续失控。
5、最后,gcm+v控制方法以及弧形控制方法都有其对应的控制参数。例如,在弧形控制方法中主要有用于判断无人机是否符合方向转换条件的阈值参数以及决定无人机离集群质心距离的参数,而这些参数在无人机执行任务的整个过程中都是固定的,但是实际上每一种情况下都有其适合的数值范围,参数不处在其合适的数值范围会导致任务完成质量低以及集群失控问题。
6、综上,现有技术中存在由于障碍物条件下集群个体滞留导致的驱赶成功率低、由于控制模式转换条件固定和控制参数无法实时调节导致的任务完成质量低以及集群失控问题。
技术实现思路
1、鉴于上述问题,本发明提供了一种基于自适应分层决策的异构多智能体导航与避障控制方法,解决了现有技术中由于障碍物条件下集群个体滞留导致的驱赶成功率低、由于控制模式转换条件固定和控制参数无法实时调节导致的任务完成质量低以及集群失控问题。
2、需要说明的是,“任务完成质量低”是指无人机成功率低或者即使成功完成任务,其产生的耗能、耗时较高,集群全程的状态也较差。“控制模式转换条件固定”以及“控制参数无法实时调节”都可能会导致集群失控,但发明分别通过第一决策网络、第二决策网络解决这两个缺陷,从而减少集群失控的概率。
3、本发明提供了一种基于自适应分层决策的异构多智能体导航与避障控制方法,异构多智能体包括无人机和非合作智能体集群,非合作智能体集群具有自主意识且无法与无人机协同合作,包括如下步骤:
4、s1.获取环境的特征信息,基于prm对其进行处理,规划得到集群路径;其中,集群路径由出发点、集群路径节点和目标区域中心点依次连接构成;
5、s2.无人机与环境交互,获取非合作智能体集群的特征信息和障碍物的特征信息,判断非合作智能体集群是否到达目标区域;如果是,则结束任务;否则,控制无人机沿无人机路径节点运动,驱赶非合作智能体集群向下一个集群路径节点运动,并获取该下一个集群路径节点的信息;
6、s3.将s2的非合作智能体集群的特征信息、障碍物的特征信息和该下一个集群路径节点的信息进行合并为状态特征信息,输入第二决策网络;
7、s4.第二决策网络基于状态特征信息,为无人机选择collect控制模式或drive控制模式中的一个;在collect控制模式下,利用gcm-targeting轨迹生成器更新无人机路径节点;在drive控制模式下,将状态特征信息输入第一决策网络,输出弧形轨迹生成器的控制参数;利用弧形轨迹生成器根据该控制参数和状态特征信息更新无人机路径节点;
8、s5.重复执行s2~s4,直至非合作智能体集群到达目标区域。
9、进一步地,s1,基于prm规划得到集群路径包括:
10、在包括出发点和目标区域的二维平面区域内随机生成多个采样点;其中,若该二维平面区域内存在障碍物且采样点与障碍物重合,则移除该采样点;
11、采用a*算法找到一条穿过采样点通向目标区域的距离最短的路径作为集群路径;其中,集群路径不穿过障碍物,集群路径上的采样点为集群路径节点。
12、进一步地,s4,利用gcm-targeting轨迹生成器更新无人机路径节点包括:
13、计算得到非合作智能体集群的轮廓半径;
14、比较非合作智能体集群的轮廓半径和预设轮廓半径阈值;若非合作智能体集群的轮廓半径大于预设轮廓半径阈值,则生成用于使无人机将距离非合作智能体集群的中心最远的非合作智能体向该中心驱赶的无人机路径节点;否则生成用于使无人机尾随并驱赶非合作智能体集群沿集群路径运动的无人机路径节点。
15、进一步地,s4,弧形轨迹生成器的控制参数包括用于使无人机改变旋转方向的阈值θ2和无人机轨迹曲率半径dover。
16、进一步地,第一决策网络通过对神经网络预训练得到;对第一决策网络的预训练包括第一奖惩机制,第一奖惩机制包括目标点奖励、集群状态惩罚和无人机移动惩罚;其中,
17、目标点奖励是指无人机沿无人机路径节点运动,驱赶非合作智能体集群到达作为目标点的集群路径节点时给出奖励;
18、无人机移动惩罚是指无人机移动带来的惩罚,用于限制由无人机移动导致的能耗;
19、集群状态惩罚包括离散状态惩罚与速度矢量状态惩罚;其中,离散状态惩罚是指当非合作智能体集群的轮廓半径大于预设轮廓半径阈值,或者出现离群个体时给出惩罚;速度矢量状态惩罚是指当速度矢量偏移角大于预设速度矢量偏移角阈值时给出惩罚;其中,速度矢量偏移角是指集群中心速度矢量与理想速度矢量的角度差,理想速度矢量是指由集群中心指向目标区域中心的矢量。
20、进一步地,第二决策网络通过对神经网络预训练,并设置强制学习奖惩机制;其中,
21、强制学习奖惩机制是指当非合作智能体集群处于包括集群轮廓半径异常和集群异常停滞的极端状态时,如果第二决策网络还不采取正确措施,会对其进行惩罚,具体包括:
22、当非合作智能体集群的轮廓半径大于预设轮廓半径阈值,且第二决策网络仍然不采用collect方法将非合作智能体集群聚拢,导致非合作智能体集群的轮廓半径越来越大时,对第二决策网络进行惩罚;
23、当非合作智能体集群的轮廓半径小于预设轮廓半径阈值,且第二决策网络仍然采用collect方法持续聚拢非合作智能体集群,导致非合作智能体集群在预设时间窗口阈值内停滞不前时,对第二决策网络进行惩罚。
24、与现有技术相比,本发明至少具有现如下有益效果:
25、(1)本发明的基于自适应分层决策的异构多智能体导航与避障控制方法,与弧形控制方法相比,通过设置预训练的第二决策网络,使得控制模式转换条件不再固定,能够避免集群出现失控现象,提高了控制方法的稳定性,而且还能自动调节无人机环绕集群运动的方向。
26、(2)本发明的基于自适应分层决策的异构多智能体导航与避障控制方法,与gcm+v控制方法相比,通过贴合集群轮廓生成无人机弧形运动轨迹,使得无人机充分出现在集群内部节点的感知范围内,从而最大化无人机对集群节点的控制作用,而且控制模式的切换也更加灵活,更加适用于障碍物环境,驱赶成功率高。
27、(3)本发明的基于自适应分层决策的异构多智能体导航与避障控制方法,通过设置预训练的第一决策网络,能够适时调节弧形控制的控制参数,降低集群失控的概率,同时优化驱赶过程,进一步提升驱赶成功率。
本文地址:https://www.jishuxx.com/zhuanli/20240730/198886.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。