技术新讯 > 航空航天装置制造技术 > 一种基于多智能体强化学习的航天器集群博弈围捕运动规划方法  >  正文

一种基于多智能体强化学习的航天器集群博弈围捕运动规划方法

  • 国知局
  • 2024-08-01 05:42:35

【】本发明涉及一种基于多智能体强化学习的航天器集群博弈围捕运动规划方法,属于航天器运动规划领域。

背景技术

0、背景技术:

1、随着太空资源的价值定位日益提升和空间技术的稳步发展,对合作目标的轨道接近技术已经趋于成熟,而对于空间碎片或失控航天器等具有机动能力的非合作航天器的相关方法仍然有待研究。在轨的非合作航天器由于具备观测、机动等能力,可能对我国航天器的正常运行产生影响,亟需发展有效的应对手段。由于特有的小型化、分布式、低成本等优势,航天器集群成为应对非合作航天器的有效装备。相应的,航天器集群对非合作目标的围捕接近问题也成为了当前前沿技术发展中的热点问题,该问题中围捕集群以对非合作航天器的轨道接近为目标,而非合作航天器则需要规避围捕集群的接近、与集群保持足够距离。因此相对于合作目标,集群系统对非合作航天器的围捕接近有更多的实时性和协同性要求。

2、面对空间环境中性能各异、机动形式多样的非合作目标,如何规划航天器集群运动以完成对非合作目标的追围,是提高我国在轨航天器运行安全性、有效保护轨道资源的基础。因此,关于高实时性、高效、高协同性的航天器集群运动规划方法研究有利于我国空间安全体系的建设。

3、目前,基于微分对策的博弈论是航天器集群博弈围捕运动规划的主流方法。然而,这类基于微分控制论的博弈方法依赖对高维非线性方程组的实时求解,计算过程比较复杂,而且缺乏对在轨航天器运动过程中观测与通信约束的考量。现有基于多智能体强化学习算法的航天器集群运动规划方法,能在一定程度上摆脱对高维微分方程求解的依赖,利用多层神经网络的拟合能力,对航天器集群进行运动规划,但也较难针对非合作航天器三维空间内的机动行为做出实时响应,对于有机动能力的非合作航天器而言,这类方法适用性受到较大限制。因此,开展具有较高实时性以及协同性的航天器集群博弈运动规划方法研究具有重要的理论研究价值

技术实现思路

0、技术实现要素:

1、有鉴于此,本发明面向有机动能力的非合作航天器,提出了一种基于多智能体强化学习的航天器集群博弈围捕运动规划方法。通过分析航天器集群系统结构、集群子机通信性能限制获取集群内部通信约束,再综合围捕距离要求构建航天器集群的动作、状态空间,后分析航天器集群系统任务的完成目标及终止条件构建复合型奖励函数,最后综合多智能体强化学习算法中的联合动作-价值函数,得到对不同阶段训练的分段训练策略,综合所述以获得航天器集群博弈围捕运动规划策略网络,完成集群博弈围捕运动规划方法,包括:

2、依据航天器集群系统结构和集群子机通信性能限制,获得集群内部的通信约束;

3、依据围捕距离要求与所述集群内部的通信约束,获得航天器集群的动作空间、状态空间;

4、依据航天器集群系统任务的完成目标及终止条件,获得复合型奖励函数;

5、依据多智能体强化学习算法中的联合动作-价值函数和所述复合型奖励函数,获得针对探索阶段、策略优化阶段和策略稳定阶段的分段训练策略;

6、依据所述航天器集群的动作空间及状态空间、复合型奖励函数和分段训练策略,获得航天器集群博弈围捕运动规划策略网络。

7、上述方法中,依据航天器集群系统结构和集群子机通信性能限制,获得集群内部的通信约束,包括:

8、以集群系统的强化学习模型表征航天器集群系统结构,获得集群系统结构函数,表达式如下:

9、

10、其中,n为集群子机数量,s为集群子机集合,si为集群子机i的全部可观测信息,(px,py,pz)分别为子机i空间位置在惯性坐标系上的投影值,(vx,vy,vz)为子机i空间速度在惯性坐标系上的投影值,(ax,ay,az)为集群子机动作在惯性坐标系上的投影值。

11、以通信理论表征集群子机通信模型,获得子机通信性能限制函数,表达式如下:

12、pij=cij-||[xi·yi·zi]t-[xj·yj·zj]t||

13、其中,cij为一对子机i、j的通讯能力,(xi,yi,zi)分别为子机i空间位置在惯性坐标系上的投影值,(xj,yj,zj)分别为子机j空间位置在惯性坐标系上的投影值,pij为子机i、j的通信性能限制值,当pij≤0时即无法通信。

14、考虑集群系统通信流程,获得集群子机i的通信观测要素ci,即集群内其他子机对其进行观测时获得的观测量,表达式如下:

15、ci=[px,py,pz,vx,vy,vz,ax,ay,az,t]

16、其中,(px,py,pz)分别为子机i空间位置在惯性坐标系上的投影值,(vx,vy,vz)为子机i空间速度在惯性坐标系上的投影值,(ax,ay,az)为集群子机动作在惯性坐标系上的投影值,t为子机i所观测的非合作航天器状态。

17、对集群内任一对子机i、j,从信息论角度对其进行编码,即pij>0时,得到编码观测变量即子机j对子机i的观测结果,和编码接收变量mij=c′ji,其中c′ji为部分观测值,并存在c′ji≤cji。

18、以信息瓶颈理论中互信息函数i结合航天器i,j的编码观测变量和接收变量mij,表征对集群内各子机通信的约束函数jc(ψ),得到集群内部的通信约束,表达式如下:

19、

20、其中,aj表示航天器j的动作,mij表示航天器i发送给航天器j的消息,β为两个优化目标的调节系数,其值由人为给定,互信息函数i表达式为;

21、

22、函数中,p(x)和p(y)为x和y的边缘概率密度,p(x,y)为x和y的联合概率密度。

23、上述方法中,依据围捕距离要求与所述集群内部的通信约束,获得航天器集群的动作空间、状态空间,包括:

24、由于在轨航天器机动通常是由推力喷嘴喷射燃料或压缩气体提供,与航天器加速度直接关联,因此航天器机动动作的表征为加速度at。

25、at=[ax,ay,az]

26、其中(ax,ay,az)分别为机动加速度在惯性坐标系上的投影值,根据航天器的运动能力限制,加速度需满足约束ax∈[-axmin,axmax],ay∈[-aymin,aymax],az∈[-azmin,azmax]。

27、依据集群子机与非合作航天器的围捕距离要求,获得集群子机状态限制函数si,表示为:

28、si>[xi,yi,zi,xt,yt,zt]

29、其中,(xi,yi,zi)分别为子机i空间位置在惯性坐标系上的投影值,(xt,yt,zt)分别为目标空间位置在惯性坐标系上的投影值,si为子机i状态空间。

30、基于上述集群内部的通信约束和集群博弈任务目标函数,获得航天器集群的动作空间、状态空间。在航天器集群系统集中训练过程中,在t时刻含有n个子机的航天器集群系统动作at、状态空间st表达式如下:

31、at=[at,1,at,2,…,at,j,…,at,n-1,at,n]

32、st=[p1x,p1y,p1z,v1x,v1y,v1z,…,pnx,pny,pnz,vnx,vny,vnz,ptx,pty,ptz,vtx,vty,vtz]

33、其中,n为集群子机总数,at,j为子机j在t时刻采取的机动动作,(pix,piy,piz)为子机i在目标本体坐标系下的位置,(vix,viy,viz)为子机i在目标本体坐标系下的速度,(ptx,pty,ptz)为目标在惯性系下的绝对位置,(vtx,vty,vtz)为目标在惯性系下的绝对速度。

34、在航天器集群分布式执行过程中,在t时刻子机接收的航天器集群系统动作at′、状态空间st′:

35、a′t=[at,1,at,2,…,at,j,…,at,m-1,at,m]

36、s′t=[p1x,p1y,p1z,v1x,v1y,v1z,…,pmx,pmy,pmz,vmx,vmy,vmz,ptx,pty,ptz,vtx,vty,vtz]

37、其中,m为通信距离内可观测集群子机数,并存在m≤n,aij为子机i采取的机动动作,(pix,piy,piz)为子机i在目标本体坐标系下的位置,(vix,viy,viz)为子机i在目标本体坐标系下的速度,(ptx,pty,ptz)为目标在惯性系下的绝对位置,(vtx,vty,vtz)为目标在惯性系下的绝对速度。

38、上述方法中,依据航天器集群系统任务的完成目标及终止条件,获得复合型奖励函数,包括:

39、对在轨航天器集群系统博弈围捕任务,围捕任务完成目标需满足距离要求,即集群子机中至少有一个子机满足围捕距离要求,获得围捕任务完成目标函数,表示为:

40、min{||[xi·yi·zi]t-[xt·yt·zt]t||}<dt

41、其中,(xi,yi,zi)分别为子机i空间位置在惯性坐标系上的投影值,(xt,yt,zt)分别为目标空间位置在惯性坐标系上的投影值,dt为博弈距离。

42、在策略网络训练过程中,存在无法完成围捕任务的可能性,此时需要任务终止条件使训练重新开始,获得围捕任务终止条件,表达式为:

43、

44、其中,(xi,yi,zi)分别为子机i空间位置在惯性坐标系上的投影值,(xt,yt,zt)分别为目标空间位置在惯性坐标系上的投影值,dt为博弈距离,tnow为当前博弈回合数,tstop为最大博弈回合数。

45、为不触发围捕任务终止条件的博弈回合前完成围捕任务目标,需引导集群子机缩短与非合作目标间距离:

46、设计关于相对距离的奖励函数rewardpositon,即在t时刻集群子机i相对距离奖励计算表达式为:

47、

48、其中,(δx,δy,δz)分别为t时刻子机与目标在惯性坐标系下的位置差。

49、为引导航天器集群逐步靠近非合作目标,设计基于距离变化的引导函数rewardleading,即在t时刻集群子机i获得的距离变化奖励计算表达式为:

50、

51、其中,和为t时刻与t-1时刻子机与目标在惯性坐标系下的位置差,λ为比例系数,其值由人为给定。

52、为鼓励航天器集群对陌生状态进行探索,设计基于期望差值的探索函数,即在t时刻对集群子机i获得的探索奖励计算表达式为:

53、rewardexplore=rtepiece·min{max{αt,1},l}

54、其中,αt为t时刻子机采取的动作,l为l单步恒定的最大奖励标量,rtepiece为t时刻状态与历史状态的相似度,其表达式为:

55、

56、其中,st为t时刻的子机状态,nk为自训练开始所保存的状态集合,函数f会将状态st保存为一维数组,函数k可求解两数组间欧几里得距离。

57、最终获得复合型奖励函数reward,其表达式为:

58、reward=k1·rewardpositon+k2·rewardleading+k3·rewardexplore

59、其中,k1、k2、k3为rewardpositon、rewardleading、rewardexplore所对应的比例系数,k1、k2、k3由人为设定。

60、上述方法中,依据多智能体强化学习算法中的联合动作-价值函数和所述复合型奖励函数,获得针对探索阶段、策略优化阶段和策略稳定阶段的分段训练策略,包括:

61、在多智能体强化学习策略网络的训练过程中,集群系统在时刻t的联合策略π满足联合动作-价值函数,表达式为:

62、

63、其中,at为集群系统联合动作,st为环境全局状态,qπ为集群系统在策略π、联合动作at下的动作价值函数,γ为奖励折扣系数,其值由人为给定,e为动作-价值函数期望。

64、由动作-价值函数和所述复合型奖励函数,可知集群系统的联合策略依赖于联合动作-状态信息,即要使联合策略收敛到最优解,就需要充足探索以积累联合动作-状态信息值供策略网络训练。在探索初始,策略输出网络需要大量随机信息建立早期策略;在早期策略建立后,仍然需要随机噪声进行联合动作-状态信息的搜索,使策略网络收敛到最优解;策略网络收敛后,为保证集群系统策略的一致性,需要策略网络自身进行训练以确保自身稳定。

65、在探索阶段,对集群子机输入随机动作aexplore,建立初始策略-奖励信息,引导各航天器机动向奖励升高方向倾斜,随机动作表达式为:

66、aexplore~n(0,σ2)

67、其中,aexplore满足高斯分布n(0,σ2),σ为分布方差。

68、在策略优化阶段,航天器集群已初步建立策略,在各子机策略输出的基础上附加递减噪声,使子机策略输出收敛,表达式为:

69、aoptimize=aorigin+(1-et/etotal)·aexplore.

70、其中,aoptimize为策略优化阶段策略输出,et和etotal分别代表当前回合与总回合数,aorigin为策略输出结果。

71、在策略稳定阶段,航天器集群已建立围捕运动规划策略,为进一步稳定策略,使用集群各子机的策略输出aorigin继续训练,其表达式为:

72、astablize=aorigin

73、其中,astablize为策略稳定阶段策略输出。

74、同时在训练全阶段,对策略网络的可解释性方差e进行观测,其值逼近于1时即代表策略网络已经稳定,表达式如下:

75、e=1-var(at-at)/var(at)

76、其中,at为t时刻策略网络输出,at为t时刻评价网络输出,var是统计学中方差求解函数。

77、上述方法中,依据所述航天器集群的动作空间及状态空间、复合型奖励函数和分段训练策略,获得航天器集群博弈围捕运动规划策略网络,包括:

78、依据所述航天器集群的动作空间及状态空间构建多智能体强化学习算法训练环境,然后依据复合型奖励函数和分段训练策略对航天器集群博弈围捕运动规划策略网络进行训练,获得航天器集群博弈围捕运动规划策略网络的联合策略集,对任意集群子机i,表达式为:

79、

80、其中,π-i(s,a-i)为集群其余子机在可观测状态s和子机动作a-i下的联合策略,为集群子机在外部联合策略π-i、可观测状态s和子机动作ai下的策略,a为集群系统联合动作空间,为集群的转移状态函数,s′为集群其余子机的可观测状态,γ为奖励折扣因子,其值由人为给定,ri(s,ai,a-i)为奖励函数,为子机相对于其他子机策略的值函数。

本文地址:https://www.jishuxx.com/zhuanli/20240722/221026.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。