技术新讯 > 航空航天装置制造技术 > 一种基于价值学习搜索树的航天器交会与规避方法及系统 > 正文

一种基于价值学习搜索树的航天器交会与规避方法及系统

国知局
2024-08-01 05:26:17

本发明属于航天，具体涉及一种基于价值学习搜索树的航天器交会与规避方法及系统。

背景技术：

1、随着几十年来的航天发展，空间中失效航天器数量日益增多。对失效航天器这类非合作目标进行在轨维护、清理是减少损失、节省空间资源的重要途经。对非合作目标进行在轨服务的首要任务即是对目标进行成像观测以确定目标失效部件的状态。对非合作目标的观测交会与被观测目标主动规避问题可归纳为航天器轨道追逃问题。现有轨道追逃问题研究除了抓捕成功与否外，通常仅关注燃料约束。然而，实际轨道追逃场景十分复杂，例如成像观测交会/规避任务，要求追击者能够在顺光条件下满足成像距离约束，逃脱者需要规避追击者成像区域的同时在一定机动范围约束下运动。现有研究对该类复杂场景的特点与耦合多约束条件研究不足，难以解决实际轨道追逃问题。

技术实现思路

1、本发明旨在解决上述问题，针对多回合航天器观测交会与成像规避任务场景下的复杂多约束轨道追击与防护规避问题提出了一种基于价值学习搜索树的航天器交会与规避方法，构建追击者和逃脱者双方的价值学习神经网络搜索树模型，双方卫星通过“左右互搏”机制在对弈中逐渐建立双方优势价值模型，更新优化价值预测网络。

2、为了实现上述目的，本发明采用的技术方案是：一种基于价值学习搜索树的航天器交会与规避方法，包括以下步骤：

3、将双方航天器的相对信息输入价值学习神经网络的输入层，输入层经过卷积核卷积处理后，分别通过两个隐含层的全连接网络得到输出向量v和π，其中，v代表某状态下某个动作的价值，v逼近搜索树搜索出的价值wi/ni；π代表某状态下某动作的选择概率，所述选择概率的数值逼近搜索树搜索出的动作选择概率πi；

4、价值学习神经网络训练时，利用搜索树算法针对初始轨道进行仿真计算，随机选取追击航天器初始来袭轨道，将每一次完整博弈中每个回合的双方航天器状态量s、各动作价值wi/ni、各动作胜率分布π存储构成数据集合：[(s(mcts),wi/ni,πi)]；将数据集合中s(mcts)经过计算转换为s(net)，[(s(net),wi/ni,πi)]存入经验池中，作为训练的数据集。

5、进一步的，构建并优化价值学习神经网络包括以下步骤：

6、建立航天器动力学模型；

7、根据航天器观测交会/成像规避任务场景建立航天器观测交会/成像规避与多约束模型；

8、在每一回合某方实际执行动作前，构造基于当前状态的搜索树模型；

9、构建价值学习神经网络搜索树模型；

10、追击航天器和逃脱航天器进行博弈，在博弈中双方均优化自身价值学习神经网络。

11、进一步的，建立航天器动力学模型包括：

12、以逃脱航天器初始位置为参考点，建立双方航天器相对于参考点的相对运动方程，采用c-w方程解析解作为双方航天器的动力学方程，将c-w方程修改为状态空间形式；

13、取双方航天器相对参考航天器的相对坐标、相对速度构成状态空间；

14、在速度区间内等距选取n个速度值dvi(i＝1,2,,n)，构建航天器在x,y,z方向的离散动作空间。

15、进一步的，建立航天器观测交会/成像规避与多约束模型时，

16、p航天器对e航天器实施抵近观测，e航天器需规避p航天器的成像区域，同时不飞离机动限制范围，e航天器博弈过程需满足约束：在tf时间内不进入p航天器成像区域，且机动范围不超自身初始轨位周围半径rw区域；p航天器博弈过程需满足约束：在tf时间内成功使e航天器进入成像范围内；

17、单次脉冲速度满足约束：

18、|δv|≤δvmax

19、实际博弈过程为双方航天器交替进行脉冲机动，t0时刻追击航天器p先进行机动追击e航天器，在追逃博弈中，双方航天器均采用脉冲机动方式，且精密定轨所需时间为δt，δt时间后时间来到t1时刻，e航天器感知到p航天器异动，随即进行机动，双方如此交替机动博弈，直到分出胜负。

20、进一步的，博弈过程中，在每一回合某方实际执行动作前，先构造基于当前状态的搜索树模型，具体步骤如下：

21、创建搜索树，以当前回合双方航天器所处状态st,k作为搜索树的根节点，即搜索树的第一层，当前回合方共有n3种可选机动动作，在每一种机动动作后t小时，双方航天器状态从st,k转变为st,k+1，以每一种动作所对应的st,k+1作为根节点st,k的n3个子节点，即搜索树的第二层，以此类推，逐渐创建整个搜索树；

22、选择，在搜索树的某一层中，选取评分最高的子节点作为当前回合方所采取的动作，系统状态从st,k转变为所选动作对应的st,k+1，子节点的评分利用上限置信区间计算；

23、扩展和模拟，根据所述选择的规则，从根节点开始不断扩展树的结构，进行到e航天器或p航天器获胜，从根节点到模拟结束的一次完整模拟过程所走过的路径称为一次模拟的“过程序列”；

24、回溯，将双方博弈结果转换为得分反馈到该次博弈所经过的所有子节点中，更新所述子节点的获胜次数wi和访问次数ni；通过不断的从根节点迭代上述扩展模拟和回溯的步骤，根节点处可选的不同动作的统计胜率πi＝wini不断收敛到真实值，根据不同动作的统计胜率情况选取胜率最高的动作作为实际执行动作，按照所述实际执行动作进行机动，系统状态转移到下一回合，再利用上述方法选择最优动作并执行，最终完成整个博弈过程。

25、进一步的，上限置信区间的计算分为三个部分，第一部分表示了i节点的价值评分；第二部分代表节点探索机会，探索次数ni越少，值会越大，被探索次数较少的节点会获得更多的探索机会；第三部分为燃料项，所需脉冲速度综合越高，值越小，消耗燃料越小的会获得更多搜索机会；具体如下：

26、

27、其中wi是该层n3个子节点中的第i个节点的回合方评价分数，ni是第i节点的总访问次数，n是这一层所有节点访问次数总和，cp是探索常数，δvwin是获胜的路径脉冲速度总和，cf为燃料项权重，vi和pi分别为神经网络的输出值。

28、进一步的，将双方博弈结果转换为得分反馈到该次博弈所经过的所有子节点中，更新所述子节点的获胜次数wi和访问次数ni包括：每次模拟结束后，对该次博弈“动作序列”中每个节点的访问次数ni加1，如果逃脱航天器获胜，则将该“动作序列”中每个逃脱航天器节点的获胜次数wi加1；如果追击航天器获胜，则将该“动作序列”中每个追击航天器节点的获胜次数wi加1。

29、进一步的，训练价值学习神经网络时，

30、随机选取p航天器初始来袭轨道，每次完整博弈后从经验池中随机抽取minibatch个[(s(net),wi/ni,πi)]样本数据，利用admas求解器进行迭代至收敛，得到价值学习神经网络；训练价值学习神经网络的损失函数如下：

31、

32、其中，wi/ni为搜索树搜索出的价值，πi为搜索树搜索出的动作选择概率，vi和pi分别为神经网络的输出值。

33、进一步的，追击航天器和逃脱航天器进行博弈，在博弈中双方均优化自身价值学习神经网络包括：

34、随机初始化追击航天器和逃脱航天器的价值学习神经网络，接着开始对弈过程，每次对弈开始前，随机选取追击航天器的初始来袭坐标、速度，初始时刻太阳光照角度数据，作为对弈的初始参数，开始对弈后，双方均按照神经网络搜索树算法选择机动动作，每次选择过程均进行n次搜索树搜索，并将搜索结果按照[(s(net),wi/ni,πi)]格式存入自己一方的经验池中，当经验池数量达到最大存储数量后，在每轮对弈结束后均对双方网络利用所存储的数据进行更新，在不断迭代过程中，双方网络得到优化。

35、本发明还提供一种基于价值学习搜索树的航天器交会与规避系统，包括信息获取模块和决策模块；

36、信息获取模块用于双方航天器的相对信息；

37、决策模块用于将双方航天器的相对信息输入价值学习神经网络的输入层，输入层经过卷积核卷积处理后，分别通过两个隐含层的全连接网络得到输出向量v和π，其中，v代表某状态下某个动作的价值，v逼近搜索树搜索出的价值wi/ni；π代表某状态下某动作的选择概率，所述选择概率的数值逼近搜索树搜索出的动作选择概率πi；其中，价值学习神经网络训练时，利用搜索树算法针对初始轨道进行仿真计算，随机选取追击航天器初始来袭轨道，将每一次完整博弈中每个回合的双方航天器状态量s、各动作价值wi/ni、各动作胜率分布π存储，构成数据集合：[(s(mcts),wi/ni,πi)]；将数据集合中s(mcts)经过计算转换为s(net)，[(s(net),wi/ni,πi)]存入经验池中，作为训练的数据集。

38、与现有技术相比，本发明至少具有以下有益效果：本发明基于价值学习搜索树的航天器交会与规避方法能够解决航天器在光照条件、成像距离、燃料消耗等复杂约束条件下的交会与规避决策问题，相比于基于lambert算法的轨道交会方法，该方法能够解决多回合连续追踪与规避问题中存在的连续在线规划难题，打破传统算法只考虑单次最优的现状，通过全局搜索与价值学习，得到全局的最优策略，通过训练得到的决策模型，能够直接通过状态输入得到决策动作指令，提高决策生成效率。