技术新讯 > 控制调节装置的制造及其应用技术 > 一种基于安全强化学习的航天器交会对接控制方法及系统 > 正文

一种基于安全强化学习的航天器交会对接控制方法及系统

国知局
2024-07-31 23:46:35

本发明涉及航天器交会对接，更具体的说是涉及一种基于安全强化学习的航天器交会对接控制方法及系统。

背景技术：

1、目前，随着人类对空间资源利用的程度不断提高，航天器的交会对接成为重要的研究课题，是众多空间任务的研究基础。航天器交会对接是指两个在轨道上飞行的航天器，通过精确控制追踪星，实现追踪星和目标星在太空中的会合，并最终相互连接成一个单一的、更大的结构体的过程。航天器交会对接在航天领域具有至关重要的意义，它不仅是建设和维护空间站、实施长期太空探索任务（如前往月球或火星的任务）的关键技术，还是进行在轨补给、航天器升级和维修的基础。通过交会对接，可以将多个小型航天器组合成更大的结构，提高空间任务的灵活性和能力。此外，交会对接技术的发展还推动了航天技术的进步，包括自动化控制、导航和推进系统，对提升人类在太空的持久存在和深空探索能力起到了不可替代的作用。

2、近距离交会需要两航天器间密切的合作，其中包括复杂的制导系统，甚至是需要航天员参与到控制回路中以保证任务的顺利进行。面向未来航天任务，对于可自主到达非合作目标的小型航天器，其通常没有较强的操纵能力，并且其星载计算机计算能力有限。为满足接近目标的需求，需要对高计算效率且高鲁棒性的制导算法进行研究。

3、为完成航天器交会对接过程，接近目标时追踪航天器需要考虑多种过程约束。面对多约束问题，模型预测控制提供了解决思路。模型预测控制是最优化理论框架下处理约束系统的有利方法，反映了约束控制的研究从反馈镇定向系统优化的发展。

4、另外，随着计算能力的提升和相关算法的发展，强化学习被越来越多地应用于解决复杂的实际问题。例如专利文献，cn113724260a 一种基于深度强化学习的卫星抓取方法，是通过卷积神经网络求解目标星的位姿；通过特征融合网络对图像进行语义分割，找出对接环的位置；并将以上信息输入强化学习网络中，利用强化学习得到卫星控制方案。

5、但是，模型预测控制方法和强化学习控制均存在一些不足：

6、1、模型预测控制方法主要存在：

7、1）计算复杂度较高：模型预测控制需要在每个控制周期内解决一个优化问题，这通常是一个非线性规划问题，尤其是在考虑航天器动力学和约束时。对于高动态、多约束的航天任务，优化问题通常极其复杂，需要大量的计算资源和时间，这在有限的航天器计算能力和紧迫的实时控制要求下难以实现。

8、2）鲁棒性较差：模型预测控制方法的能力高度依赖于数学模型的准确性，因此对于模型误差和外部扰动的鲁棒性较差。在航天器交会对接环境中，由于微重力环境、航天器动力学的非线性特性、不可预测的环境扰动（如太空碎片、太阳辐射压力等）等不可预测的因素，模型预测控制方法的鲁棒性较差，导致实际行为与预测模型之间存在差异，影响控制策略的有效性。

9、2、强化学习控制方法：

10、强化学习是一种机器学习方法，通过让算法在模拟环境中尝试不同的策略并根据结果（奖励或惩罚）进行学习，最终找到完成特定任务的最优策略。然而，强化学习方法主要存在以下的不足。

11、1）安全性较差：在高风险的航天器操作控制中，确保控制策略的满足安全性约束是关键。然而，传统强化学习方法的优化目标仅仅是最大化奖励，在优化目标中没有考虑安全约束的存在，导致训练出来得到的策略以最大化奖励为唯一目标，进而出现违反安全约束的情况。强化学习策略在探索有效行为时可能采取不安全或非最优的行动，尤其是在学习初期。在航天器交会对接等关键任务中，这种不确定性将会导致不可接受的风险。

12、现有技术中航天器交会对接控制过程中所采用模型预测控制方法和/或强化学习控制存在的不足，因此，在面向未来航天任务，考虑到航天器具有高价值、易损坏的特性，航天器交会对接任务中亟需一种能够提高安全性的控制方法，是本领域技术人员亟需解决的问题。

技术实现思路

1、有鉴于此，本发明提供了一种基于安全强化学习的航天器交会对接控制方法及系统，可解决上述背景技术提到的不足。在训练过程中，安全强化学习通过从大量模拟或实际操作中学习，发现数据驱动的控制策略。这些策略可以直接映射从系统状态到控制输入，无需在每个控制步骤中解决复杂的优化问题，将复杂的优化问题转化为前向网络推断，大大减少了计算复杂度；在安全强化学习中，通过探索不同的策略并根据奖励（或惩罚）信号学习，能够适应环境的变化和未知的扰动。这种学习和适应能力可以增强控制策略在面对模型不准确或外部扰动时的鲁棒性。此外，安全强化学习的优化目标包括最大化奖励和最小化约束，实现从训练到部署过程中对安全约束的始终满足，从而大大提高控制算法的安全性。

2、为了实现上述目的，本发明采用如下技术方案：

3、第一方面，本发明实施例提供一种基于安全强化学习的航天器交会对接控制方法，包括以下步骤：

4、s10、采集安全强化学习智能体和航天器交会对接仿真环境交互过程中的轨迹数据；所述安全强化学习智能体具有安全强化学习模型，所述安全强化学习模型包括：动作网络和价值网络；

5、s20、将所述轨迹数据以元组形式存储在轨迹储存池中；

6、s30、将所述轨迹储存池中的轨迹数据，作为所述安全强化学习模型的输入，构建拉格朗日函数对所述安全强化学习模型的网络模型参数进行奖励和约束联合优化；

7、s40、迭代训练完成，获得优化后的所述安全强化学习模型；

8、s50、将待交会对接场景中追踪航天器与目标航天器的状态输入给优化后的所述安全强化学习模型，输出所述追踪航天器的控制动作。

9、进一步地，所述步骤s10包括：

10、s101、构建模拟航天器交会对接的仿真环境和安全强化学习智能体；所述安全强化学习智能体具有安全强化学习模型，所述安全强化学习模型包括：动作网络和价值网络；

11、s102、在所述仿真环境中设定追踪航天器和目标航天器的状态s，输入所述动作网络；

12、s103、所述动作网络根据状态s输出所述追踪航天器动作a；所述价值网络输出在当前状态s下采用动作a的预计回报奖励；

13、s104、根据所述追踪航天器动作a，产生下一时刻的状态s，同时产生奖励和约束；

14、s105、在仿真过程中，继续循环步骤s102~s104，采集安全强化学习智能体和航天器交会对接仿真环境交互过程中的轨迹数据；直至仿真结束。

15、进一步地，所述步骤s104中奖励表示如下：

16、在t时刻，所述追踪航天器收到的奖励r为：

17、

18、其中，分别为t-1时刻和t时刻的追踪航天器与目标航天器之间的距离。

19、进一步地，所述步骤s104中约束表示如下：

20、

21、其中，ω为当前追踪航天器的角速度，为设定的角速度最大值；当角速度小于最大值时，约束为0；当角速度大于等于最大值时，追踪航天器收到1的约束。

22、进一步地，所述步骤s30，包括：

23、s301、确定安全强化学习的优化目标，包括：使得追踪航天器收到的奖励最大化和使得追踪航天器收到的约束满足条件；

24、s302、构建拉格朗日函数；

25、s303、从所述轨迹储存池中采样存储的轨迹数据{s,a,r,c,s'}，分别表示当前时刻的状态、当前时刻的动作、当前时刻收到的奖励、当前时刻收到的约束和下一时刻的状态；

26、s304、使用梯度下降法更新奖励价值网络和约束价值网络；使用梯度上升法更新动作网络；

27、s305、使用梯度下降法更新拉格朗日乘子；

28、s306、重复步骤s304~s305直至遍历完采样存储的轨迹数据；奖励和约束联合优化完成。

29、进一步地，所述步骤s301的数学表示公式如下：

30、

31、其中：

32、

33、e表示求数学期望；表示后面期望中的动作是由动作网络π得到；表示t=0时刻的状态s来自于状态初始分布μ；表示除t=0时刻以外，其他时刻的状态s由状态转移概率获得；b为约束上限；为预期回报奖励；γ为折扣因子；为奖励函数；为t时刻的追踪航天器和目标航天器的状态；为t时刻的追踪航天器的执行动作；为预期约束，为约束函数。

34、进一步地，所述步骤s302拉格朗日函数表示如下：

35、

36、l(·) 为拉格朗日函数；π为动作网络；λ为拉格朗日乘子。

37、进一步地，所述步骤s304中：

38、奖励价值网络损失表示为：

39、

40、约束价值网络损失表示为：

41、

42、v(·) 为价值函数的累计回报的均值；为价值函数的累计约束的均值；r为奖励；c为约束；

43、更新动作网络损失表示为：。

44、进一步地，所述步骤s305中：

45、更新拉格朗日乘子λ，损失表示为：。

46、第二方面，本发明实施例还提供一种基于安全强化学习的航天器交会对接控制系统，包括：

47、交互数据采集模块，用于采集安全强化学习智能体和航天器交会对接仿真环境交互过程中的轨迹数据；所述安全强化学习智能体具有安全强化学习模型，所述安全强化学习模型包括：动作网络和价值网络；

48、轨迹储存池模块，用于将所述轨迹数据以元组形式存储在轨迹储存池中；

49、安全强化学习优化模块，用于将所述轨迹储存池中的轨迹数据，作为所述安全强化学习模型的输入，构建拉格朗日函数对所述安全强化学习模型的网络模型参数进行奖励和约束联合优化；迭代训练完成，获得优化后的所述安全强化学习模型；

50、交会对接控制模块，用于将待交会对接场景中追踪航天器与目标航天器的状态输入给优化后的所述安全强化学习模型，输出所述追踪航天器的控制动作。

51、经由上述的技术方案可知，与现有技术相比：

52、本发明通过从大量数据中学习，将复杂的优化问题转化为前向网络推断，大大减少了计算复杂度；利用基于探索的强化学习方法提高了控制策略的鲁棒性；通过在安全强化学习的优化目标中加入对安全约束的考虑，使得智能体在最大化奖励的同时能够满足安全约束条件，最终获得具有计算高效性、干扰鲁棒性、约束安全性的航天器交会对接控制方法。