一种基于共识主动性的自学习微分对策协同制导方法
- 国知局
- 2024-08-30 14:26:08
本发明涉及飞行器制度,具体涉及一种基于共识主动性的自学习微分对策协同制导方法。
背景技术:
1、共识主动性是智能体间的间接协调机制,集群内部智能个体间通过集群环境信息自主决定自身行为,并通过动作留在环境中的轨迹刺激下一个动作的执行,前后协调共同完成复杂的工作,无需存在具备指挥、控制功能的超级个体。因此,共识主动性是一种以去中心化为特点、自组织的类智能系统行为方式,使得集群行动无需进行直接的通讯就能够实现个体间的有效协同,无需复杂的存储、逻辑和通讯能力,甚至即使在相互感知被彻底切断的情况下,也可以进行复杂的群体任务。基于共识主动性的导弹集群协同作战技术是一种典型的去中心化集群智能技术,而去中心化正是集群作战的优势所在。只要智能集群中不存在控制中心,任意个体的损毁对整个集群而言就无法产生整体性影响,因此作战集群对战争中因战损或干扰造成的网络环境的变化具有较好的适应性。同时,由于集群智能之间的信息传输与作战合作可以通过间接通信实现,所以即使集群规模变大,对集群指挥、通信或算力负担影响也很小,具备更强的扩展能力。樊会涛院士等预测无人、自主、智能将是未来空战体系中的普遍特征,空战体系将从实体中心到泛化中心(网络中心、分布式系统)转变,最终发展至无中心。
2、与现有的无人机集群研究不同,导弹速度更快,个体间相互通信对实时性要求更高,对通信的限制更多,导弹的控制机构执行能力也受较多限制,协同制导技术直接决定了导弹的脱靶量与协同攻击的效果。因此,需要对导弹集群协同问题进行研究。导弹集群协同制导通过集群个体之间的信息交流来实现,弹间通信拓扑结构主要有集中式和分布式两种类型。但不论是集中式还是分布式制导架构下的导弹集群中所有导弹的决策都取决于领弹的决策,二者的区别表现于是否集群中所有导弹都和领弹直接通信,若各导弹都与领弹直接通信则为集中式制导架构,反之则为分布式制导架构。所以领弹发生战损或故障时,协同制导系统会因缺少关键领导者信息而无法使用。为了解决上述问题,林德福等人提出了一种有时间约束的基于虚拟领弹-从弹架构的分布式协同制导律,仅需部分导弹与虚拟领弹通信即可完成不同场景下的饱和攻击。杨登峰等将目标-进攻者-防御者对抗问题(target-attacker-defender,tad)拆解为虚拟领弹tad三体协同制导和多防御弹同时拦截攻击弹,提出了包括虚拟领弹、目标和防御弹群的两层协同制导策略。cong m等引入虚拟领弹,基于分布式模型预测控制结合粒子群优化算法,设计了一种适用于具有碰撞角约束且制导精度满足要求的多枚导弹的协同末制导算法。虽然已有上述研究,目前考虑领导者战损或故障问题的研究还比较少见。
3、此外,多对一协同制导模式的微分博弈问题相关理论和技术尚不成熟,尤其是针对复杂非线性系统的微分博弈协同制导技术,需要解决协同制导律的设计中耦合非线性偏微分方程的求解难题,自适应动态规划(adaptive dynamic programming,adp)技术是一种可行的解决方案。adp的关键思想是利用一个函数近似结构估计代价函数,以此来完成非线性偏微分方程的求解。已有研究将adp技术应用在微分对策问题、多智能体协同控制问题等领域。对基于微分对策的协同制导问题,孙景亮等结合adp技术、微分对策理论和模糊控制,设计了分布式自适应最优协同制导方案。公开号为cn113325866b的发明中考虑网络带宽受限和饱和输入问题,将adp技术、事件触发机制(event-triggered,et)和微分对策理论相结合,提出了一种输入饱和条件下的事件触发最优协同制导方法,并在有限时域多弹微分对策协同制导系统上验证了所提方法的有效性。因此,adp技术可应用于集群微分博弈协同制导问题,对解决复杂对抗环境下导弹集群智能攻击控制问题具有极高的应用潜力。
技术实现思路
1、考虑领弹因故障或战损导致领弹信息缺失的问题和非线性hji方程求解困难问题,本发明公开了一种基于共识主动性的自学习微分对策协同制导方法,该方法基于共识主动性理念,将导弹集群协同制导问题转化为非线性多智能体协同控制问题,根据智能体i的所有邻域智能体的相对平均位置,推导出微分对策协同控制策略及相应的hji方程;同时,引入adp技术近似求解hji方程,得到最优微分对策协同制导律。
2、为实现上述技术目的,本发明采取的技术方案为:
3、一种基于共识主动性的自学习微分对策协同制导方法,所述自学习微分对策协同制导方法包括以下步骤:
4、步骤1:基于图论,将导弹集群协同制导问题转化为非线性多智能体协同控制问题,构建集群通讯拓扑;
5、步骤2:根据集群通讯拓扑,推导多对一协同制导模型;
6、步骤3:根据微分对策理论和共识主动性理念,基于各智能体及其邻域智能体的相对平均位置,推导出最优微分对策协同控制策略及相应的非线性耦合hji方程;
7、步骤4:引入自适应动态规划技术构建评价网络结构在线求解合作型最优性能指标函数,执行最优控制策略,对导弹集群进行协同制导。
8、进一步地,步骤1中,构建集群通讯拓扑的过程包括以下步骤:
9、由n个智能体构成的多智能体系统中个体之间的通信拓扑结构图由表示,其中,n枚导弹被视作系统中的n个节点,节点的集合表示为为通信拓扑图中顶点的集合,代表每个智能体的位置;边集为通信拓扑图中边的集合,代表智能体之间的信息传输通道;当(i,j)∈ε,智能体j是智能体i的邻域智能体;若对任意两个智能体有(i,j)∈ε时,存在(j,i)∈ε则图为无向图,不存在(j,i)∈ε则图为有向图;智能体i的所有邻域智能体的集合表示为为图的邻接矩阵,当且仅当(i,j)∈ε时aij=1,反之则aij=0;定义图的入度矩阵图的拉普拉斯矩阵为
10、进一步地,步骤2中,推导多对一协同制导模型的过程包括以下步骤:
11、在末制导阶段,导弹和目标的飞行速度为常值,导弹加速度方向垂直于导弹速度;将导弹和目标均视为质点,建立n枚导弹和一个机动目标的二维交战几何关系,进攻导弹集群个体之间采用通讯拓扑网络进行交流和通信;
12、设定导弹mi试图攻击机动目标t,目标t通过机动试图规避攻击导弹的拦截,则第i枚导弹与机动目标t之间的相对运动学关系为:
13、
14、其中vi、vt分别为第i枚导弹和机动目标各自的速度;αi、β表示第i枚导弹和机动目标t的航迹角;θi为第i枚导弹的视线角,视线角对时间的导数为视线角速率;第i枚导弹和机动目标在垂直于各自速度方向的法向控制输入用ui、vt表示;ri为第i枚导弹与机动目标t之间的相对距离,相对距离对时间的导数为弹-目相对速率;
15、设导弹和目标的自动驾驶仪为一阶动态系统,则第i枚导弹质心运动方程为:
16、
17、其中,(xmi,ymi)表示导弹的二维平面横纵坐标位置,ai为第i枚导弹侧向加速度,τmi为第i枚导弹的自动驾驶仪时间常数;
18、机动目标的质心运动方程为
19、
20、其中,(xt,yt)表示机动目标的二维平面横纵坐标位置,at为目标的侧向加速度,τt为目标的自动驾驶仪时间常数。
21、进一步地,步骤3中,推导出最优微分对策协同控制策略及相应的非线性耦合hji方程的过程包括以下步骤:
22、步骤3-1:考虑显式协同制导方法,通过直接控制各个导弹和目标之间的剩余时间来进行同时攻击,选择弹-目剩余距离相关量作为协同变量,定义xi,1=ri,则由导弹与机动目标之间的相对运动学关系得到:
23、
24、式中,ri为第i枚导弹与机动目标t之间的相对距离,相对距离对时间的导数为弹-目相对速率;αi、β表示第i枚导弹和机动目标t的航迹角;θi为第i枚导弹的视线角,视线角对时间的导数为视线角速率;vt为机动目标的速度;
25、对集群攻击问题进行数学模型归纳,将制导问题描述为如下非线性微分博弈系统:
26、
27、其中xi(t)、ui(t)表示xi和ui是随时间t变化的,为第i枚导弹的状态,xi,1为弹目相对距离ri,xi,2为弹目相对距离的变化率为非线性系统的控制输入,为状态变量xi的导数;是已知的连续非线性函数,m、n表示变量的维度;目标机动造成的干扰由非线性项ki(xi)vi=[0,-sin(β-θi)vt]t表示;
28、步骤3-2:基于集群的作战共识,结合智能体间信息交流,根据智能体i所有邻域智能体的相对平均位置,将多智能体集群协同制导过程考虑为对集群共识作战过程,结合图论针对第i个智能体的局部邻域作战共识信号ei表示为:
29、
30、其中ni(t)表示第i个智能体在t时刻其邻域内智能体的数量;aij为通信拓扑结构图的邻接矩阵的元素;为智能体i的所有邻域智能体的集合表示;
31、对式(6)求导,局部邻域作战共识方程表示为:
32、
33、其中fei(t)=mi(fi(xi)-fj(xj)),di=ki(xi)vi;
34、步骤3-3:基于多智能体一致性理论以及微分对策理论,设计协同性能指标函数vi(ei)为:
35、
36、其中,为半正定矩阵,为对称正定矩阵,rii表示rii分解后的下三角矩阵,为对称半正定矩阵,tii>0为对称正定矩阵,tij>0为常数矩阵;
37、定义第i个智能体的hamilton函数为:
38、
39、其中即vi(ei)对于变量ei求偏导;
40、根据微分对策控制理论,满足下列非线性耦合hji方程时得到最优性能指标函数vi*(ei):
41、
42、根据极大极小值原理,最优解满足:
43、
44、其中,表示我方第i枚导弹、第j枚导弹,目标i和目标j的最优控制输入;
45、设式(10)的解存在并且唯一,结合最优控制理论可知最优解存在的必要条件,求解得最优控制律为:
46、
47、
48、则相应的时变hji方程为:
49、
50、其中vi*(0)=0。
51、进一步地,步骤4中,引入自适应动态规划技术构建评价网络结构在线求解合作型最优性能指标函数的过程包括以下步骤:
52、步骤4-1:根据adp理论,引入评价神经网络逼近连续非线性函数vi*(ei):
53、
54、其中l>0,wci是评价网络理想权值,l表示神经网络的神经元数量;和εi(ei)分别为神经网络的激励函数以及逼近误差;
55、对式(15)关于局部邻域作战共识ei做偏导,得到:
56、
57、其中和分别表示激励函数σi(ei)及逼近误差εi(ei)对变量ei的偏导数;
58、推得微分对策控制策略:
59、
60、
61、相应的hji方程为:
62、
63、其中由神经网络逼近导致的近似误差项δhjii为:
64、
65、步骤4-2:通过评价网络的输出估计理想权值wci:
66、
67、求偏导得到:
68、
69、推导得到估计的最优控制律为:
70、
71、
72、其中和分别为对最优解和的估计;
73、则近似的hamilton函数为:
74、
75、步骤4-3:设计如下评价网络权值eci更新律的目标函数,使其最小化以最小化的值:
76、
77、使用梯度下降法更新评价网络:
78、
79、增加两个附加项,构造网络权值更新律为:
80、
81、其中,vsi(ei)是连续可微的函数,满足表示vsi(ei)的偏导数;βi>0为学习率,f1i和f2i是维度合适的调优参数,为常数;函数п(·)的定义如下:
82、
83、与现有技术相比,本发明的有益效果如下:
84、第一,本发明公开了一种基于共识主动性的自学习微分对策协同制导方法,避免了传统协同制导架构所带来的导弹集群协同制导过程中领弹因故障或战损导致领弹信息缺失的问题,实现了去中心化导弹集群协同制导。
85、第二,与传统制导方案已知目标制导策略相比,本发明公开了一种基于共识主动性的自学习微分对策协同制导方法,将导弹集群制导系统描述为零和微分对策系统,追逃双方策略选择为动态博弈过程,更符合实际作战场景。
86、第三,本发明公开了一种基于共识主动性的自学习微分对策协同制导方法,利用adp技术,解决了非线性微分对策系统最优解的求解问题。
本文地址:https://www.jishuxx.com/zhuanli/20240830/281996.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表