技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种面向无人机蜂群的智能对抗决策方法与流程 > 正文

一种面向无人机蜂群的智能对抗决策方法与流程

国知局
2024-07-31 23:10:39

本发明涉及多智能体强化学习和智能决策，尤其涉及一种面向无人机蜂群的智能对抗决策方法。

背景技术：

1、经过数十年发展，无人机在替代人类执飞任务中展现了巨大优势，尤其是4d(dull，dirty，dangerous and deep)任务的复杂、多变、难以预测使得以小体积却速度快的低成本无人机脱颖而出，从而能够有效避免人员伤亡。而现代战争由于复杂多变的战场环境，仅凭单架无人机已无法全面应对敌方的攻击，而以多架无人机组成的无人机编队更能够在进行协同互补的基础上适应作战环境，从而实现战斗能力的全面提升。具体来说，相对于单一作战、全面防御的单无人机作战模式，无人机集群作战模式不仅融合了单无人机的强大功能，并且更加注重无人机集群协同作战、共同抗击，以集结单一的作战能力优势以及集群协作能力优势。

2、无人机的集群对抗可借鉴多智能体系统的工作形式,将无人机抽象为一个独立的智能体给无人机集群飞行中最优编队算法的自动生成、有障碍和无障碍环境下的队形保持提供了方向。其中，外部环境，例如地形、气象以及敌方无人机集群、我方无人机集群共同构成一个多智能体系统。该系统中，每架我方无人机都表示一个智能体。整个多智能体系统要完成的任务就是通过所有智能体的协同来歼灭敌方无人机集群。与此同时,在多智能体系统框架下根据uav(无人机)、目标和战场信息解决多uav协同任务分配下的实时性需求问题,实现多智能体间的知识共享、计划和行动协调等通信行为。多智能体技术具有的自组织能力、学习能力和推理能力,为无人机集群间的对抗控制与决策提供了有效途径。然而，现有的多智能体算法与上述已有算法类似，仅能解决少数智能体场景，难以处理无人机集群的动态对抗。

技术实现思路

1、鉴于上述问题，提出了本发明以便提供克服上述问题或者至少部分地解决上述问题的一种面向无人机蜂群的智能对抗决策方法。

2、根据本发明的一个方面，提供了一种面向无人机蜂群的智能对抗决策方法，所述对抗决策方法包括：

3、无人机蜂群对抗态势建模；

4、设计一个基于价值分解的多智能体强化学习智能决策网络；

5、利用经验回放池对所述多智能体强化学习智能决策网络进行训练；

6、生成无人机蜂群智能对抗决策模型；

7、根据无人机蜂群状态和所述无人机蜂群智能对抗决策模型进行智能决策。

8、可选的，所述无人机蜂群对抗态势建模具体包括：区位划分；方向态势；角度优势；距离态势。

9、可选的，所述设计一个基于价值分解的多智能体强化学习智能决策网络具体包括：

10、无人机蜂群作战任务被视为一个协作的多智能体强化学习任务；集群包括多个无人机，无人机组成的集群共同合作歼灭敌方作战集群；

11、建立无人机蜂群作战奖励函数。

12、可选的，所述建立无人机蜂群作战奖励函数具体包括：无人机蜂群作战获得奖励分为即时奖励rt,t＝1,2,…,t，t为回合步数，repisode为回合奖励；

13、所述即时奖励为无人机蜂群在环境变量为s时每个智能体采取各自动作ui,i＝1,2,…,n后，集群获得一个全局奖励；

14、所述回合奖励为每个对战回合结束时获得的全局奖励。

15、可选的，所述生成无人机蜂群智能对抗决策模型具体包括：

16、初始化模型的参数：经验回放集合d，每个智能体的当前和目标动作价值网络参数

17、每一个对战回合开始，初始化环境；

18、无人机蜂群中每个智能体获得当前局部观测其中t表示当前回合执行的步数；并获得动作观测历史轨迹和当前环境状态st的可选动作集合记作uavil；

19、每个智能体i将其动作观测历史轨迹作为输入，通过当前动作价值网络获得其对应的所有动作价值集合

20、每个智能体都随机生成一个随机数当随机数小于设定的阈值ε时，智能体从所有动作价值集合中选择最大价值对应的动作，记作否则，从所有可选动作中随机选择一个动作，记作ui＝rand(uavil)；

21、执行动作集合无人蜂群获得全局奖励r、下一个时刻的局部观测和回合结束标志done；

22、将(ot,ut,rt,ot+1,donet)存入经验回放集合d中；

23、从经验回放集合d中随机采样大小为m的数据集合记作(om,um,rm,om+1,donem),m＝1,2,…,m，通过损失函数公式(1)采用随机梯度下降对当前神经网络进行参数更新；

24、

25、其中λ＝0.8，

26、γ＝0.99，

27、判断回合执行步数是否为c的整数倍，如果是则将每个智能体当前动作价值网络参数赋值给目标价值网络参数，即

28、判断对战回合是否结束，如果未结束则转至步骤2.3.2；否则判断对战回合数是否达到给定训练回合数量nmax_training＝10000，如果达到给定训练回合数量则保存每个智能体的当前和目标动作价值网络参数否则转至步骤：从经验回放集合d中随机采样大小为m的数据集合。

29、可选的，所述根据无人机蜂群状态和所述无人机蜂群智能对抗决策模型进行智能决策具体包括：

30、无人机蜂群中每个智能体获得当前局部观测其中，t表示当前回合执行的步数；

31、并获得动作观测历史轨迹和当前环境状态st的可选动作集合记作uavil；

32、每个智能体i将其动作观测历史轨迹作为输入，通过训练结束保存的当前动作价值网络获得其对应的所有动作价值集合

33、从智能体所有动作集合中选择最大价值对应的动作作为无人机蜂群智能体的决策进行对战。

34、本发明提供的一种面向无人机蜂群的智能对抗决策方法，所述对抗决策方法包括：无人机蜂群对抗态势建模；设计一个基于价值分解的多智能体强化学习智能决策网络；利用经验回放池对所述多智能体强化学习智能决策网络进行训练；生成无人机蜂群智能对抗决策模型；根据无人机蜂群状态和所述无人机蜂群智能对抗决策模型进行智能决策。面向无人机蜂群作战智能对抗决策，目标在于实现更高效的面向大规模无人机对战集群的智能对抗决策。

35、上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

技术特征：

1.一种面向无人机蜂群的智能对抗决策方法，其特征在于，所述对抗决策方法包括：

2.根据权利要求1所述的一种面向无人机蜂群的智能对抗决策方法，其特征在于，所述无人机蜂群对抗态势建模具体包括：区位划分；方向态势；角度优势；距离态势。

3.根据权利要求1所述的一种面向无人机蜂群的智能对抗决策方法，其特征在于，所述设计一个基于价值分解的多智能体强化学习智能决策网络具体包括：

4.根据权利要求3所述的一种面向无人机蜂群的智能对抗决策方法，其特征在于，所述建立无人机蜂群作战奖励函数具体包括：无人机蜂群作战获得奖励分为即时奖励rt,t＝1,2,…,t，t为回合步数，repisode为回合奖励；

5.根据权利要求1所述的一种面向无人机蜂群的智能对抗决策方法，其特征在于，所述生成无人机蜂群智能对抗决策模型具体包括：

6.根据权利要求1所述的一种面向无人机蜂群的智能对抗决策方法，其特征在于，所述根据无人机蜂群状态和所述无人机蜂群智能对抗决策模型进行智能决策具体包括：

技术总结本发明提供的一种面向无人机蜂群的智能对抗决策方法，所述对抗决策方法包括：无人机蜂群对抗态势建模；设计一个基于价值分解的多智能体强化学习智能决策网络；利用经验回放池对所述多智能体强化学习智能决策网络进行训练；生成无人机蜂群智能对抗决策模型；根据无人机蜂群状态和所述无人机蜂群智能对抗决策模型进行智能决策。面向无人机蜂群作战智能对抗决策，目标在于实现更高效的面向大规模无人机对战集群的智能对抗决策。技术研发人员：高黎明,山世光,李勇,刘壮,山盛,王慧勇,李竞元,高科,杨茹茵,史鹏飞,钟鸿豪受保护的技术使用者：中科视拓（北京）科技有限公司技术研发日：技术公布日：2024/7/29