一种基于深度强化学习的智能空战决策方法及系统
- 国知局
- 2024-07-31 23:12:12
本发明属于智能空战决策领域,具体涉及一种基于深度强化学习的智能空战决策方法及系统。
背景技术:
1、随着现代战争的信息化和智能化,迫切需要提高战场信息感知能力和快速生成策略能力,以适应高速、复杂、多变的战场环境。智能空战决策是空战的重要支撑技术,可以辅助飞行员生成策略,突破飞行员能力的限制,也可以应用于无人机,代替人类飞行员执行危险环境军事任务。深度强化学习融合了深度学习在感知理解方面的优势和强化学习在决策制定中的出色表现,实现飞行器在不同战场环境下针对实时战场态势的精准决策。近年来,国内外学者对智能空战决策技术进行了深入的分析研究,其中在已有的文献中最著名和效果最好的策略生成方法主要包括:
2、1.基于多智能体强化学习的多无人机协同决策方法:2022年的li s,jia y,yangf,et al.collaborative decision-making method for multi-uav based onmultiagent reinforcement learning[j].ieee access,2022,10:91385-91396.提出了一种基于多无人机协同决策的多智能体强化学习算法,该方法基于actor-critic算法,其中actor网络能够根据历史决策信息做出合理的决策,critic网络引入了自注意力机制,可能在复杂的环境中实现更好的学习。2.一种基于mappo算法的超视距空战多ucav协同决策方法:liu x,yin y,su y,et al.a multi-ucav cooperative decision-making methodbased on an mappo algorithm for beyond-visual-range air combat[j].aerospace,2022,9(10):563.针对超视距空战中的多无人机自主决策和协同作战的问题,提出了一种基于多智能体近端策略优化(mappo)算法的空战决策方法,该方法使用中心训练和分步式执行的思想,提高了无人机的决策能力,为多机空战提供了新思路。3.基于ms-ddqn算法的短程空战无人机自主机动决策方法:li y,shi j,jiang w,et al.autonomous maneuverdecision-making for a ucav in short-range aerial combat based on an ms-ddqnalgorithm[j].defence technology,2022,18(9):1697-1714.针对无人机在不确定环境下快速、准确地实现自主作战飞行器空战决策问题,提出了一种改进深度强化学习的决策算法—ms-ddqn。该算法克服了传统深度强化学习在训练速度和收敛速度方面的问题,在训练过程中显著加快了训练速度。4.基于动态质量重放的空战策略生成方法:2022年dongyuanhu,rennong yang,ying zhang,et al.aerial combat maneuvering policy learningbased on confrontation demonstrations and dynamic quality replay.engineeringapplications of artificial intelligence,2022,111:104767.提出一种新的动态质量重放(dynamic quality replay,dqr)数据采样方法,使策略生成模型有效地从历史数据中学习并且摆脱对传统专家知识的依赖,在多个深度强化学习算法和不同的初始场景下都能取得有效的结果。5基于深度强化学习的短程空战uav机动决策方法:zheng z,duanh.uavmaneuver decision-making via deep reinforcement learning for short-rangeair combat[j].intell robot,2023,3:76-94.提出一种基于深度强化学习的短程空战机动决策方法,在ppo算法的基础上引入了门控循环单元(gru),以帮助ppo使用连续的时间步长数据作出决策。实验结果表明,采用该机动决策方法的无人机能够获得有效的行为策略,从而在空战中作出更灵活的决策。然而,尽管深度强化学习在智能空战决策领域取得了显著的成果,但其仍面临着诸多挑战。首先,高估问题的处理仍然是一个难题。高估问题主要是由td学习的特点以及神经网络函数拟合的误差所导致,过高估计误差在学习的过程中会不断积累,最终导致学习到一个不好的策略,甚至根本无法收敛。其次,累积误差是基于深度强化学习的智能空战决策领域的另一个挑战。因为深度神经网络模型通常具有大量的参数和复杂的结构,这使得模型更容易受到误差的影响。此外,深度强化学习算法通常需要大量的样本和时间来训练模型,这也增加了累积误差的可能性。同时,如何降低训练难度使智能体能够快速学到有效的策略也是基于深度强化学习的智能空战决策领域面临的一个关键问题。通过随机决策,智能体很难达成既定目标,这无疑加大了训练的难度。在运用深度强化学习算法对无人机进行训练时,它们难以做出有效决策。
技术实现思路
1、针对现有技术的不足,本发明提出了一种基于深度强化学习的智能空战决策方法及系统,能有效地从环境中获得奖励,取得高胜率。同时在获得奖励的过程中表现出较好的稳定性,进一步提升了空战中无人机的决策能力,具有一定的有效性。
2、为实现上述目的,本发明提供了如下方案:
3、一种基于深度强化学习的智能空战决策方法,包括以下步骤:
4、构建基于深度强化学习的多机空战博弈框架;
5、在mappo算法的基础上引入双中心网络策略、延迟更新优化策略和分步训练策略,获得mappo_lddc算法;
6、基于所述mappo_lddc算法,构建空战决策模型;
7、利用所述多机空战博弈框架,训练所述空战决策模型;
8、利用训练好的所述空战决策模型,完成智能空战决策。
9、优选的,构建基于深度强化学习的多机空战博弈框架的方法包括:
10、构建空战的状态空间,获得空战过程中敌我双方飞机所处的状态;
11、基于所述空战过程中敌我双方飞机所处的状态,构建空战的动作空间,获得空战过程中飞机所能执行的所有动作的集合;
12、基于所述空战过程中飞机所能执行的所有动作的集合,构建分段奖励函数,引导空战过程中,无人机不断优化自身的策略,完成所述多机空战博弈框架的构建。
13、优选的,在mappo算法的基础上引入双中心网络策略、延迟更新优化策略和分步训练策略,获得mappo_lddc算法的方法包括:
14、引入双中心critic网络策略,替代mappo算法中的critic网络;
15、使用延迟更新优化策略,指导actor网络的参数更新;
16、使用分步训练策略,训练mappo算法。
17、优选的,利用所述多机空战博弈框架,训练所述空战决策模型的方法包括:
18、设定红、蓝飞行器的初始位置、速度和航向角;
19、使用分步训练策略对所述初始位置进行区间划分,按照区间从小到大的顺序进行训练;
20、红方飞行器使用所述mappo_lddc算法进行决策,蓝方飞行器使用预设的固定策略进行决策。
21、优选的,利用训练好的所述空战决策模型,完成智能空战决策的方法包括:
22、红、蓝飞行器在初始场景下基于多机空战博弈框架,利用所述mappo_lddc算法产生策略进行对抗,通过并行的方式生成空战数据;
23、基于所述空战数据,n对平行的飞行器分别进行博弈,每个飞行器收集s步数据,将n×s步数据拆分成固定长度t的时序序列,并通过最大-最小归一化处理,输入到所述空战决策模型;
24、基于所述空战决策模型输出当前时刻状态信息的策略和价值,所述mappo_lddc算法利用策略和价值计算损失值,通过梯度下降优化更新空战决策模型参数,实现智能空战决策。
25、本发明还提供了一种基于深度强化学习的智能空战决策系统,包括:框架构建模块、算法获得模块、模型构建模块、训练模块和决策模块;
26、所述框架构建模块用于构建基于深度强化学习的多机空战博弈框架;
27、所述算法获得模块用于在mappo算法的基础上引入双中心网络策略、延迟更新优化策略和分步训练策略,获得mappo_lddc算法;
28、所述模型构建模块用于基于所述mappo_lddc算法,构建空战决策模型;
29、所述训练模块用于利用所述多机空战博弈框架,训练所述空战决策模型;
30、所述决策模块用于利用训练好的所述空战决策模型,完成智能空战决策。
31、优选的,所述框架构建模块包括:状态获得单元、动作获得单元和优化策略单元;
32、所述状态获得单元用于构建空战的状态空间,获得空战过程中敌我双方飞机所处的状态;
33、所述动作获得单元用于基于所述空战过程中敌我双方飞机所处的状态,构建空战的动作空间,获得空战过程中飞机所能执行的所有动作的集合;
34、所述优化策略单元用于基于所述空战过程中飞机所能执行的所有动作的集合,构建分段奖励函数,引导空战过程中,无人机不断优化自身的策略,完成所述多机空战博弈框架的构建。
35、优选的,所述算法获得模块包括:替代单元、指导单元和训练单元;
36、所述替代单元用于引入双中心critic网络策略,替代mappo算法中的critic网络;
37、所述指导单元用于使用延迟更新优化策略,指导actor网络的参数更新;
38、所述训练单元用于使用分步训练策略,训练mappo算法。
39、优选的,所述模型构建模块包括:设定单元、划分单元和决策单元;
40、所述设定单元用于设定红、蓝飞行器的初始位置、速度和航向角;
41、所述划分单元用于使用分步训练策略对所述初始位置进行区间划分,按照区间从小到大的顺序进行训练;
42、所述决策单元用于红方飞行器使用所述mappo_lddc算法进行决策,蓝方飞行器使用预设的固定策略进行决策。
43、优选的,所述决策模块包括:数据生成单元、数据处理单元和数据决策单元;
44、所述数据生成单元用于红、蓝飞行器在初始场景下基于多机空战博弈框架,利用所述mappo_lddc算法产生策略进行对抗,通过并行的方式生成空战数据;
45、所述数据处理单元用于基于所述空战数据,n对平行的飞行器分别进行博弈,每个飞行器收集s步数据,将n×s步数据拆分成固定长度t的时序序列,并通过最大-最小归一化处理,输入到所述空战决策模型;
46、所述数据决策单元用于基于所述空战决策模型输出当前时刻状态信息的策略和价值,所述mappo_lddc算法利用策略和价值计算损失值,通过梯度下降优化更新空战决策模型参数,实现智能空战决策。
47、与现有技术相比,本发明的有益效果为:
48、本发明提出的一种基于深度强化学习的智能空战决策方法及系统,利用双中心critic网络有效降低了高估问题对空战决策过程的影响,提高了算法在空战决策过程中的决策能力,并增加意图引导和训练的多样性,优化延迟更新策略通过先稳定critic网络的更新,再指导actor网络进行更新,显著降低了累积误差对算法性能的影响,分步训练方法进一步降低了训练难度,使智能体能够更高效地学习复杂的空战决策技能。整体来说本发明提出的一种基于深度强化学习的智能空战决策方法获得了高奖励值、高胜率和高效率,具有一定的有效性。
本文地址:https://www.jishuxx.com/zhuanli/20240730/196384.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。