基于PPO和HIRO算法的航空兵分层自主行为决策建模方法
- 国知局
- 2024-08-01 00:03:20
本发明涉及计算机生成兵力对抗决策,更具体地说涉及一种基于ppo和hiro算法的航空兵分层自主行为决策建模方法。
背景技术:
1、基于对抗仿真系统进行的作战推演和评估是战场环境中重要决策判断工具,也是研究对抗战术的虚拟战场。伊拉克战争以来,联合作战(joint operations)成为了主要作战方式,使得战场环境变得更加复杂,战场态势信息爆炸式增长,对响应速度的要求更高,依托于指挥员的传统作战模式无法适应现阶段作战的需求,迫切需要智能决策技术提升作战计划的有效性与灵活性,提高决策单元在对抗环境中的自适应能力和决策能力,这对对抗作战仿真提出了新的要求。
2、在军事仿真系统中,计算机生成兵力(computer generated force,cgf)是由计算机创建并能对其全部或部分动作和行为实施自主控制或指导的虚拟作战兵力对象,是支撑对抗仿真的重要手段和有效途径。在作战仿真中引入cgf有助于实现仿真规模的扩大,并且使得对仿真的灵活控制和预测成为可能。构建cgf的核心任务是对战场环境中作战实体的行为进行建模,目标是提供cgf能够根据输入观察态势输出应执行行动或动作的行为模型,本质是人类行为建模。其中,对计算机生成兵力技术进行指挥与控制c2(command andcontrol)行为决策建模是对抗仿真的一项核心技术。智能兵力行为决策建模是将智能博弈迁移到作战领域的研究成果,是联合作战体系下对抗仿真研究的重点。智能兵力行为决策建模以神经网络为主要技术手段,在复杂对抗仿真环境下可以进行快速、自主决策,是解决联合作战背景下作战方案生成、任务规划及临机决策等智能化的关键。因此,在信息化体系作战的背景下,兵力对抗仿真中急需高质量、智能化的兵力行为决策建模方法,以支撑日益复杂的联合兵力对抗仿真需求。
3、传统兵力行为决策建模普遍存在依赖于专家经验的问题,缺乏灵活性和探索性。强化学习是一种解决序贯决策问题的方法,从其诞生至今已经衍生出了深度强化学习、多智能体强化学习、分层强化学习等多个分支。强化学习可以通过持续的“交互-试错”机制与环境不断交互,从而学得有效决策方案,这种端到端的学习方案为兵力行为决策建模提供了新的思路,而军事智能博弈平台的开发使这种思路得到了实现的可能:研究人员可以构建基于强化学习的智能行为决策模型,通过接收态势并输出动作与作战仿真平台进行交互,从而实现决策模型优化与模型能力评估。基于这些博弈平台进行智能对抗兵力行为决策建模研究,可为高效作战决策方案生成、提升联合作战指挥水平等方面提供有效的技术辅助,具有重要的理论意义和应用价值。
4、本发明主要考虑使用强化学习方法,对航空兵空战背景下,我方编队作战分层行为决策模型进行建模。对于采用强化学习算法进行联合作战行为决策建模,目前主要包括以下几种不同类型的算法:1)单智能体强化学习算法,用一个智能体实现联合作战对抗场景中的所有行为决策,如dqn(deep q-network),ppo;这种方式可以自然表示多智能体之间的协同合作,但是随着智能体数量增多,联合动作空间呈指数级增长,从而变得不切实际。2)多智能体强化学习算法,这种算法常采用集中训练分散执行(centralized trainingwith decentralized execution,ctde)的范式进行决策,如qmix,vdn;可以解决由智能体数量增多带来的维度爆炸,但是无法对实际联合作战中分层的行为决策进行建模,也无法解决分层决策时决策空间增大的难题。3)分层强化学习算法,如fun,hiro;这种算法可以很自然地表达联合作战时分层的行为决策特征,同时也将决策空间进行了拆解,拥有有效解决动作空间指数级增长问题的潜力。
5、此外,训练不稳定、难以收敛时目前制约分层强化学习算法性能进一步提高的关键因素。其主要原因在于各层行为决策模型交替迭代会加剧强化学习训练的非平稳性,同时各层模型决策目标复杂,直接对整体进行优化迭代效率较低,需要优化训练流程,从而降低训练非平稳性,提高模型优化训练稳定性和收敛速度。优化分层强化学习训练流程的方法包括:离线样本修正、分层迭代、预训练等。因此,基于分层强化学习算法并优化训练流程的联合作战自主决策行为决策建模技术,对解决复杂环境中的博弈仿真对抗问题,形成有效的联合作战行为决策建模方法具有重要的理论意义和军事利用价值。
技术实现思路
1、针对复杂航空兵联合作战任务,本发明中采用的算法解决思路是分层训练的方式,这类算法中,有基于选项的算法(比如hoc、hippo等)和基于目标的算法(比如fun、hiro)。其中,基于目标的算法更适用于各决策层相对独立的场景,具有更好的可复现性和灵活性。hiro是一种可以有效解决分层行为决策问题的基于目标的算法。鉴于本发明中,各层行为决策模型的决策主体不同,因此采用hiro算法实现编队联合作战行为决策建模。针对分层强化学习模型训练收敛困难的问题,本发明采用了预训练-整体训练的训练流程,采用ppo强化学习算法对各行为决策层进行预训练,再用预训练模型实现联合作战行为决策模型的整体训练,提升了hrl的训练稳定性和收敛速度。
2、本发明建立了一个基于hiro和ppo算法的航空兵联合作战分层自主行为决策模型。在典型联合作战对抗场景中,总体作战任务往往可以细化分解为若干具体、明确且相互关联的子任务。若直接进行整体行为决策模型建模,会导致状态空间和动作空间维度爆炸,同时为了引入分层强化学习算法,首先对航空兵联合作战任务进行层次划分,如图1所示。
3、其中,不同决策层需要执行不同的作战任务:总体指挥层面向多个区域的任务调度,包括作战区域选择、区域作战编队选择等;区域作战层面向区域内的武器平台任务分配,包括武器平台目标分配、拦截区选择等;武器平台层面向单兵基本可执行任务,包括拦截作战、目标突击、巡逻路线规划等。当上层决策层进行决策后,在若干时间步长内,下层决策层需要执行上层决策层的决策,其时序关系如图2所示。在构建了航空兵联合作战分层行为决策结构后,构建相应的状态空间、动作空间以及回报函数,构建基于分层强化学习的联合作战兵力行为决策模型,为联合作战行为决策提供方法支撑。
4、在构建基于hiro算法的分层行为决策模型时,针对分层强化学习算法中的平稳性差、难以收敛的问题,本发明采用预训练+整体训练的流程进行优化。在使用不同行为决策层在进行行为决策时,需要同时考虑自身的任务目标和上层决策层的决策指令,这种多目标的训练模式收敛性较差。本发明中,先使用ppo算法,以自身任务目标为决策目标进行预训练,得到可以完成相应任务的各层预训练行为决策模型后,将各决策层模型进行组合后,使用hiro算法进行整体训练,最终实现航空兵联合作战智能行为决策模型的完整建模。分层行为决策建模的整体流程如图3所示,分层行为决策模型的训练流程如图4所示。
5、本发明建立基于hiro和ppo算法的航空兵联合作战分层自主行为决策模型,包括以下步骤:
6、s1:将联合作战行为决策模型进行层次划分,自上而下依次为:总体指挥-区域作战-武器平台。指挥层为高层决策层,负责制定总体作战计划,分配区域作战的部署位置;编队层为中层决策层,为武器平台进行目标分配;武器平台层是底层决策层,具体决定各武器平台的作战和任务执行方式。最终形成基于分层强化学习算法的分层自主行为决策框架。
7、s2:根据总体作战任务的特点,提取特征向量构建各层强化学习算法的输入状态空间,对编队协同作战各层关注的作战态势进行有效表示。
8、s3:根据总体作战任务中不同决策层级的作战特点和作战任务,为编队协同作战中各决策层设计不同的行为决策空间。
9、s4:提取特征向量,针对不同决策层级的作战目标,为各决策层设计强化学习算法中的回报函数。
10、s5:基于ppo算法,融合上文设计的强化学习状态空间、动作空间以及回报函数设计,对各决策层进行预训练。
11、s6:基于hiro算法和第五步中预训练得到的各决策层行为决策模型,融合上文设计的强化学习状态空间、动作空间以及回报函数设计,并基于联合作战整体回报函数对各决策层的回报函数进行改造,形成联合作战行为决策模型迭代优化训练的完整运行流程。
12、进一步地,所述步骤s1具体流程为:
13、s1-1:针对编队协同作战的多层次性,对联合作战行为决策进行层次划分,将行为决策模型分为总体指挥-区域作战-武器平台三层决策模型,形成如图1所示的分层行为决策框架。
14、s1-2:总体指挥层采用强化学习算法对区域作战时的区域选择进行决策。当包含但不限于预警机、歼击机、轰炸机的区域作战编队接收到红方指挥中心的作战指令时,该编队会前往相应的区域执行巡逻任务,并为后续的作战任务做准备。
15、s1-3:区域作战层采用融合强化学习算法和传统规则集的行为模型进行决策,包括任务分配、目标选择等。以歼击机编队为例,采用规则集进行目标分配行为决策,同时采用强化学习算法选择拦截区,引导歼击机前往指定区域执行拦截任务,目标分配规则集如表1所示。
16、表1歼击机编队目标分配规则集
17、
18、s1-4:武器平台层采用融合强化学习算法和传统规则集的行为模型对作战飞机的作战行为进行决策。以歼击机为例,采用规则集选择作战行为,如表2所示,当歼击机执行拦截任务时,采用强化学习算法对歼击机进行航路规划。
19、表2歼击机作战规则集
20、 序号 前件 后件 1 油料不足 返航 2 油料充足and区域作战层分配拦截目标 执行拦截任务 3 油料充足and区域作战层未分配拦截目标 前往指定区域巡逻
21、进一步地,所属步骤s2具体流程为:
22、s2-1:在联合作战中,不同层次的作战人员关心的战场范围、战术对象、态势要素以及内容、信息精度等都存在差异,因此不同指挥层级需要获取到的作战态势有所不同。总体指挥层获取的态势是战场整体态势信息,可选取包括指控范围图gc、对空攻击范围图gaa、对空探测范围图gad、对海攻击范围图gsa、对海探测范围图gsd等态势图,共同构成用于总体指挥层决策模型的状态输入空间,例如:
23、st=<gc,gaa,gad,gsa,gsd>
24、s2-2:区域作战层获取的态势是区域态势信息,以区域协同作战体系中包含但不限于歼击机编队、轰炸机编队和预警机为例,可选取包括该区域内我方所有航空飞机的三维坐标位置(xr,yr,zr)、兵力类型lxr、航向hr、速度vr、携弹量d_numr、敌方来袭目标的三维坐标位置(xb,yb,zb)、兵力类型lxb、航向hb、速度vb等,共同构成用于区域作战层决策模型的状态输入空间,例如:
25、sm=<xr,yr,zr,lxr,hr,d_numr,vr,ir,xb,yb,zb,lxb,hb,vb>
26、s2-3:武器平台层获取的态势是执行单机任务时的局部态势,以歼击机执行拦截任务为例,可选取兵力类型lxr、当前油量fr、当前剩余弹量d_numr、拦截目标的相对位置(xrb,yrb,zrb)、兵力类型lxb、速度vb、进入角(aot)、视线角(ata)等,共同构成用于武器平台层决策模型的状态输入空间,例如:
27、sl=<lxr,fr,d_numr,xrb,yrb,zrb,lxb,vb,aot,ata>
28、进一步地,所述步骤s3具体流程为:
29、s3-1:以区域巡逻作战任务为例设计总体指挥层的行为决策空间。将战场划分为n1个不同的巡逻区域,假设有k个区域作战编队,那么基于强化学习算法的总体指挥层决策模型输出k个区域巡逻位置post={pi}i=1,2…k,其中各个区域作战编队将前往指定区域,并按照预定阵位执行巡逻任务。
30、s3-2:以拦截区规划任务为例设计区域作战层的行为决策空间。将每个区域编队的作战区域划分为n2个不同的拦截区,对于每一个来袭的敌方目标,基于强化学习算法的区域作战层决策模型输出相应的拦截区武器平台将会前往指定拦截区执行拦截任务。
31、s3-3:以拦截作战为例设计武器平台层的行为决策空间。对于歼击机,本发明中构建了7个基本机动动作作为行为决策空间,包括匀速前飞、减速前飞、加速前飞、左转、右转、爬升和俯冲。
32、进一步地,所述步骤s4具体流程为:
33、s4-1:回报函数元素的选择至关重要,对于不同的作战任务,驱动模型学习的汇报函数特征向量应该由不同的元素组成。以巡逻区域选择为例,本发明中选取了如下几个基础特征:探测覆盖率c1、敌方单位覆盖率c2、敌方威胁区域覆盖率c3、巡逻区域重叠率r、拦截响应时间t。基于上述基础特征,设计总体指挥层的回报函数特征向量ft可表示为:
34、ft=<c1,c2,c3,r,t>
35、s4-2:以拦截区规划为例设计区域作战层的回报函数。考虑到决策过程中需要最大化拦截作战开始时的对敌优势,本发明中选取了如下几个基础特征:拦截目标视线角ata、拦截目标进入角aot、相对距离d、径向相对速度vr。基于上述基础特征,设计区域作战层的回报函数特征向量fm可表示为:
36、fm=<ata,aot,d,vr>
37、s4-3:以拦截作战为例设计武器平台层的回报函数。本发明中选取了如下几个基础特征:剩余载弹量br、命中次数t1、被命中次数t2。基于上述基础特征,设计武器平台层的回报函数特征向量fl可表示为:
38、fl=<br,t1,t2>
39、s4-4:设计联合作战整体回报函数。本发明中选取了如下几个基础特征:拦截弹消耗量m、预警机毁伤率dw、轰炸机毁伤率db、歼击机毁伤率da、对敌歼击机拦截率p。基于上述基础特征,设计联合作战整体回报函数特征向量fc可表示为:
40、fc=<m,dw,db,da,p>
41、s4-5:设置各层回报函数特征向量中各元素权重,以组成回报函数。以武器平台层为例,其回报函数rl可以表示为:
42、
43、式中,表示武器平台层回报函数权重向量,其各元素之和为1。
44、进一步地,所述步骤s5具体流程为:
45、s5-1:以执行拦截作战的歼击机为例设计各层行为决策模型预训练流程,首先构建用于预训练该模型的子环境,即一对一拦截作战训练环境。
46、s5-2:初始化战场态势和ppo神经网络参数,并对学习率lr、单次训练样本量batch_size、回报折扣因子γ、截断超参数∈、单样本训练次数k等各类超参数进行初始化设置。
47、s5-3:根据s2-3中的内容,从战场态势中提取ppo网络当前状态空间信息st,其中
48、st=<lxr,fr,d_numr,xrb,yrb,zrb,lxb,vb,aot,ata>
49、s5-4:将获取到的当前态势信息st输入ppo网络的决策网络,得到在当前态势下执行不同动作的概率pt,随机依概率pt采样得到歼击机的动作at。同时将态势信息st输入状态价值网络得到状态价值vt。
50、s5-5:歼击机执行完动作at后,得到新的战场态势s′t以及回合结束标志dt,并根据回报函数计算上一帧动作执行后取得的回报rt,将{st,at,logpt,vt,rt,dt}作为一个样本存入样本池中。
51、s5-6:如果样本池中的样本数量小于batch_size,返回s5-3,否则执行s5-7。
52、s5-7:取出经验池中所有样本用于训练。首先计算样本优势函数:
53、
54、其中,t表示训练样本中最后一个样本的步数。
55、s5-8:将状态st输入目标决策网络和目标状态价值网络,输出目标动作概率p′t和目标状态价值v′t,并计算新旧策略比ρt和截断新旧策略比
56、
57、
58、s5-9:计算损失函数la(θ)用于反向传播并更新目标决策网络和lc(θ)目标状态价值网络的参数:
59、
60、
61、s5-10:重复k次s5-8至s5-9,并用目标策略网络和目标状态价值网络的参数更新策略网络和状态价值网络。
62、s5-11:判断空战是否结束,若是执行s5-12,否则返回s5-3。
63、s5-12:判断是否满足停止训练的条件,若是则终止当前流程,否则返回s5-3。
64、s5-13:算法训练结束后,即完成了对于歼击机拦截作战的行为决策模型预训练,得到的模型可以进行拦截作战行为自主决策。以相同的步骤可以完成总体指挥层和区域作战层的行为决策模型预训练。
65、进一步地,所述步骤s6具体流程为:
66、s6-1:初始化完整的战场态势,用预训练得到的ppo神经网络参数初始化hiro神经网络参数,使得各决策层拥有初步完成各自作战任务的行为决策能力。
67、s6-2:优化训练总体指挥层行为决策模型。在训练总体指挥层时,固定区域作战层和武器平台层的神经网络参数,并用s4-4中的联合作战整体回报函数特征向量fc对总体指挥层的回报函数进行改造,得到新的回报函数r′t可表示为:
68、
69、其中,αt是总体指挥层回报函数改造的全局回报权重,是全局回报函数权重向量,其各元素之和为1。将原始回报函数rt替换为新的回报函数r′t后,重复s-3至s-7nt次,对总体指挥层行为决策模型进行nt次迭代优化训练,其中nt是设定单次整体迭代中总体指挥层行为决策模型的优化次数。
70、s6-3:优化训练区域作战层行为决策模型。固定总体指挥层和武器平台层的神经网络参数,参照s6-2对区域作战层行为决策模型进行nm次迭代优化训练,其中nm是设定单次整体迭代中总体指挥层行为决策模型的优化次数。
71、s6-4:优化训练武器平台层行为决策模型。固定总体指挥层和区域作战层的神经网络参数,参照s6-2对武器平台层行为决策模型进行nl次迭代优化训练,其中nl是设定单次整体迭代中总体指挥层行为决策模型的优化次数。
72、s6-5:重复s6-2至s6-4,直到各层回报函数的更新幅度小于给定阈值时,结束策略优化,同时输出优化后的hiro网络参数θ*作为最优分层自主行为决策模型参数。
73、本发明的有益效果在于:
74、(1)相较于传统兵力行为决策建模方法,本发明将强化学习算法引入联合作战行为决策建模中来,可以实现指挥策略的自演化,支持在没有经验积累的全新作战场景下进行探索和策略优化。
75、(2)相较于使用单智能体强化学习算法进行兵力行为决策建模,本发明对联合作战行为决策模型进行了分层,对各行为决策层的状态空间和动作空间进行了解耦,避免了复杂作战场景下,高维决策空间带来的网络训练不收敛和训练效率低下等问题。
76、(3)相较于对分层行为决策模型进行整体训练,本发明对各行为决策层进行了预训练,并在预训练模型的基础上进行联合作战行为决策模型的整体训练,可以避免不同决策层的行为决策模型同时训练导致的策略非平稳性问题,有助于提高智能体训练效率,同时使得策略学习过程更加稳定。
本文地址:https://www.jishuxx.com/zhuanli/20240730/199558.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表