基于智能无人机群对战的鲁棒性评测方法
- 国知局
- 2024-08-30 14:24:34
本说明书涉及人工智能,特别涉及基于智能无人机群对战的鲁棒性评测方法。
背景技术:
1、人工智能系统作为新一代科技革命的典型代表性技术,目前已在我国的工业、金融和公共安全等领域广泛应用,而其在无人机群控制领域的应用也正在快速发展。多智能体强化学习在安全监测、洪水检测、抢险救灾等安全攸关、民生攸关的领域发挥了重大作用。nature发文指出,使用强化学习控制的无人机已经可以在无人机竞速赛中超越人类冠军选手,展示了强化学习强大的适应能力与学习能力,研究多智能体强化学习在无人机群上的应用有极高的研究价值和现实意义。
2、但是,在实际算法部署过程中,无人机群可能由于软硬件错误而做出随机不可控的动作,其鲁棒性下界为令无人机群做出最坏的动作。在现实中,每次对于使用多智能体强化学习的无人机群进行鲁棒性评测将消耗大量算力,难以对于大量使用多智能体强化学习的无人机群进行可信的评测。
3、现有技术虽然可以对于多智能体强化学习进行鲁棒性评测,但其训练范式均需要在训练阶段在待评测环境中,针对待评测智能体进行强化学习训练。但是,在真实鲁棒性评测场景中,训练一个鲁棒性评测策略等价于学习一个强化学习任务,其效果与超参数、环境设置等因素高度相关,从而需要大量时间对于鲁棒性评测策略进行训练调优,才能实现对于任务的准确评测,效率低下。
技术实现思路
1、针对现有技术中的上述不足,本发明提供的基于智能无人机群对战的鲁棒性评测方法解决了智能无人机群对战过程中的高效鲁棒性评测的问题。
2、为了达到上述发明目的,本发明采用的技术方案为:基于智能无人机群对战的鲁棒性评测方法,包括:
3、s1:获取无人机群的观测空间特征;
4、s2:基于引入的环境特征,构建鲁棒性评测模型;
5、s3:基于所述观测空间特征,利用多场景分块迭代式训练方法,训练所述鲁棒性评测模型,得到训练好的鲁棒性评测模型;
6、s4:利用训练好的鲁棒性评测模型对无人机群运动环境进行鲁棒性评测,得到评测结果,完成对智能无人机群对战的鲁棒性评测。
7、本发明的有益效果为:处理器利用多场景分块迭代式训练方法,得到训练好的鲁棒性评测模型,对无人机群运动环境进行鲁棒性评测,得到评测结果。通过这种方式,(1)可以解决不同无人机场景之间的观测、动作空间信息维度不一致、无法将工业、金融和公共安全的具体场景下学习到的鲁棒性评测知识下引入至鲁棒性评测智能体后直接应用到另一场景,从而解决现有算法评测效率低下的问题;(2)无人机群鲁棒性评测的可见信息只包括当前无人机评测场景下的动态观测信息。本方案提出将学习的技能与当前无人机评测场景绑定,从而提高鲁棒性评测的准确性;(3)多无人机场景知识引入后,原无人机场景下学习的知识基本可以保留,减少场景间知识被覆盖的问题。
8、进一步地,所述s1包括:
9、利用无人机群对每个无人机周围空间进行观测,得到观测空间特征;所述观测空间特征包括地图特征、移动特征、敌机特征、友机特征和自身特征。
10、进一步地,所述无人机群的获取过程为:利用包括编码层和拼接层的无人机编码器得到,其中,
11、编码层,用于对无人机种类进行编码,得到种类向量数据;
12、拼接层,用于对所述种类向量数据进行拼接,通过回传的梯度调整参数,得到模拟的无人机群数据。
13、进一步地,所述s2中鲁棒性评测模型包括浅层特征处理层、深层特征处理层、环境特征提取层和动作决策层:
14、浅层特征处理层,用于对输入的观测空间特征进行恒等变换和归一化处理,得到鲁棒性评测模型输入数据;
15、深层特征处理层,用于对所述鲁棒性评测模型输入数据进行线性映射、整流和归一化处理,得到无人机自身观测特征;
16、环境特征提取层,用于对所述地图特征、自身特征、敌机特征和友机特征进行嵌入和拼接处理,得到环境特征;
17、动作决策层,用于对所述无人机自身观测特征和环境特征进行线性融合,得到鲁棒性评测模型输出的评测结果。
18、进一步地,所述环境特征提取层包括:
19、嵌入模块,用于对自身特征、敌机特征和友机特征进行嵌入处理,得到对应的特征向量;
20、拼接模块,用于将所述敌机特征向量、友机特征向量和地图特征进行拼接,得到拼接特征向量;
21、环境特征提取模块,用于对所述自身特征向量和拼接特征向量进行线性整流和归一化处理,得到所述环境特征。
22、进一步地,所述s3包括:
23、采用多轮次迭代的方式,在环境首轮迭代时对所有层次进行预热初步训练处理后,从次轮迭代开始固定住深层特征处理层的参数,只对剩余的层次做训练,每轮次保证鲁棒性评测模型在所有环境下都训练到,限制轮次内训练数量,多轮反复迭代,得到训练好的鲁棒性评测模型。
技术特征:1.基于智能无人机群对战的鲁棒性评测方法,其特征在于,包括:
2.根据权利要求1所述的基于智能无人机群对战的鲁棒性评测方法,其特征在于,所述s1包括:
3.根据权利要求1所述的基于智能无人机群对战的鲁棒性评测方法,其特征在于,所述无人机群的获取过程为:利用包括编码层和拼接层的无人机编码器得到,其中,
4.根据权利要求2所述的基于智能无人机群对战的鲁棒性评测方法,其特征在于,所述s2中鲁棒性评测模型包括浅层特征处理层、深层特征处理层、环境特征提取层和动作决策层:
5.根据权利要求4所述的基于智能无人机群对战的鲁棒性评测方法,其特征在于,所述环境特征提取层包括:
6.根据权利要求1所述的基于智能无人机群对战的鲁棒性评测方法,其特征在于,所述s3包括:
技术总结本发明提供基于智能无人机群对战的鲁棒性评测方法,涉及人工智能技术领域,该方法为获取无人机群的观测空间特征;基于引入的环境特征,构建鲁棒性评测模型;基于观测空间特征,利用多场景分块迭代式训练方法,训练鲁棒性评测模型,得到训练好的鲁棒性评测模型;利用训练好的鲁棒性评测模型对无人机群运动环境进行鲁棒性评测,得到评测结果,完成对智能无人机群对战的鲁棒性评测。本发明解决了智能无人机群对战过程中的高效鲁棒性评测的问题。技术研发人员:刘祥龙,李思民,李逸卓,徐睿霄,郭晋阳受保护的技术使用者:北京航空航天大学技术研发日:技术公布日:2024/8/27本文地址:https://www.jishuxx.com/zhuanli/20240830/281858.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。