技术新讯 > 计算推算,计数设备的制造及其应用技术 > 协作多无人系统贡献评估与决策方法、产品、介质及设备  >  正文

协作多无人系统贡献评估与决策方法、产品、介质及设备

  • 国知局
  • 2024-08-30 15:06:18

本发明涉及协作多智能体强化学习,特别是涉及一种协作多无人系统贡献评估与决策方法、产品、介质及设备。

背景技术:

1、近年来,面向无差别团队奖励下的多智能体协作策略优化研究面临的最大问题依然是如何评价每个无人系统的局部策略对团队协作策略的贡献度。

2、目前,现有的多无人系统团队奖励贡献评估方法从分析个体与团队整体之间的关系入手,尝试将这种关系描述为线性或非线性的形式,并且在此基础上假设团队联合动作策略与团队中每个智能体的最优动作策略保持一致,即个体-全局最大一致性原则(individual-global-max,igm)。igm原则只要求每个无人系统学习出自身的最优动作策略,所有无人系统最优动作策略的集合就被称为团队最优联合动作策略,也因此降低了协作策略的学习难度。

3、igm原则指导下的协作策略信用分配过程可以概括为以下两个阶段:第一阶段,基于全局状态将联合动作价值拆分为每个无人系统的动作价值,该过程中每个无人系统独立地探索且不依赖其他无人系统策略;第二阶段,基于全局状态的动作价值将被具体化为基于无人系统局部观测历史下的动作价值,该阶段也被称为分散执行,此阶段每个无人系统只依赖于自身的局部观测。

4、在面对复杂的、非单调(非单调是指在协作任务中,在以相同的变化趋势调整其他智能体的动作时,剩余无人系统改变动作得到环境反馈的奖励有增有减)的任务时,倘若其他智能体出现非合作行为,而此类方法,即现有的多无人系统团队奖励贡献评估方法要求团队联合动作价值与每个无人系统动作价值保持单调性且数值恒大于零,易导致另外一些具有协作行为的无人系统的动作价值被低估,无人系统错误地朝着次优策略优化,最终团队陷入次优协作策略,该问题也被称为相对过度泛化问题。因此,在多无人系统协作策略的优化过程中,倘若能够准确评估不同无人系统在团队奖励中的贡献占比,则能够激励无人系统朝着最优协作策略前进,从而完成团队贡献度的合理分配。然而现有的多无人系统团队奖励贡献评估方法在面对复杂的、非单调的任务时,无法准确评估不同无人系统在团队奖励中的贡献占比,因此无法激励无人系统朝着最优协作策略前进,从而完成团队贡献度的合理分配。

技术实现思路

1、本发明的目的是提供一种协作多无人系统贡献评估与决策方法、产品、介质及设备,能够在面对复杂的、非单调的任务时,准确评估不同无人系统在团队奖励中的贡献占比,激励无人系统朝着最优协作策略前进,从而完成团队贡献度的合理分配。

2、为实现上述目的,本发明提供了如下方案。

3、一方面,本发明提供一种协作多无人系统贡献评估与决策方法,包括:

4、基于每个无人系统的局部观测信息和历史动作,计算每个无人系统的动作价值分布和动作价值;

5、基于每个无人系统的所述动作价值,计算每个无人系统的状态价值和优势动作价值;

6、基于每个无人系统的所述状态价值和所述优势动作价值,联合所有无人系统的局部观测信息,计算每个无人系统的全局状态价值和全局优势动作价值;

7、利用每个无人系统的所述全局状态价值和所述全局优势动作价值,计算联合动作价值;

8、利用所述联合动作价值和每个无人系统的所述动作价值分布,计算所有无人系统的联合动作价值分布;

9、基于所有无人系统的联合观测信息和所有无人系统的动作,计算残差映射权重矩阵;所有无人系统的联合观测信息是联合所有无人系统的局部观测信息得到的;

10、基于所述残差映射权重矩阵,对所有无人系统的联合动作价值分布进行修正,得到修正后的所有无人系统的联合动作价值分布;

11、基于每个无人系统的所述动作价值以及修正后的所有无人系统的联合动作价值分布,对无人系统策略网络进行训练和优化,得到优化后的无人系统策略网络;

12、利用所述优化后的无人系统策略网络进行决策。

13、可选地,所述基于每个无人系统的局部观测信息和历史动作,计算每个无人系统的动作价值分布和动作价值,具体包括:

14、对于每个无人系统,利用所述无人系统的局部观测信息和历史动作,通过效用网络计算所述无人系统的动作价值分布和动作价值;所述效用网络通过时序神经网络构建,且每个无人系统的效用网络彼此独立,参数互不共享。

15、可选地,基于每个无人系统的所述动作价值,计算每个无人系统的状态价值和优势动作价值,具体包括:

16、在每个时刻,将每个无人系统的动作价值拆解为状态价值函数和优势动作价值函数;

17、根据所述状态价值函数和所述优势动作价值函数,得到每个无人系统的状态价值和优势动作价值。

18、可选地,基于每个无人系统的所述状态价值和所述优势动作价值,联合所有无人系统的局部观测信息,计算每个无人系统的全局状态价值和全局优势动作价值,具体包括:

19、通过引入全局状态视角,用所有无人系统的局部观测信息的连接代替全局状态,在全局状态的作用下,局部观测下的每个无人系统的状态价值和优势动作价值转换为基于全局状态下的每个无人系统的状态价值和优势动作价值;基于全局状态下的每个无人系统的状态价值为每个无人系统的全局状态价值;基于全局状态下的每个无人系统的优势动作价值为每个无人系统的全局优势动作价值。

20、可选地,利用每个无人系统的所述全局状态价值和所述全局优势动作价值,计算联合动作价值,具体包括:

21、利用每个无人系统的所述全局状态价值和所述全局优势动作价值,计算所有无人系统的联合状态价值和联合优势动作价值;

22、基于所有无人系统的联合状态价值和联合优势动作价值,计算联合动作价值。

23、可选地,利用所述联合动作价值和每个无人系统的所述动作价值分布,计算所有无人系统的联合动作价值分布,具体包括:

24、利用所述联合动作价值和每个无人系统的所述动作价值分布,基于期望值-高阶矩分解定理,计算所有无人系统的联合动作价值分布。

25、可选地,基于每个无人系统的所述动作价值以及修正后的所有无人系统的联合动作价值分布,对无人系统策略网络进行训练和优化,得到优化后的无人系统策略网络,具体包括:

26、基于每个无人系统的所述动作价值进行动作选择,利用选择的动作控制多无人系统动作以实现多无人系统与环境进行多轮迭代交互,多无人系统通过与环境多次交互收集数据进行无人系统策略网络训练,同时基于修正后的所有无人系统的联合动作价值分布,计算无人系统策略网络的损失,利用无人系统策略网络的损失对无人系统策略网络进行优化,得到优化后的无人系统策略网络。

27、另一方面,本发明提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现所述协作多无人系统贡献评估与决策方法。

28、另一方面,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述协作多无人系统贡献评估与决策方法。

29、再一方面,本发明提供一种计算机设备,包括:存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序以实现所述协作多无人系统贡献评估与决策方法。

30、根据本发明提供的具体实施例,本发明公开了以下技术效果:

31、本发明公开的协作多无人系统贡献评估与决策方法、产品、介质及设备,围绕复杂的、非单调的多无人系统协作任务场景,通过合理分配与高效传播团队奖励的方法,以修正与优化多无人系统协作策略贡献度评估过程,提升团队协作任务完成效率,基于奖励优势残差,更准确的评估无人系统在团队中的贡献度,进而做出合理有效的决策,从而能够在面对复杂的、非单调的任务时,准确评估不同无人系统在团队奖励中的贡献占比,激励无人系统朝着最优协作策略前进,完成团队贡献度的合理分配。

本文地址:https://www.jishuxx.com/zhuanli/20240830/285503.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。