技术新讯 > 控制调节装置的制造及其应用技术 > 基于数据和知识双驱动的可解释博弈对抗方法与流程  >  正文

基于数据和知识双驱动的可解释博弈对抗方法与流程

  • 国知局
  • 2024-08-01 00:09:18

本发明涉及多智能体博弈对抗,尤其涉及一种基于数据和知识双驱动的可解释博弈对抗方法。

背景技术:

1、随着计算机、无人平台、人工智能等技术的飞速发展,无人化智能化成为新趋势,多智能体博弈对抗方法被广泛研究。在现实世界里捕食者必须捕猎或觅食更大或更快的猎物是一种广泛存在的现象,例如狮子围捕羚羊,羚羊的平均奔跑速度为88km/h、而狮子的平均速度为80km/h。因此研究如何控制多个速度较慢的无人车(低速追捕无人车)围捕一个快速逃逸的目标(快速逃逸无人车)具有重要意义,可应用于囚犯拦截、编队控制、无人机干扰对抗、无人艇协同搜救等应用场景。目前的博弈对抗方法一般基于深度强化学习方法,利用深度神经网络存储控制参数、强化学习与环境交互优化控制参数,通过不断地试错学习获得最优围捕策略。深度神经网络具有不可解释、控制参数庞杂等问题,而传统强化学习方法具有状态动作空间难以遍历、训练速度慢等问题。

技术实现思路

1、本发明提供了一种基于数据和知识双驱动的可解释博弈对抗方法,能够解决传统强化学习方法具有状态动作空间难以遍历、训练速度慢、控制逻辑阶跃不平滑等技术问题。

2、本发明提供了一种基于数据和知识双驱动的可解释博弈对抗方法,该基于数据和知识双驱动的可解释博弈对抗方法包括:基于经典控制理论绘制阿波罗尼斯圆,利用阿波罗尼斯圆明确单个低速追捕无人车是否能够对快速逃逸无人车实现捕获的条件,得到低速追捕无人车控制策略;根据低速追捕无人车控制策略,结合takagi-sugeno模糊模型构建低速追捕无人车基于知识驱动的快速控制逻辑,对基于知识驱动的快速控制逻辑进行平滑处理;将基于知识驱动的快速控制逻辑作为输入添加到基于takagi-sugeno模糊推理的actor-critic控制模型,利用低速追捕无人车在训练过程中与环境的交互获得的训练数据优化actor-critic控制模型,实现两辆低速追捕无人车对快速逃逸无车的协同围捕。

3、进一步地,低速追捕无人车控制策略具体包括:当低速追捕无人车能够捕获快速逃逸无车时按捕获逻辑控制低速追捕无人车;当低速追捕无人车不具备捕获条件时,控制低速追捕无人车尽量靠近快速逃逸无车。

4、进一步地,低速追捕无人车控制策略的公式为其中,θpi代表低速追捕无人车pi的前进方向,β为低速追捕无人车pi和快速逃逸无人车e0连线与水平线的夹角,为低速追捕无人车pi待计算的相对于低速追捕无人车pi和快速逃逸无人车e0连线前进方向,ζ为常数,α为快速逃逸无人车e的前进方向相对于低速追捕无人车pi和快速逃逸无人车e0连线的角度,αmax为低速追捕无人车能够捕获快速逃逸无人车的边界条件,|e0pi|为快速逃逸无人车e0和低速追捕无人车pi之间的距离,ve为快速逃逸无人车的速度,δt为追逃过程中计算下一时刻运动轨迹的时间增量。

5、进一步地,低速追捕无人车能够捕获快速逃逸无人车的边界条件αmax为其中,vp为低速追捕无人车的速度,ve为快速逃逸无人车的速度。

6、进一步地,阿波罗尼斯圆的圆心oi和半径r可根据

7、计算获取,其中,()为低速追捕无人车pi的位置,(xe,ye)为快速逃逸无人车e0的位置,ζ为常数。

8、进一步地,常数ζ可根据计算获取,其中,pi为低速追捕无人车pi的初始位置,e0为快速逃逸无人车e0的初始位置,u为阿波罗尼斯圆上的任一点。

9、进一步地,基于takagi-sugeno模糊推理的actor-critic控制模型为μpi=μac-pi+μk-pi,其中,μk-pi为基于知识驱动的快速控制逻辑,μac-pi为基于强化学习方法学习得到的低速追捕无人车pi的运动控制输出。

10、应用本发明的技术方案,提供了一种基于数据和知识双驱动的可解释博弈对抗方法,为了提高协同围捕方法的可解释、提升策略训练速度,将经典控制理论中的阿波罗尼斯圆控制策略、模糊控制理论以及actor-critic强化学习方法相结合,首先基于经典控制理论和takagi-sugeno模糊模型获得低速追捕无人车运动控制次优知识、使低速追捕无人车具有初始合理的运动控制逻辑,然后将takagi-sugeno模糊模型和actor-critic强化学习方法结合、使低速追捕无人车能够利用与环境交互获得的反馈不断更新运动控制策略,进而利用其它低速追捕无人车对快速逃逸无人车的捕获迟滞实现对快速逃逸无人车的围捕。本发明所提供的基于数据和知识双驱动的可解释博弈对抗方法与现有技术相比,具有可解释性强、控制参数少、训练速度快等特点,能够在设置较少控制参数的情况下,快速完成围捕策略学习,而且能够在低速追捕无人车存在30%速度误差的情况下实现对快速逃逸无人车的围捕。

技术特征:

1.一种基于数据和知识双驱动的可解释博弈对抗方法,其特征在于,所述基于数据和知识双驱动的可解释博弈对抗方法包括:

2.根据权利要求1所述的基于数据和知识双驱动的可解释博弈对抗方法,其特征在于,所述低速追捕无人车控制策略具体包括:当低速追捕无人车能够捕获快速逃逸无车时按捕获逻辑控制低速追捕无人车;当低速追捕无人车不具备捕获条件时,控制低速追捕无人车尽量靠近快速逃逸无车。

3.根据权利要求2所述的基于数据和知识双驱动的可解释博弈对抗方法,其特征在于,所述低速追捕无人车控制策略的公式为其中,θpi代表低速追捕无人车pi的前进方向,β为低速追捕无人车pi和快速逃逸无人车e0连线与水平线的夹角,为低速追捕无人车pi待计算的相对于低速追捕无人车pi和快速逃逸无人车e0连线前进方向,ζ为常数,α为快速逃逸无人车e的前进方向相对于低速追捕无人车pi和快速逃逸无人车e0连线的角度,αmax为低速追捕无人车能够捕获快速逃逸无人车的边界条件,|e0pi|为快速逃逸无人车e0和低速追捕无人车pi之间的距离,ve为快速逃逸无人车的速度,δt为追逃过程中计算下一时刻运动轨迹的时间增量。

4.根据权利要求3所述的基于数据和知识双驱动的可解释博弈对抗方法,其特征在于,低速追捕无人车能够捕获快速逃逸无人车的边界条件αmax为其中,vp为低速追捕无人车的速度,ve为快速逃逸无人车的速度。

5.根据权利要求1至4中任一项所述的基于数据和知识双驱动的可解释博弈对抗方法,其特征在于,阿波罗尼斯圆的圆心oi和半径r可根据计算获取,其中,为低速追捕无人车pi的位置,(xe,ye)为快速逃逸无人车e0的位置,ζ为常数。

6.根据权利要求1至5中任一项所述的基于数据和知识双驱动的可解释博弈对抗方法,其特征在于,所述常数ζ可根据计算获取,其中,pi为低速追捕无人车pi的初始位置,e0为快速逃逸无人车e0的初始位置,u为阿波罗尼斯圆上的任一点。

7.根据权利要求6所述的基于数据和知识双驱动的可解释博弈对抗方法,其特征在于,所述基于takagi-sugeno模糊推理的actor-critic控制模型为μpi=μac-pi+μk-pi,其中,μk-pi为基于知识驱动的快速控制逻辑,μac-pi为基于强化学习方法学习得到的低速追捕无人车pi的运动控制输出。

技术总结本发明提供了一种基于数据和知识双驱动的可解释博弈对抗方法,包括:基于经典控制理论绘制阿波罗尼斯圆,明确存在速度误差情况下单个低速追捕无人车是否能够对快速逃逸无人车实现捕获的待优化条件,得到低速追捕无人车次优控制策略;根据次优控制策略,结合Takagi‑Sugeno模糊模型构建基于知识驱动的快速平滑控制逻辑;将基于知识驱动的快速控制逻辑作为输入添加到基于Takagi‑Sugeno模糊推理的Actor‑Critic控制模型,利用低速追捕无人车在训练过程中与环境的交互获得的数据优化Actor‑Critic控制模型,实现两辆低速追捕无人车对快速逃逸无车的协同围捕。应用本发明的技术方案,以解决传统强化学习方法具有状态动作空间难以遍历、训练速度慢、控制逻辑阶跃不平滑等技术问题。技术研发人员:李嘉科,王逍,马喆,孙科武,赵荣利,汪勋受保护的技术使用者:航天科工集团智能科技研究院有限公司技术研发日:技术公布日:2024/7/9

本文地址:https://www.jishuxx.com/zhuanli/20240730/199851.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。