一种无人机编队协调控制方法
- 国知局
- 2024-07-31 23:55:11
本发明涉及无人机,具体涉及一种无人机编队协调控制方法。
背景技术:
1、近几十年来,国内外对于多无人机编队协调控制方式进行了大量的研究。现有文献中主流的传统编队控制结构是领航者跟随法、虚拟结构法、基于行为法、基于图论法、与一致性理论。但是这种传统的无人机编队控制方法离不开人工的干预,在越来越复杂的战场中,人工决策难以跟上环境的动态变化,容易产生误判。因此,在日趋复杂的战场环境下,探索出一种基于人工智能的无人机自主决策算法,使得无人机系统拥有在高空飞行时自主执行任务和完成预定作战目标的能力,是急需解决的关键性问题之一。
2、深度强化学习,凭借着深度神经网络优异的特征表示能力、自主学习能力和不需要模型的特点,适用于未知环境下的决策问题。目前已有研究人员将强化学习融入编队协调控制问题,研究人员设计了一种学习率动态变化的q 学习算法实现在随机环境中固定翼无人机的聚集集,还有通过 3 架无人机为例,使用深度确定性策略算法作为导航实现聚集,以及采用 q 学习算法,使得僚机在平稳随机环境中学习聚集到长机特定距离内。
3、目前基于强化学习的无人机协调编队控制还有很多问题没有解决,如强化学习训练时间过长,无法使得奖励曲线快速收敛,有些甚至难以取得优秀的策略。现阶段基于深度强化学习的无人机系统应用实验均采用软件仿真的形式验证算法的有效性,很少考虑如何将其部署到实际无人机系统上。
技术实现思路
1、发明目的:本发明的目的是提供一种无人机编队协调控制方法,解决了无人机编队难以应对复杂任务环境下出现动态障碍物,地形改变等突发情况 。
2、技术方案:本发明所述的一种无人机编队协调控制方法,包括以下步骤:
3、(1)根据运动学和动力学原理建立单一无人机的飞行模型;
4、(2)构建虚拟领航法无人机集群编队相对运动模型;
5、(3)根据无人机的动力学模型和编队运动模型设计滑模控制器对无人机进行控制;
6、(4)设计马尔科夫决策过程,设计滑模控制器的状态空间,动作空间和奖励函数;
7、(5)构建多智能体的表演家-评论家网络结构;
8、(6)运用多智能体强化学习算法对所述多智能体的表演家-评论家网络结构进行集中式训练和分布式执行策略;
9、(7)当完成训练的目标后,保存训练好的深度强化学习智能体,并使用智能体对无人机对应飞控进行控制来完成编队。
10、进一步的,步骤(1)具体如下:利用三自由度模型描述空间中的无人机运动学模型:
11、;
12、其中,下标表示编队中第架无人机,为设定无人机的编队数量;表示无人机的速度,表示无人机的航迹角,表示无人机的偏航角;
13、;
14、其中,分别是切向过载和法向过载,g是重力加速度;表示无人机的加速度,表示无人机的航迹角的角加速度,表示无人机的偏航角的角加速度。
15、进一步的,步骤(2)具体如下:
16、首先设第i架无人机的位置为:,记为,第i架无人机的速度为:记为,状态转移矩阵为,
17、定义推力向量和空气动力学矢量构成无人机的控制变量为,重力矢量为,控制变量构成如下;
18、无人机的状态方程如下:
19、;引入虚拟领航者,其位置、速度分别为、;设为第i架无人机和第j架无人机之间的相对距离,为虚拟长机与第i架无人机之间的距离;编队的模型构建公式如下:
20、。
21、进一步的,步骤(3)具体如下:
22、首先,定义第i架无人机的编队控制误差为:
23、;
24、;
25、其中,表示无人机间的通信情况,当第i架无人机能收到来自第j架无人机的通信时其值为1,当第i架无人机无法接受来自第j架无人机间的通信信息时其值为0;为第i架无人机与领航者飞机间的通信;为第i架无人机的位置误差,无人机的速度误差;
26、然后,设计滑模面为:,其中,是对角矩阵,为非线性项;为的集合,为的集合,其中最后,设计滑模控制率,其中,、、、为正的增益矩阵,用于调节控制率中不同项的权重。为滑模面的符号函数,用于切换控制信号。是非线性项对速度误差的偏导数,用于补偿非线性项对系统动态的影响。
27、进一步的,步骤(4)具体如下:将、个参数设计为动作空间作为智能体的输出,将误差、设计为状态空间作为智能体的输入;深度强化学习智能体的奖励函数为:
28、;
29、其中,为速度误差和位置误差的数值大小惩罚占总奖励的比重,为控制率的数值大小惩罚占总奖励的比重,为控制率过大时的惩罚占总奖励的比重,为误差达标时获得的奖励占总奖励的比重;为速度误差 和位置误差 的平方的负数作为惩罚,为控制率平方的负数作为惩罚,表示最大控制率,当控制率大于最大控制率时,给予一个负的奖励,p为一个固定的正数;表示奖励j,j为一个固定的正数,当和分别满足速度误差允许范围和位置误差允许范围时,给予正奖励;其中,和都为正数,具体数值视任务而定;r表示表示各项奖励之和即智能体获得的总奖励。
30、进一步的,步骤(5)具体如下:包括集中式评论家网络和分布式的演员网络;其中,集中式评论家网络由嵌入层,变换器编码层和多层感知器mlp组成;分布式的演员网络由态势感知层、决策层和动作编码层组成;在评论家网络的编码层中加入transformer结构自注意力机制接收输入数据并解码输出成目标序列;在演员网络的决策层加入lstm用于处理序列数据,并且其输出连接到后续的全连接层以生成动作。
31、进一步的,步骤(6)具体如下:首选选用多智能体强化学习算法maddpg,然后,使用当前的演员网络产生的动作和从目标网络得到的下一状态的动作估算目标q值,其次,计算损失函数,通过梯度下降更新评价者网络,使用评价者网络的梯度信息更新演员网络。
32、进一步的,步骤(7)具体如下:在训练达到预定效果后,导出深度强化学习智能体,将智能体与无人机飞行中枢连接,用智能体来对飞行中枢进行控制;在每个时间步,智能体从无人机系统中获取状态信息,智能体根据状态生成动作,并将动作返回给无人机系统执行。
33、有益效果:与现有技术相比,本发明具有如下显著优点:对于复杂任务和多变环境具有更好的鲁棒性;并且引入滑模控制器作为内环控制,对比直接对无人机的速度角度进行控制,可以实现快速的系统响应。训练完成的智能体可以作为智能节点与无人机飞行中枢连接实现对无人机的控制,形成一个完整的系统。
技术特征:1.一种无人机编队协调控制方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种无人机编队协调控制方法,其特征在于,步骤(1)具体如下:利用三自由度模型描述空间中的无人机运动学模型:
3.根据权利要求1所述的一种无人机编队协调控制方法,其特征在于,步骤(2)具体如下:
4.根据权利要求1所述的一种无人机编队协调控制方法,其特征在于,步骤(3)具体如下:
5.根据权利要求1所述的一种无人机编队协调控制方法,其特征在于,步骤(4)具体如下:将、个参数设计为动作空间作为智能体的输出,将误差、设计为状态空间作为智能体的输入;深度强化学习智能体的奖励函数为:
6.根据权利要求1所述的一种无人机编队协调控制方法,其特征在于,步骤(5)具体如下:包括集中式评论家网络和分布式的演员网络;其中,集中式评论家网络由嵌入层,变换器编码层和多层感知器mlp组成;分布式的演员网络由态势感知层、决策层和动作编码层组成;在评论家网络的编码层中加入transformer结构自注意力机制接收输入数据并解码输出成目标序列;在演员网络的决策层加入lstm用于处理序列数据,并且其输出连接到后续的全连接层以生成动作。
7.根据权利要求1所述的一种无人机编队协调控制方法,其特征在于,步骤(6)具体如下:首选选用多智能体强化学习算法maddpg,然后,使用当前的演员网络产生的动作和从目标网络得到的下一状态的动作估算目标q值,其次,计算损失函数,通过梯度下降更新评价者网络,使用评价者网络的梯度信息更新演员网络。
8.根据权利要求1所述的一种无人机编队协调控制方法,其特征在于,步骤(7)具体如下:在训练达到预定效果后,导出深度强化学习智能体,将智能体与无人机飞行中枢连接,用智能体来对飞行中枢进行控制;在每个时间步,智能体从无人机系统中获取状态信息,智能体根据状态生成动作,并将动作返回给无人机系统执行。
技术总结本发明公开了一种无人机编队协调控制方法,包括以下步骤:(1)根据运动学和动力学原理建立单一无人机的飞行模型;(2)构建虚拟领航法无人机集群编队相对运动模型;(3)根据无人机的动力学模型和编队运动模型设计滑模控制器对无人机进行控制;(4)设计马尔科夫决策过程,设计滑模控制器的状态空间,动作空间和奖励函数;(5)构建多智能体的表演家‑评论家网络结构;(6)运用多智能体强化学习算法对所述多智能体的表演家‑评论家网络结构进行集中式训练和分布式执行策略;(7)保存训练好的深度强化学习智能体,对无人机对应飞控进行控制来完成编队;本发明对于复杂任务和多变环境具有更好的鲁棒性。技术研发人员:刘云平,高佳宁,王富尧,陈奕伕,谢双双,邬心怡,龚毅光,张永宏,方卫华,宋兴伟受保护的技术使用者:南京信息工程大学技术研发日:技术公布日:2024/6/26本文地址:https://www.jishuxx.com/zhuanli/20240730/199167.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表