技术新讯 > 控制调节装置的制造及其应用技术 > 基于MPC-NDQN的无人机着艇方法、设备、介质  >  正文

基于MPC-NDQN的无人机着艇方法、设备、介质

  • 国知局
  • 2024-07-31 23:36:49

本发明涉及一种无人机控制,尤其是涉及一种基于mpc-ndqn的无人机着艇方法、设备、介质。

背景技术:

1、随着无人技术的快速发展,无人机和无人艇在水面巡逻与资源开发等方面应用广泛。无人艇作为一个良好的探测平台,是海上无人系统领域的研究热点。无人机也在海面安全监测方面发挥巨大的作用,但由于无人机体积较小,在海上复杂环境作业时其续航能力将受到极大的限制。因此,单一的海上无人器难以实现更高效的测绘和海洋研究工作。

2、针对此问题,研究无人艇与无人机协同控制技术。利用无人艇续航时间长等优势,其可为无人机实时提供充电与数据传输等功能。但无人机能否精准降落是实现机艇协同控制的关键,针对到无人系统的强耦合性以及高度非线性,需要一种无人机着艇方法,以保证无人机海上作业的安全性和高效性。

技术实现思路

1、本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于mpc-ndqn的无人机着艇方法、设备、介质,以改善无人机着艇的安全性和高效性。

2、本发明的目的可以通过以下技术方案来实现:

3、本发明的一个方面,提供了一种基于mpc-ndqn的无人机着艇方法,包括如下步骤:

4、通过构建无人机动力学模型,得到基于输入控制量和状态变量的离散化的线性状态空间方程,通过mpc(model predictive control)得到未来一段时间内的着艇轨迹;

5、基于所述着艇轨迹,利用ndqn(noisy deep q network)更新噪声网络的网络参数;

6、基于更新后的噪声网络得到最优动作,实现无人机飞行姿态的控制,

7、其中,所述ndqn中,以无人机的位姿和降落点的坐标作为状态空间,以无人机的飞行姿态作为动作空间,以着艇轨迹跟踪率作为奖励函数,且采用计及新老信息置信度和远见程度的价值函数。

8、作为优选的技术方案,所述离散化的线性状态空间方程为:

9、x(k+1)=ax(k)+bu(k)

10、x(t)=[x,vx,y,vy,z,vz,φ,θ,ψ,p,q,r]t

11、u(t)=[τx,τy,τz,t]t

12、其中,x(k)、u(k)分别为输入控制量u(t)、x(t)状态变量离散后的表达,为系统矩阵,为控制矩阵,vx、vy和vz分别表示无人机在三维坐标轴上的速度,x、y和z表示无人机的位置,ψ、θ和φ分别表示无人机的偏航角、俯仰角和滚转角,p、q和r分别表示无人机x、y和z轴上的角速度,t表示螺旋桨的总升力。

13、作为优选的技术方案,基于线性状态空间方程,通过mpc得到未来一段时间内的着艇轨迹的过程包括:

14、基于所述基于线性状态空间方程,构建计及无人机状态和无人机能耗的代价函数;

15、将所述代价函数转化为二次型函数,通过二次规划法求解得到未来一段时间内的着艇轨迹。

16、作为优选的技术方案,所述代价函数j为:

17、

18、其中,n表示未来一段时间内的时间步的个数,e(k+i|k)表示k+i时刻的状态变量与最终状态变量的差,其满足e(k+i|k)=x(k+i|k)-x(k+n),x(k+i|k)表示在k时刻对k+i时刻的无人机状态变量的预测值,u(k+i|k)表示在k时刻对k+i时刻无人机输入控制量的预测值,x(k+n)表示无人机最终着艇时的状态变量,其中q,r和f都是非负定的权重系数矩阵,分别表示对过程状态、输入控制和最终状态的误差代价。

19、作为优选的技术方案,在所述ndqn的训练过程中,针对任一个噪声网络中的网络参数,基于随机噪声、可学习的均值和标准差实现网络参数的更新。

20、作为优选的技术方案,所述ndqn的训练过程中,所述价值函数的更新采用下式实现:

21、

22、其中,←表示赋值,q(s,a)表示在状态s时执行动作a的价值函数,α∈[0,1]用于权衡新老信息的置信度,折扣因子γ∈[0,1]用于权衡远见程度,rt+1表示在t+1时刻的奖励函数的值,表示t+1时刻st+1状态下所有动作a中最大的价值函数值。

23、作为优选的技术方案,所述ndqn的训练过程中,进行反向传播实现噪声网络中参数的更新:

24、

25、其中,q(s,a)表示在状态s时执行动作a的价值函数,折扣因子γ∈[0,1]用于权衡远见程度,rt+1表示在t+1时刻的奖励函数的值,表示t+1时刻st+1状态下所有动作a中最大的价值函数值。

26、作为优选的技术方案,所述无人机为四旋翼无人机。

27、本发明的另一个方面,提供了一种电子设备,包括:一个或多个处理器以及存储器,所述存储器内储存有一个或多个程序,所述一个或多个程序包括用于执行前述基于mpc-ndqn的无人机着艇方法的指令。

28、本发明的另一个方面,提供了一种计算机可读存储介质,包括供电子设备的一个或多个处理器执行的一个或多个程序,所述一个或多个程序包括用于执行前述基于mpc-ndqn的无人机着艇方法的指令。

29、与现有技术相比,本发明至少具有以下有益效果之一:

30、(1)稳健性强:本发明在着艇轨迹预测过程中,通过构建无人机动力学模型,得到基于输入控制量和状态变量的离散化的线性状态空间方程,通过mpc得到未来一段时间内的着艇轨迹,具有较强的鲁棒性,可以有效地对非线性时变的不确定系统进行预测。

31、(2)灵活性强:本发明在mpc优化问题的求解中,权重矩阵的设定是灵活多变的,在面对不同控制指标中,基于需求调整对跟踪误差精度和输入变化控制率的比重,可以适应不同环境,不同目标下的着艇轨迹预测。

32、(3)安全性和高效性强:本发明在跟踪着艇轨迹的过程中,采用基于噪声的深度强化学习网络ndqn,并在训练过程中采用计及新老信息置信度和远见程度的价值函数,降低参数变化引起的不确定性,提高无人机在复杂环境下跟随轨迹着艇的精度,保障无人机在海上作业的安全性与高效性。

33、(4)优化能力强:本发明在不同环境的着艇训练过程中,基于价值函数q构造损失函数,通过反向传播的方法更新神经网络的参数,提高价值函数的预测准确性,并使损失函数值达到最小。在反复的训练后,神经网络参数不断更新迭代,无人机着艇的不确定性逐渐趋于零。

技术特征:

1.一种基于mpc-ndqn的无人机着艇方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于mpc-ndqn的无人机着艇方法,其特征在于,所述离散化的线性状态空间方程为:

3.根据权利要求1所述的一种基于mpc-ndqn的无人机着艇方法,其特征在于,基于线性状态空间方程,通过mpc得到未来一段时间内的着艇轨迹的过程包括:

4.根据权利要求3所述的一种基于mpc-ndqn的无人机着艇方法,其特征在于,所述代价函数j为:

5.根据权利要求1所述的一种基于mpc-ndqn的无人机着艇方法,其特征在于,在所述ndqn的训练过程中,针对噪声网络中的任一个网络参数,基于随机噪声、可学习的均值和标准差实现网络参数的更新。

6.根据权利要求1所述的一种基于mpc-ndqn的无人机着艇方法,其特征在于,所述ndqn的训练过程中,所述价值函数的更新采用下式实现:

7.根据权利要求1所述的一种基于mpc-ndqn的无人机着艇方法,其特征在于,所述ndqn的训练过程中,基于损失函数l进行反向传播实现噪声网络中参数的更新:

8.根据权利要求1所述的一种基于mpc-ndqn的无人机着艇方法,其特征在于,所述无人机为四旋翼无人机。

9.一种电子设备,其特征在于,包括:一个或多个处理器以及存储器,所述存储器内储存有一个或多个程序,所述一个或多个程序包括用于执行如权利要求1-8任一所述基于mpc-ndqn的无人机着艇方法的指令。

10.一种计算机可读存储介质,其特征在于,包括供电子设备的一个或多个处理器执行的一个或多个程序,所述一个或多个程序包括用于执行如权利要求1-8任一所述基于mpc-ndqn的无人机着艇方法的指令。

技术总结本发明涉及一种基于MPC‑NDQN的无人机着艇方法、设备、介质,方法包括如下步骤:通过构建无人机动力学模型,得到基于输入控制量和状态变量的离散化的线性状态空间方程,通过MPC得到未来一段时间内的着艇轨迹;基于着艇轨迹,利用NDQN更新噪声网络的网络参数;基于更新后的噪声网络得到最优动作,实现无人机飞行姿态的控制,NDQN中,以无人机的位姿和降落点的坐标作为状态空间,以无人机的飞行姿态作为动作空间,以着艇轨迹跟踪率作为奖励函数,且采用计及新老信息置信度和远见程度的价值函数。NDQN网络中带有标准正态分布的噪声,能在训练时产生一定的随机性,因此无人机即使在不确定的环境下也能精准跟踪最优着艇轨迹。技术研发人员:贾泽华,张晨,谢威,张卫东,林源,王华欢,刘若楠,苏晓杰,张宝晨,刘腾飞,郭东生,薛珊,王文浩,赵博受保护的技术使用者:海南大学技术研发日:技术公布日:2024/6/18

本文地址:https://www.jishuxx.com/zhuanli/20240730/197983.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。