技术新讯 > 控制调节装置的制造及其应用技术 > 一种规定时间的自适应动态规划控制方法  >  正文

一种规定时间的自适应动态规划控制方法

  • 国知局
  • 2024-07-31 23:43:17

本发明涉及规定时间最优控制领域,特别涉及一种规定时间自适应动态规划控制方法。

背景技术:

1、规定时间控制是导弹制导、多智能体合作和智能家居管理等领域中的重要课题。总体而言,规定时间控制相对于经典的规定/固定时间控制方案更注重实现精确、高效的控制,其优势在于适应性强、鲁棒性好,并能更好地处理非线性系统和不确定性。在实际工程中,高效稳定的控制性能受到三个因素的限制:系统的初始条件或外部干扰;依赖于特定的模型假设;较为精确的系统模型;

2、为了解决规定时间控制问题,目前研究主要包括三个方面:1)时变函数的选择。目前的方法包括采用数据驱动的方法,通过机器学习算法从历史数据中学习时变函数的模式。2)收敛技术。许多方案使用数值优化方法、引入自适应学习率策略等技术,以提高收敛速度和稳定性。3)鲁棒性增强和观测器设计。研究人员倾向于结合滑模观测器和深度学习技术,以提高系统状态的准确性和鲁棒性。在实际工程中,为了保证非线性时变延迟系统的稳态性能,需要求解复杂的偏微分方程,为了解决这一问题许多学者对自适应动态规划(adp)技术进行了研究。

3、目前针对规定时间控制已经提出了许多方案,但仍然面临以下问题:(i)如何精确指定稳定时间,并确保稳定时间不受系统初始状态的影响。(ii)权重更新法则需要了解动态条件,同时确保符合终点约束条件。(iii)如何使系统同时达到最优性和规定时间稳定性。

技术实现思路

1、本发明的目的在于克服现有技术存在的缺陷,解决规定时间范围内求解非线性哈密顿-雅可比-贝尔曼(hjb)方程问题。

2、为实现以上目的,本发明提出一种规定时间自适应动态规划(adp)控制方法,包括如下步骤:

3、s1、构建非线性时变延迟系统模型,具体形式为:

4、

5、其中,分别为状态向量、控制向量和不确定参数向量;t0表示初始时间;函数f(t,x(t),xτ(t),θ)对状态向量x局部lipschitz,对时间t分段连续,对于任意t≥0,有f(t,0,xτ(t),θ)=0;xτ(t)=x(t-τ(t))表示时变延迟项,τ(t)表示未知时变延迟,其导数满足v(s)表示连续函数。

6、模型需满足假设1:

7、||f(t,x(t),xτ(t),θ)||≤φ(θ)(γ(x(t))||x(t)||+η(x(t))λ(xτ(t))||xτ(t)||,

8、其中,||·||表示向量的范数或矩阵的二范数,γ(x(t))、η(x(t))和λ(xτ(t))是连续的半正定函数,φ(θ)表示与θ相关的函数。

9、s2、构建规定时间成本函数;建立区间[t0,t0+tp)上的成本函数具体过程为:设计规定时间成本函数为:

10、

11、其中,函数ψ(·)是终端约束条件,tp是预设时间参数,阶段成本为:

12、

13、其中,是正定对称矩阵。

14、s3、构建hjb方程,计算最优解表达式,具体过程为:建立哈密顿方程为:

15、

16、其中,u=u(t),g=g(x),f=f(t,x(t),xτ(t),θ),x=x(t),

17、定义最优规定时间的成本函数为求解hjb方程可以得到最优解表达式为即:

18、

19、其中,为了获得最佳控制,必须求解h(x,u*)。然而,h(x,u*)为非线性方程,获得解析解具有挑战性。鉴于hjb方程是一个非线性偏微分方程,要找到它的解就更加困难了。本发明通过设计适当的神经网络结构来近似未知项。

20、s4、构建评判神经网络与哈密顿方程,具体过程为:设计评判神经网络为来近似估计规定时间成本函数;

21、其中,是评判神经网络权重向量,是激活函数,ε(x,t)是神经网络近似误差。终端约束为:

22、

23、为了准确估计并近似vx和vt,设计评判神经网络为:

24、

25、

26、其中,

27、将vx代入中,可得:

28、

29、其中,wa代表执行神经网络的权重向量,代表最优策略下的执行神经网络的权重向量,为了求解最优控制策略,将神经网络近似的vx和vt代入hjb方程h(x,u*)中,可得:

30、

31、其中,为hjb方程的残差。

32、s5、设计近似权重向量逼近时变成本函数,并计算hjb方程近似表达形式,具体过程为:由于规定时间成本函数会随时间波动,设计近似权重向量来估计理想权重,并构建近似评判神经网络近似终端约束条件为其中代表状态的估计值。vx和vt的近似表达形式为:

33、

34、

35、设计评判神经网络权重估计误差为其中,为最优策略下的评判神经网络权重向量,为评判神经网络的近似权重向量。由于未知,u*可以近似为结合权重估计误差可以将hjb方程转化为通过转化为的形式实现对最优策略的求解。

36、s6、求解近似hjb方程极值,最小化hjb方程残差和终端误差,具体过程为:为了求解方程设计p(t)=0等价于则hjb方程极值求解转化为求解p(t)=0。

37、构建终端约束估计误差为:

38、

39、其中,为了最小化终端约束误差,定义平方约束误差为

40、s7、更新执行神经网络和评判神经网络权重,具体形式为:执行神经网络权重更新法则为其中γ1代表执行神经网络学习率。

41、评判神经网络权重更新法则为:

42、

43、其中,γ2和γ3为正参数,代表评判神经网络学习率。

44、s8、结束,获得最优控制律为:

45、

46、其中,连续函数μ(t)为规定时间调整(tp-pta)函数。即满足以下条件:

47、

48、

49、进一步地,证明了使用该控制方法的非线性时变系统在指定时间内的稳定。

50、与现有技术相比,本发明的优点及有益效果在于:针对规定/固定时间控制方法只能在规定的时间范围内达到稳定的问题,提出了规定时间自适应动态规划控制方法,以同时保证最优性和规定时间的稳定性;构造了一种具有时变激活函数的执行评判神经网络,根据系统的终端误差和hjb方程的近似误差,推导出新的权值更新规律;根据所提出的规定时间稳定性准则,证明了该控制方案满足规定的时间稳定性。

技术特征:

1.一种规定时间的自适应动态规划控制方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种规定时间的自适应动态规划控制方法,其特征在于:在步骤s1中,具体形式为:

3.根据权利要求2所述的一种规定时间的自适应动态规划控制方法,其特征在于:模型需满足:

4.根据权利要求1所述的一种规定时间的自适应动态规划控制方法,其特征在于:在步骤s2中,建立区间[t0,t0+tp)上的成本函数具体过程为:设计规定时间成本函数为:

5.根据权利要求1所述的一种规定时间的自适应动态规划控制方法,其特征在于:在步骤s3中,具体过程为:建立哈密顿方程为:

6.根据权利要求1所述的一种规定时间的自适应动态规划控制方法,其特征在于:在步骤s4中,具体过程为:设计评判神经网络为来近似估计规定时间成本函数;

7.根据权利要求1或6所述的一种规定时间的自适应动态规划控制方法,其特征在于:在步骤s5中,具体过程为:由于规定时间成本函数会随时间波动,设计近似权重向量来估计理想权重,并构建近似评判神经网络近似终端约束条件为:其中代表状态的估计值;vx和vt的近似表达形式为:

8.根据权利要求1所述的一种规定时间的自适应动态规划控制方法,其特征在于:在步骤s6中,具体过程为:为了求解方程设计p(t)=0等价于则hjb方程极值求解转化为求解p(t)=0;

9.根据权利要求8所述的一种规定时间的自适应动态规划控制方法,其特征在于:在步骤s7中,具体形式为:执行神经网络权重更新法则为:其中γ1代表执行神经网络学习率;

10.根据权利要求1所述的一种规定时间的自适应动态规划控制方法,其特征在于:在步骤s8中,最优控制律为:

技术总结本发明公开了一种规定时间的自适应动态规划控制方法,属于非线性时变时滞系统控制领域,包括步骤:S1、构建非线性时变延迟系统模型;S2、构建规定时间成本函数;S3、构建HJB方程,计算最优解表达式;S4、构建评判神经网络与哈密顿方程;S5、设计近似权重向量逼近时变成本函数,并计算HJB方程近似表达形式;S6、求解近似HJB方程极值,最小化HJB方程残差和终端误差;S7、更新执行神经网络和评判神经网络权重;S8、结束,获得最优控制律。技术研发人员:张坤,罗世杰,张冉,张蕊受保护的技术使用者:北京航空航天大学技术研发日:技术公布日:2024/6/18

本文地址:https://www.jishuxx.com/zhuanli/20240730/198261.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。