技术新讯 > 控制调节装置的制造及其应用技术 > 一种基于经验导向Q学习的锅炉汽轮机系统负荷控制方法  >  正文

一种基于经验导向Q学习的锅炉汽轮机系统负荷控制方法

  • 国知局
  • 2024-07-31 23:46:32

本发明涉及锅炉汽轮机系统数据驱动控制领域,主要涉及一种基于经验导向q学习的锅炉汽轮机系统负荷控制方法。

背景技术:

1、随着“双碳”政策的推进,火力发电与可再生能源的相互耦合成为能源低碳化的关键策略。然而,这一趋势也为火电厂带来了新的挑战,即平抑电网波动。在这一背景下,优化火电厂锅炉汽轮机系统负荷控制对于确保电网的安全稳定运行至关重要。

2、尽管传统的控制方案,如比例积分微分(pid)控制器,因部署简单在工业过程控制领域得到广泛使用,但它们在负荷快速变化时适应能力不足,难以满足设计要求。因此,一些学者提出了基于反馈线性化方法的先进经济模型预测控制方案,以实现较好的跟踪精度和经济性能。此外,还有学者考虑在控制方案中引入了状态观测器和误差积分器,并提出了模糊鲁棒控制,实验证明该方法具有较好的跟踪性能和鲁棒性。然而,所有这些方法都建立在对系统模型的精确建立之上。事实上,对于存在许多非线性、参数耦合等复杂过程的系统,比如锅炉汽轮机系统,这些复杂性极大地阻碍了基于模型方法的进一步发展。

3、强化学习,又称自适应动态规划,作为一种数据驱动的人工智能算法,通过智能体与环境的交互学习,可用于解决模型未知系统的优化控制问题。虽已有学者提出基于自适应动态规划的锅炉汽轮机控制方法,这些方法通常使用一批采集的数据集来对网络权重进行训练。然而,该方法往往需要对批量数据具有足够丰富度的假设,以获得满意的结果。针对原始单批量数据训练方式存在数据利用不充分和过度依赖输入数据的问题,因此如何有效储存数据并实现具有优化趋向的训练方式,仍待进一步开发。

4、因此,迫切需要实现一种具有数据高效利用,且具有经验导向的数据驱动方法,实现给定目标下锅炉汽轮机系统的负荷控制问题。

技术实现思路

1、本发明提供了一种基于经验导向q学习的锅炉汽轮机系统负荷控制方法,解決含有未建模动态锅炉汽轮机系统负荷控制问题,使得锅炉汽轮机系统负荷控制策略具有自适应、自学习能力,引入具有经验导向的数据再利用的采样-训练循环嵌套训练框架,有效避免了单一采样-训练框架下数据利用率低和数据要求高等问题,详见下文描述:

2、一种基于经验导向q学习的锅炉汽轮机系统负荷控制方法,所述方法包括:

3、步骤1,固定采样周期ts,对锅炉-汽轮机系统进行离散化,得到离散锅炉汽轮机系统,将离散锅炉汽轮机系统的,将离散锅炉汽轮机系统的原始负荷控制问题转化为关于跟踪误差的增广误差系统调节问题;

4、步骤2,基于锅炉汽轮机历史采样数据构建关于增广误差系统的经验池,提出离策略的q学习方法,并根据批量采样信息更新状态-动作值函数,设计单评价网络近似q函数,并结合最小二乘法更新评价网络权值;

5、步骤3,构建基于经验导向的数据再利用的采样-训练循环嵌套训练框架,进一步在线优化评价网络权值;

6、步骤4,利用策略梯度下降法设计q学习自适应控制器,生成具有优化趋向的数据存入经验池,实现q学习算法的导向学习;

7、进一步的,步骤1具体包括如下内容:

8、步骤101,固定采样周期ts,对锅炉-汽轮机系统进行离散化,得到离散锅炉汽轮机系统表示如下

9、x(k+1)=f(x(k),u(k))  (1)

10、其中f(·,·)表示的关于锅炉-汽轮机动态的未知非线性函数,x(k)和u(k)分别为采样时间k下的系统状态向量和控制输入向量。

11、步骤102,负荷期望轨迹形式如下

12、r(k+1)=h(r(k))  (2)

13、其中r(k)是时刻k下的期望负荷目标,h(r)是一个lipschitz连续向量函数。

14、可知,负荷跟踪误差如下

15、

16、步骤103,离散锅炉汽轮机系统的负荷控制问题即:为系统(1)设计最优控制输入u(k),使得状态x(k)尽快跟踪上期望目标负荷r(k),同时最小化输入消耗。

17、步骤104,关于跟踪误差的增广误差系统如下

18、

19、步骤105,所述关于跟踪误差的增广误差系统调节问题即:为增广误差系统(4),设计控制输入u(k),最小化跟踪误差以及输入消耗,即如下性能指标

20、

21、其中γ∈(0,1)是折扣因子,w(e)和e(u)为正定函数,r(y(l),u(l))表示在l时刻下获得的效用函数。

22、进一步的,步骤2具体包括如下内容;

23、步骤201,所述降阶系统为:

24、步骤201,构建所述历史数据经验池,形式如下

25、

26、其中y表示为增广误差系统状态,y′表示下一时刻的增广误差系统状态,a表示在状态y下采取的控制输入,n表示经验池大小。

27、步骤202,对于控制策略u(y),在状态y(k)下,其值函数vu(y(k))定义为

28、

29、步骤203,满足下,所述状态-动作值函数qu(y(k),a)为:

30、

31、步骤204,所述使用离策略的迭代q学习算法评估状态-动作值函数qu(y(k),a),具体为:

32、(1)根据采样数据(y,a,r,y′),对q值进行迭代更新:

33、

34、其中i为迭代次数。

35、(2)基于梯度下降法,可知

36、

37、其中ξ是策略更新步长。

38、(3)令i=i+1,直到q值收敛。

39、步骤205,可知最优q函数满足如下hjb方程

40、q*(y(k),a)=r(y(k),a)+q*(y(k+1),u(k))  (11)

41、q学习目标是找到最优策略最小化q函数,即

42、

43、步骤206,设计单评价网络来近似q函数,因此,所述q函数可以表示为:

44、

45、其中,l为评价网络隐藏层神经元个数,为网络激活向量函数,ω对应为网络权重向量,ε为评价网络近似误差。

46、选择来表示理想评价网络权重向量,所述近似q函数为评价网络输出,表示如下

47、

48、步骤207,结合批量采样信息,采用最小二乘法迭代更新评价网络权值,具体为:

49、(1)选取批量大小数据计算每个数据

50、下的时间差分误差,如下:

51、

52、其中表示的是第l个数据下的评价神经网络近似残差。

53、(2)由所述最小二乘法对网络权重参数进行更新

54、

55、其中以及

56、进一步的,步骤3具体包括如下内容;

57、步骤301,选取第j次批量数据作为训练数据,根据公式(16)在线优化评价网络权值,表示如下:

58、

59、步骤302,基于梯度下降法,根据公式(10)更新策略

60、步骤303,让i=i+1,重复以上步骤301、302,直到收敛。

61、步骤304,将第j次批量数据下训练好的的网络权重作用锅炉-汽轮机系统,并对系统进行采样数据,利用“软”更新方式更新评价权重,即

62、

63、其中β为软更新率。

64、步骤305,所述基于经验导向的数据再利用的采样-训练循环嵌套训练框架,即:每次循环采样经验池数据,实现在线优化评价网络权重并作用到锅炉-汽轮机系统,生成优化数据存入经验池,以构建具有经验导向的嵌套训练框架,直至评价网络权重收敛。

65、进一步的,步骤4具体包括如下内容;

66、步骤401,当第j次批量数据下,所得权重收敛后,根据公式(12),可知最优负荷跟踪控制率为

67、

68、步骤402,基于梯度下降法,设计自适应控制策略为

69、

70、步骤403,将具有高斯噪声的探索动作作用到锅炉汽轮机系统,观测下一个状态y′,以及计算对应效用函数r(y(k),a),并将所述具有优化趋向的数据(y,a,r,y′)存入经验池ωn,实现q学习算法的导向学习。

71、本发明提供的技术方案的有益效果是:

72、1)针对复杂非线性锅炉汽轮机系统建模困难,设计了一种单评价网络q学习的锅炉汽轮机负荷控制方法。相比基于模型的控制方法,基于数据驱动的方式,更具自学习和自适应能力。

73、2)通过构建数据再利用的经验池,设计具有经验导向的采样-训练循环嵌套训练框架,可生成具有优化趋向的系统数据,从而减少初始数据依赖性,提高数据利用率以及数据质量,同时也保证了学习的稳定性。

本文地址:https://www.jishuxx.com/zhuanli/20240730/198452.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。