一种基于深度强化学习的含氢虚拟电厂低碳经济调度方法
- 国知局
- 2024-09-14 14:58:25
本发明涉及虚拟电厂优化调度领域,具体而言,涉及一种基于深度强化学习的含氢虚拟电厂低碳经济调度方法。
背景技术:
0、技术背景
1、随着分布式能源大规模并网,如何有效组织和高效管理分布式能源,充分应对分布式能源的出力的波动性成为电力系统面临的一大难点,在此背景下,虚拟电厂的概念应运而生,通过整合多种分布式能源资源,如风能、太阳能及储能系统,利用先进的信息技术和智能管理系统,实现资源的高效协同工作,不仅提升了电网对于可再生能源波动的适应能力,还能在总体上提供稳定的出力,从而有效参与电网调节,满足系统功率平衡的需求。然而,虚拟电厂的绿色低碳转型迫在眉睫。通过分析全球碳排放结构可知,电力、热力能源生产碳排量占比最高,因此减少虚拟电厂中电力、热力生产过程中的碳排放是关键。
2、碳捕集、电转气等低碳技术的应用为虚拟电厂的绿色低碳转型提供了新思路,目前已有研究在虚拟电厂建模中引入碳捕集、电转气设备。通过将电转气和碳捕集设备进行耦合,碳捕集设备可以将电力、热力能源生产所排出的co2进行捕集,并作为原料提供给电转气设备对氢气进行甲烷化处理。虽然在虚拟电厂建模中引入电转气、碳捕集设备可以减少系统整体运行的碳排放量,实现了co2的循环利用,提高虚拟电厂运行的经济性,但上述研究并未对电转气过程精细化建模,未能充分挖掘电转气中间环节的氢能利用价值。
3、虚拟电厂中光伏、风机等分布式能源出力以及负荷用电具有不确定性,大量不确定性因素给虚拟电厂低碳经济调度带来了严峻挑战。目前在虚拟电厂低碳经济调度问题求解上的研究仍面临调度结果过于依赖不确定性建模或预测精度的问题,如随机规划、鲁棒优化及模型预测控制等方法不能在根本上摆脱不确定性建模或预测精度对调度结果的影响。为避免由不确定性因素建模或预测误差导致的调度结果不可靠的问题,亟需一种不依赖系统不确定性因素的预测或分布信息的智能算法对虚拟电厂设备进行动态实时调控。
4、随着人工智能的迅速发展,为解决上述问题提供了技术支撑,强化学习、深度强化学习等人工智能方法已被引入到虚拟电厂低碳经济调度研究中。深度强化学习作为一种无模型的决策方法,无需预先对系统中的不确定性因素进行建模或预测,通过与环境的实时交互收集信息,并基于这些信息不断更新和优化自身决策。通过这种方式智能体能够迅速适应环境的变化,对源荷的随机波动和系统的动态变化做出灵活响应,实现不确定性环境下虚拟电厂的低碳经济调度。
技术实现思路
1、鉴于此,本发明公开了一种基于深度强化学习的含氢虚拟电厂低碳经济调度方法,用于解决现有技术中存在的问题。
2、本发明采用以下技术方案:
3、s1、建立含氢虚拟电厂数学模型,其中,所述数学模型包括电转气设备、氢燃料电池、氢储能、掺氢热电联产机组、掺氢燃气锅炉、碳捕集设备、电热锅炉、电储能、热储能数学模型;·
4、s2、构建含氢虚拟电厂低碳经济调度模型,其中,所述含氢虚拟电厂低碳经济调度模型包括目标函数和约束条件;
5、s3、根据所述虚拟电厂低碳经济调度模型,构建深度强化学习训练模型框架,定义系统的状态变量st、动作变量at和奖励函数r;
6、s4、搭建深度确定性策略梯度网络结构,设置深度确定性策略梯度网络结构中策略网络和值网络的网络参数、缓冲区大小、折扣因子、软更新速率;
7、s5、获取负荷需求、新能源发电量等数据并训练智能体,训练完成后,将虚拟电厂的实时状态输入深度策略网络中,输出协同控制动作。
8、进一步的,s1建立含氢虚拟电厂数学模型,各个模型搭建如下:
9、电转气设备包括电解槽、甲烷反应器,其中电解槽模型如下式(1)所示:
10、
11、式中,pel,t为t时刻的电解槽输出的氢功率;为t时刻的电解槽电氢转化效率;pp2g,t为t时刻电转气设备的输入功率;
12、甲烷反应器模型如下式(2)所示:
13、
14、式中,pmr,t为t时刻甲烷反应器转化气功率;为t时刻输入甲烷反应器的氢功率;βmr为甲烷反应器转换率;为t时刻生成的甲烷的体积;为甲烷的低位热值;为t时刻甲烷反应器反应所需要的co2量;为二氧化碳转换系数;
15、氢储能模型如下式(3)所示:
16、
17、式中,shys,t为t时刻氢储能的储存容量;分别为t时刻的储氢和释氢功率;分别为储氢和释氢效率;为充放状态0-1变量,不能同时为1;
18、氢燃料电池模型如下式(4)所示:
19、
20、式中,为t时刻氢燃料电池输出的电功率和热功率;为氢燃料电池的电功率、热功率的出力效率;为t时刻由电解槽输入氢燃料电池的氢功率;
21、掺氢热电联产模型如下式(5)所示:
22、
23、式中,κchp,t为t时刻的燃气掺氢比;分别为t时刻通过燃气掺氢装置输入热电联产机组的氢气和天然气功率;lmix1分别为氢气、输入热电联产机组的混合燃气的低位热值;分别为t时刻热电联产的输出电、热功率;ηchp为热电联产的综合效率;pchp,t为t时刻输入热电联产机组的混合燃气功率;
24、掺氢燃气锅炉模型如下式(6)所示:
25、
26、式中,κgb,t为t时刻燃气锅炉的燃气掺氢比;分别为t时刻通过燃气掺氢装置输入燃气锅炉的氢气和天然气功率;lmix2为输入燃气锅炉的混合燃气的低位热值;为t时刻燃气锅炉输出热功率;ηgb为燃气锅炉的效率;
27、碳捕集设备模型如下式(7)所示:
28、
29、式中,pccs,t为t时刻碳捕集设备总能耗;pbase,t为t时刻碳捕集设备的基本能耗,为定值;pops,t为t时刻碳捕设备的运行能耗;χ为捕集co2量与电能消耗之间的对应关系;ηcap为碳捕集设备的捕集效率;ecc,t为t时刻输入碳捕集设备的碳排放量;echp,t、egb,t为t时刻热电联产机组及燃气锅炉的碳排放量;为天然气的单位热值含碳量;为天然气的碳氧化率;ψh-e为热电转化率;3.67表示co2与碳的相对分子质量之比;
30、电热锅炉模型如下式(8)所示:
31、
32、式中,为t时刻电热锅炉的热功率;ηeb为电热锅炉的效率;为t时刻电热锅炉消耗的电功率;
33、电、热储能模型如下式(9)所示:
34、
35、式中,ses,t、shs,t分别为t时刻电储能和热储能的储存容量;ηesc、ηhsc分别为电储能和热储能的充电、热效率;ηesd、ηesd分别为电储能和热储能的放电、热效率;为分别t时刻电储能的充放电功率;分别为t时刻热储能的充放热功率;βes为0-1向量,电储充电时为1,电储能放电时为0;βhs为0-1向量,热储能充热时为1,热储能放热时为0。
36、进一步的,s2所述系统运行的目标函数为:
37、
38、式中,cce,t为阶梯型碳交易成本;cys,t为co2封存与运输成本;cmg,t为电力交易费用;cng,t为天然气交易费用;
39、阶梯型碳交易成本跟实际碳排放量与碳排放配额的差值有关,其中实际碳排放量的模型如下式(11)所示:
40、eq,t=(1-ηcap)ecc,t (11)
41、式中,eq,t为t时刻系统实际碳排放量;
42、碳排放配额的模型如下式(12)所示:
43、
44、式中,el,t为t时刻分配给系统初始碳排放配额;分别为t时刻分配给热电联产机组的碳排放配额及绿色电力奖励碳配额;分别为热电联产机组的供电、供热基准值和新能源机组的供电基准值;
45、阶梯型碳交易成本模型如下式(13)所示:
46、
47、式中,cce,t为阶梯型碳交易成本;d为碳排放量区间长度;σ为每个阶梯碳交易价格的增长幅度,每上升一个阶梯,碳交易价格增加当el,tteq,t时,cce,t将为负,表示虚拟电厂可以获取碳交易收益;
48、co2封存与运输成本模型如下式(14)所示:
49、
50、式中,λo为co2封存与运输单位成本;
51、电力交易费用模型如下式(15)所示:
52、
53、式中,分别为t时刻从电网采购及向电网出售的电量单价;pmg,t为t时刻虚拟电厂与电网交互电量;
54、天然气交易费用模型如下式(16)所示:
55、
56、式中,为t时刻天然气价格;vchp,t、vgb,t为t时刻热电联产机组和燃气锅炉设备运行所需天然气体积。
57、进一步的,s2所述系统约束条件包括功率平衡约束与系统运行约束:
58、其中,功率平衡约束包括电功率平衡约束,热功率平衡约束,氢功率平衡约束,其约束如下式(17)所示:
59、
60、式中,分别为t时刻虚拟电厂的电负荷、热负荷;pnew为t时刻新能源机组出力,是由光伏发电功率ppv,t和风力发电功率pwind,t构成的;
61、系统运行约束包括设备运行上下限约束、设备爬坡约束、储能设备容量约束、与主电网交互功率约束,其中设备运行上下限约束如下式(18)所示:
62、pi,min≤pi,t≤pi,max (18)
63、式中,pi,t为t时刻第i个设备的出力;pi,max、pi,min为t时刻第i个设备的出力上、下限;
64、设备爬坡约束如下式(19)所示:
65、δpi,min≤pi,t-pi,t-1≤δpi,max (19)
66、式中,δpi,max、api,min表示t时刻第i个设备的出力上、下限;
67、储能设备容量约束如下式(20)所示:
68、
69、式中,shys,max/shys,min、ses,max/ses,min、shs,max/shs,min分别为氢/电/热储能容量最大、最小值;
70、与主电网交互功率约束如下式(21)所示:
71、
72、式中,为虚拟电厂与主电网交互功率的上、下限.
73、进一步的,s3所述状态变量st设计:
74、在含氢虚拟电厂的系统中,状态应选取最能反应系统目前运行状况,与调度变量直接关联的环境指标,储能设备的储存容量sm,t、电负荷需求热负荷需求新能源机组出力pnew、市场交易价格上一时刻的动作at-1及时间t,t时刻状态变量如下式(22)所示:
75、
76、式中,sm,t为t时刻储能设备的储存容量,储能设备包括氢储能、电储能、热储能;为t时刻电、碳、天然气的市场交易价格。
77、进一步的,s3所述动作变量at设计:
78、在时刻t中,系统中的动作可由系统各部分的可控变量来表示,包括电转气设备的输入功率、燃气掺氢装置输入热电联产机组的氢气和天然气功率、燃气掺氢装置输入燃气锅炉的氢气和天然气功率、电解槽输入氢燃料电池的氢功率、储能设备的充放功率、电锅炉输出热功率,t时刻动作变量如下式(23)所示:
79、
80、进一步的,s3所述奖励函数r具体为:
81、智能体的优化目标为在可行域中找到经济最优解,分为经济性指标奖励、越限惩罚以及源荷功率不平衡造成的功率误差惩罚三部分组成,奖励设置如下式(24)所示:
82、rt(st,at)=-(σ1ftotal(st,at)+σ2fc(st,at)+σ3fu(st,at))+b (24)
83、式中,σ1成本缩放系数;σ2约束惩罚缩放系数;σ3为功率不平衡惩罚缩放系数;为fc,t为约束惩罚值;fu,t为功率不平衡惩罚值;b为常数,使得奖励函数值为正。
84、进一步的,s4所述深度确定性策略梯度网络结构为:
85、深度确定性策略梯度网络结构包括值网络和策略网络,其中值网络参数更新需要通过最小化损失函数l(θq)来实现:
86、
87、式中,yt为目标q值;e()为期望函数;q()为动作-值函数,用来评估虚拟电厂调度动作的优劣程度;θq为值网络参数;θq′、θπ′分别为目标值网络、策略网络对应参数;
88、根据梯度规则进行值网络参数的更新如下式(26)所示:
89、
90、式中,μq为策略网络学习率;
91、对于策略网络,其提供梯度信息作为动作改进的方向,为了更新策略网络,使用采样策略梯度:
92、
93、根据确定性策略梯度,更新策略网络参数θπ:
94、
95、式中,μπ为策略网络学习率;
96、目标值网络及策略网的参数更新可以采用软更新,以提高学习过程的稳定性,如下式(29)所示:
97、
98、式中,τ为软更新系数,τ<<1;
99、同时,为解决确定性策略的值函数存在过拟合的问题以及增加虚拟电厂交互时对环境的探索能力,因此在目标策略网络中加入高斯噪声,如下式(30)所示:
100、at=π(st|θπ)+vt (30)
101、式中,vt为高斯噪声。
102、进一步的,获取状态量数据并对智能体进行训练:
103、训练过程包括经验回放、采样、计算目标值、计算损失、更新值网络参数、计算策略梯度、更新策略网络参数以及更新目标网络,通过这些步骤,智能体能够不断地优化值网络和策略网络,学习到最优策略;训练完成后,将虚拟电厂的实时状态输入深度策略网络中,输出协同控制动作,实现虚拟电厂的低碳经济调度。
104、本发明的基于深度强化学习的含氢虚拟电厂低碳经济调度方法统低碳优化调度方法具有以下优点:
105、1.本发明将碳捕集和电转气技术应用于虚拟电厂低碳经济调度中,碳捕集设备将电力、热力能源生产所排co2进行捕集,并作为原料提供给电转气设备对氢气进行甲烷化处理,不仅有效减少了虚拟电厂运行碳排放量,同时降低了co2封存成本,提高了虚拟电厂的经济性。
106、2.本发明将电转气过程进行精细化建模,充分挖掘电转气中间环节的氢能利用价值,建立氢能多元化利用结构,对燃气进行掺氢处理,提高能源利用效率的同时,实现对传统化石能源的供能替代,迎来以绿色为标志的能源革命。
107、3.本发明采用阶梯型碳交易机制,相较于传统的碳交易机制,提高了系统低碳减排的积极性,促使系统出力由高碳排机组向低碳排机组转移。
108、4.本发明使用深度确定性策略梯度算法解决虚拟电厂的低碳经济调度问题,相比于传统调度方法,无需对不确定性因素进行预测或建模,避免了因预测或建模精度问题所产生的调度指令不可靠的情况。
本文地址:https://www.jishuxx.com/zhuanli/20240914/296543.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。