基于强化学习的空气源热泵供热系统温度控制方法及装置与流程
- 国知局
- 2024-08-01 00:45:00
本发明涉及一种基于强化学习的空气源热泵供热系统温度控制方法及装置,属于供热系统优化控制。
背景技术:
1、可再生能源的快速发展有助于减轻对传统能源的依赖,但其出力的随机性和波动性对电力系统安全运行带来了更高挑战。为了缓解新能源接入配电网带来的功率波动难题,分时电价政策逐渐推行。通过在高峰期提高电价,鼓励用户在低峰期使用电力,从而平衡电力需求和供应,减轻电网负荷,提高电力利用效率,降低能源浪费。与此同时,随着现代信息技术掀起数字革命浪潮,依赖于信息通信技术的直接负荷控制(direct loadcontrol,dlc)可以与发电侧协同,利用大量诸如空调、冰箱、热水器、热泵等具有能量存储特性的负荷,通过短时间投切或改变控制参数,在用户无明显感知的前提下参与电力系统多时间尺度的有功功率调度。另一方面,随着“煤改电”政策的不断推行,以电取暖为代表的清洁能源取暖逐渐替代了传统取暖方式,降碳效果显著。在各种电采暖设备中,空气源热泵彰显出较大优势,应用前景广阔,市场规模稳定增长。
2、空气源热泵多应用在集中供热场景下,通过供热管网给楼宇或小区供暖,因此具有一定的储热能力,结合分时电价政策,空气源热泵供热系统(air source heat pumpheating system,ashp-hs)可以通过调节自身用电功率达到优化运行的目的,在保障用户热舒适度同时降低供热用电成本,有助于缓解发用电高峰期电网调峰压力,促进电网安全稳定运行。结合分时电价实现空气源热泵供热系统自身优化运行,并在有调峰需求时能够及时进行功率响应,需要对供热系统进行控制策略设计。对于空气源热泵供暖系统来说,其控制手段可以分为以调整循环热水温度的质调节、调整循环热水流量的量调节以及两者兼具的质-量调节。然而,由于空气源热泵供热系统运行过程影响因素多样,机理建模和参数辨识复杂,这给其优化运行控制策略设计带来困难。
3、近年来,人工智能技术不断发展,应用强化学习(reinforcement learning,rl)针对复杂系统进行控制的研究开始出现。深度强化学习能够直接根据输入的多维数据进行最优决策输出,是一种端对端的决策控制系统,具有广泛的应用潜力。《再生强化学习动态定价需求响应的深度电热框架》(zhong s,wang x,zhao j,et al.deep reinforcementlearning framework for dynamic pricing demand response of regenerativeelectric heating[j].applied energy,2021,288:116623.)提出了一种基于深度强化学习框架的电采暖系统参与需求响应的定价模型,提出的框架考虑了需求响应参与者的用户行为量化以及用户之间的差异,这项研究使用weber-fechner定律和聚类算法来构建定量响应特征模型,并使用深度q网络用于获取动态的补贴价格,该框架可以为再生电加热系统提供更合理,适用和智能的控制策略;但是,由于该方案制定的是供热系统电能补贴价格,无法直接应用于空气源热泵供热系统的温度控制。《基于强化学习的地铁站空调系统节能控制》(焦焕炎,冯浩东,魏东等.基于强化学习的地铁站空调系统节能控制[j].控制与决策,2022,37(12):3139-3148.)提出了一种基于强化学习研究了地铁站空调系统节能控制方法,其针对地铁站空调系统能源消耗较大的问题,提出基于强化学习的空调系统节能控制策略。首先,采用神经网络建立空调系统模型,作为离线训练智能体的模拟环境,以解决无模型强化学习方法在线训练收敛时间长的问题;然后,为了提升算法效率,同时针对地铁站空调系统多维连续动作空间的特点,提出基于多步预测的深度确定性策略梯度算法,设计智能体框架,将其用于与环境模型进行交互训练;最后,基于武汉某地铁站的实测运行数据进行仿真实验,结果表明,所提出控制策略具有较好的温度跟踪性能,能够保证站台舒适性,且与目前实际系统相比能源节省约17.908%。但是,该研究采用的是无模型的深度强化学习,一方面需要大量的实际运行数据用于训练得到系统模型,另一方面,无模型的强化学习在约束条件设置方面也存在一定的局限。《基于强化学习的储能系统最优充放电调度算法》(jung hosung.an optimal charging and discharging scheduling algorithm ofenergy storage system to save electricity pricing using reinforcementlearning in urban railway system[j].journal of electrical engineeringtechnology,2021,17(1):1-9.)提出了基于强化学习的储能系统的最佳充电和排放调度算法,以节省韩国城市铁路系统的电力定价。首先进行了城市铁路系统的建模,包括储能系统,电力定价速率以及根据储能系统的运营速度变化。之后通过dqn算法减少峰值功率需求而进行了代理的强化学习,节省了总电价。该研究为空气源热泵供热系统优化运行的强化学习框架提供了可借鉴的思路,但是不适用于空气源热泵供热系统的温度控制策略。《使用深层强化学习的离网可再生建筑能源系统的运行优化》(gao y,matsunami y,miyata s,etal.operational optimization for off-grid renewable building energy systemusing deep reinforcement learning[j].applied energy,2022,325:119783.)将可再生建筑能源系统的离网运行及其电池的安全性(防止退化)作为优化目标;基于真实的建筑能源系统,通过对发电机、太阳能光伏和电池的运行控制来实现优化目的。通过高斯分布引入了详细的奖励函数设计和完整的强化学习工作流程;基于日本实际既有建筑的实测数据集,通过离线强化学习对两种深度强化学习算法进行了训练和验证。该研究为空气源热泵供热系统运行控制提供了可借鉴的思路,同时其设计的两目标优化控制过程也具有一定的参考价值,但是不适用于空气源热泵供热系统的温度控制策略。《多区域住宅通风空调系统热舒适的节能控制强化学习》(kai z d,ming q f,ping j c,et al.energy-efficientcontrol of thermal comfort in multi-zone residential hvac via reinforcementlearning[j].connection science,2022,34(1):2364-2394.)提出了一种基于深度强化学习的多区域住宅暖通空调热舒适性控制方法。首先设计了一个由支持向量回归和深度神经网络组成的svr-dnn模型来预测热舒适度值。然后基于svr-dnn模型的输出,应用深度确定策略梯度(ddpg)来实现暖通空调热舒适性的最优控制策略。但是,该研究采用的是无模型的深度强化学习,一方面需要大量的实际运行数据用于训练得到系统模型,另一方面,无模型的强化学习在约束条件设置方面也存在一定的局限。
4、然而,目前应用强化学习解决空气源热泵供热系统温度控制方法的研究并不多见,因此,本发明提出了一种基于强化学习的空气源热泵供热系统温度控制方法及装置。
技术实现思路
1、为了解决上述问题,本发明提出了一种基于强化学习的空气源热泵供热系统温度控制方法及装置,能够在实现供热系统优化运行的同时保证用户的舒适度。
2、本发明解决其技术问题采取的技术方案是:
3、第一方面,本发明实施例提供的一种基于强化学习的空气源热泵供热系统温度控制方法,包括以下步骤:
4、根据空气源热泵供热系统的构成建立空气源热泵供热系统的数学模型;
5、建立基于q-learning算法的供热系统mdp模型,并选择供热系统mdp(markovdecision process,马尔科夫决策过程)模型参数,所述供热系统mdp模型参数包括状态空间集合s、离散动作空间集合a、状态转移概率p、奖励函数r和折扣率γ;
6、初始化供热系统环境状态st,并基于s-geedy策略选择控制动作at;
7、执行控制动作at获得即时奖励rr;
8、更新执行控制动作at后的供热系统环境状态sr+1;
9、存储状态转移数据(sr,ar,rr,st+1),控制逐渐减小探索概率 ε的值进行迭代,直至学习过程结束。
10、作为本实施例一种可能的实现方式,所述空气源热泵供热系统的构成包括一定区域内的空气源热泵机组、循环水泵、供暖管道及其供暖的所有建筑物。
11、作为本实施例一种可能的实现方式,所述建立空气源热泵供热系统的数学模型,包括:
12、(1)在热源侧,空气源热泵供热系统消耗的电功率为热泵机组消耗功率:
13、(1),
14、式中,为空气源热泵机组额定功率,为热泵开机台数,为空气源热泵的开关状态,开启为1,关闭为0;
15、定义空气源热泵供热系统的制热功率:
16、(2),
17、其中,为系统制热功率,为空气源热泵机组的能效比;
18、(2)考虑供热管网的传输延迟,根据热力学第一定律,空气源热泵供水温度随时间 t的变化情况如下式所示:
19、(3),
20、其中,为供水温度;为循环水的热容;为循环水的热导;为回水温度;为热泵加热水所需要的时间;
21、回水温度随时间的变化情况如下式所示:
22、(4),
23、式中,为循环热水与用户侧交换的热量;
24、将热泵系统集中供热末端作为整体进行考虑,循环热水与末端房间交换热量为:
25、(5),
26、式中,为室内平均温度;为用户侧入水温度;为循环水与房间的热交换热导;
27、室内平均温度变化如下式所示:
28、(6),
29、式中,为用户侧等效热导;为用户侧等效热容;
30、对循环水的热导、循环水与房间的热交换热导和用户侧等效热导进行参数辨识:
31、(7),
32、其中,为供水延迟;
33、选择模型类型为状态空间模型,模型阶数为一阶,则空气源热泵供热系统的数学模型的基本形式为:
34、(8),
35、通过选择不同的输入输出变量,并将式(3)-(6)化为式(8)的形式,通过式(8)对应变量的系数即可推算出相关暂态参数。
36、作为本实施例一种可能的实现方式,所述状态空间集合s的表达式为:
37、(11),
38、式中,为热泵开机台数,为供水温度,为回水温度,为室内温度。
39、作为本实施例一种可能的实现方式,所述离散动作空间集合a的表达式为:
40、(12),
41、其中,为开机台数的最大值。
42、作为本实施例一种可能的实现方式,所述奖励函数r的表达式为:
43、(13),
44、其中,为当前时刻电价,为室内设定温度,为温度偏移奖励函数的权重,为热舒适度权重。
45、作为本实施例一种可能的实现方式,所述供热系统mdp模型的动作价值函数迭代更新的公式为:
46、(14),
47、式中,为算法训练过程中的学习率,为奖赏值,st和at为某一时刻的状态和动作。
48、第二方面,本发明实施例提供的一种基于强化学习的空气源热泵供热系统温度控制装置,包括:
49、数学模型建立模块,用于根据空气源热泵供热系统的构成建立空气源热泵供热系统的数学模型;
50、mdp模型建立模块,用于建立基于q-learning算法的供热系统mdp模型,并选择供热系统mdp模型参数,所述供热系统mdp模型参数包括状态空间集合s、离散动作空间集合a、状态转移概率p、奖励函数r和折扣率γ;
51、控制动作选择模块,用于初始化供热系统环境状态st,并基于s-geedy策略选择控制动作at;
52、控制动作执行模块,用于执行控制动作at获得即时奖励rr;
53、环境状态更新模块,用于更新执行控制动作at后的供热系统环境状态sr+1;
54、迭代学习模块,用于存储状态转移数据(sr,ar,rr,st+1),控制逐渐减小探索概率 ε的值进行迭代,直至学习过程结束。
55、第三方面,本发明实施例提供的一种电子设备,包括处理器、存储器及存储在存储器上并可在处理器运行的程序,当所述电子设备运行时,所述处理器执行所述程序时实现如上述任意基于强化学习的空气源热泵供热系统温度控制方法的步骤。
56、第四方面,本发明实施例提供的一种存储介质,该存储介质上存储有程序,该程序被处理器运行时执行如上述任意基于强化学习的空气源热泵供热系统温度控制方法的步骤。
57、本发明实施例的技术方案可以具有的有益效果如下:
58、本发明实施例的技术方案的一种基于强化学习的空气源热泵供热系统温度控制方法,以空气源热泵供热系统整体为研究对象,基于深度强化学习制定空气源热泵供热系统温度控制策略,在实现供热系统优化运行的同时,保证用户的舒适度。本发明结合分时电价背景,在实现供热系统自身优化运行的同时对供热系统用户室内温度进行控制,所建立的供热系统数学模型较好的模拟了实际系统的运行过程,且所设计的基于强化学习的供热系统mdp模型能够降低空气源热泵供热系统的运行成本,并维持用户室内温度在设定值左右。本发明实现了对空气源热泵供热系统的自动化、智能化控制,确保了空气源热泵供热系统的高效运行和用户舒适度的最大化。
59、本发明实施例的技术方案的一种基于强化学习的空气源热泵供热系统温度控制装置具备与本发明实施例的技术方案的一种基于强化学习的空气源热泵供热系统温度控制方法同样的有益效果。
本文地址:https://www.jishuxx.com/zhuanli/20240724/202310.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表