技术新讯 > 电子通信装置的制造及其应用技术 > 基于深度强化学习的建筑综合能源系统优化方法 > 正文

基于深度强化学习的建筑综合能源系统优化方法

国知局
2024-08-02 14:36:25

本发明属于建筑综合能源系统优化和深度强化学习，尤其涉及基于深度强化学习的建筑综合能源系统优化方法。

背景技术：

1、随着全球社会日益关注保持生活质量的同时向可持续的能源实践过渡，能源优化和调度已成为紧迫的挑战。近年来，综合能源系统(ies)逐渐成为一种重要的解决方案。建筑综合能源系统在ies中起着至关重要的作用。因此，要提高能源效率和可持续性，就必须对建筑能耗进行深入研究。

2、建筑综合能源系统的重要性主要体现在多个方面。首先，建筑综合能源系统是建筑物内部能源供应和分配的核心，其性能直接影响建筑的能源利用效率。通过科学合理的设计和管理，建筑综合能源系统能够提高能源利用效率，减少资源浪费。其次，建筑综合能源系统的优化与可持续发展密切相关。通过采用清洁能源、提高能源利用效率以及减少对非可再生能源的依赖，建筑综合能源系统有助于减缓气候变化和降低环境影响，这对于实现可持续发展目标具有重要意义。此外，经济效益也是建筑综合能源系统重要性的体现之一。合理管理建筑综合能源系统可以降低建筑运营成本，提高能源利用效率，从而在长期内实现经济回报，这对于建筑业主和管理者来说具有显著的经济利益。社会可持续性是建筑综合能源系统另一个重要方面。通过引入先进的技术和智能控制策略，建筑综合能源系统有助于建立更为环保和可持续的城市和社区，为社会提供更健康、宜居的生活环境。

3、总体而言，建筑综合能源系统的重要性在于其深刻影响了社会、经济和环境的多个层面。通过持续的研究和创新，建筑综合能源系统的不断优化将为全球可持续发展目标的实现提供关键支持，引领未来建筑与能源领域的发展方向。

4、面对当前的能源挑战，建筑综合能源系统正逐渐成为备受瞩目的解决方案。这类系统充分利用物联网(iot)、云计算、机器学习和大数据分析等先进技术，旨在创造可持续、经济高效且舒适的楼宇环境。为实现这些目标，必须不断开发新的智能建筑能源管理技术，通过智能调度楼宇能源系统，找到能源消耗和能源效率之间的最佳平衡点，以同时满足能源需求、降低碳排放、控制能源成本并提高用户的舒适度。值得注意的是，在零售电价不断波动的情况下，解决定价问题显得至关重要，这有助于确保能源消费者和供应商双方的利益得到充分保障。因此，建筑综合能源系统的发展不仅关乎科技创新，更涉及到解决实际运营中的经济和市场挑战。通过不断深化技术研究和推动创新，我们可以更好地适应未来不断变化的能源格局，为建筑能源管理领域带来更多可持续、智能的解决方案。

5、由于传统方法在解决复杂问题方面的有限性，许多学者将关注转向强化学习。根据学习方式的差异，出现了很多强化学习算法，如q学习、深度q网、近端策略优、深度确定性策略梯、演员评价等。事实证明，强化学习方法在电力系统领域的随机优化控制问题和面对动态定价的能源调度挑战方面能够有效发挥作用。这些方法已成功应用于家用电热水器集群的调度，并随后被引入智能建筑能源管理领域。然而，这些方法在处理大规模问题时存在维度限制，因此需要进一步的研究和发展。深度强化学习擅长处理以高维状态和动作空间为特征的复杂问题。通过集成深度神经网络，drl提高了强化学习算法的学习过程和性能。

6、目前，现有建筑综合能源系统优化方法无法高效率解决能源运营商与用户间的交互问题，导致出现资源浪费、收益不佳、市场粘合度低和用户满意度低的问题。因此，提出了一种基于深度强化学习的建筑综合能源系统优化调度方法。

技术实现思路

1、针对现有技术的不足，本发明提供了基于深度强化学习的建筑综合能源系统优化调度方法，解决了上述问题。

2、为实现以上目的，本发明通过以下技术方案予以实现：

3、第一方面，提供了基于深度强化学习的建筑综合能源系统优化调度方法，包括以下步骤：

4、接收建筑综合能源系统智能调度环境各个发电机组发电功率和燃气锅炉热功率以及基线价格的状态信息；

5、初始化各个机组发电功率和燃气锅炉热功率以及基线价格的状态信息；

6、根据能源运营商与用户的交互因素，建立基于主从博弈框架的建筑综合能源系统智能调度决策模型；其中交互因素是指能源运营商给用户制定的电价与热价，以及用户由此产生的新的调度计划；

7、根据问题特征构建马尔科夫决策过程；其中，问题特征指上述构建的建筑综合能源系统智能调度决策模型，把这个模型表述为一个包含状态，动作，奖励函数和状态转移概率的四元组；

8、采用深度强化学习算法根据状态信息产生调度方案；

9、用户根据调度方案调整用电计划，反馈给能源运营商调整状态信息，并再次采用深度强化学习算法根据状态信息产生新的调度方案；

10、采集产生新的调度方案过程中产生的轨迹信息，存放到经验回放池中；

11、经验回放池中的轨迹数量达到要求时，按顺序批量采样轨迹对建筑综合能源系统智能调度决策模型参数进行训练；

12、直至能源运营商的累计总收益稳定，输出最优调度方案与价格信息。

13、在上述技术方案的基础上，本发明还提供以下可选技术方案：

14、进一步的技术方案：所述建筑综合能源系统p要求在d个调度点内完成(l＝1,2,...,d)，每个调度点进行机组和储能系统的调度和定价；

15、根据建筑地区的实际情况，采集目标地区的历史综合数据，对所述历史综合数据进行数据清洗和归一化处理，确定出机组和储能系统调度数据与价格信息变化规律相关的特征数据；

16、其中，建筑综合能源系统建模包括建筑综合能源系统能源运营商售能累计总收益目标函数，电/热功率平衡约束，资源转换约束和价格约束。

17、进一步的技术方案：所述生成的建筑综合能源系统上层模型目标函数如式(1)所示：

18、

19、其中，f为建筑能源运营商的日运行利润，r为售能收益，cbuy为向上级电网和气网的购能成本，cope为运行和维护成本，为奖惩阶梯式碳交易成本，cdr为需求响应成本，ces为储能成本；

20、

21、其中，i表示电能和热能，表示相应的用户负荷，表示第i种能源的售价，表示能源运营商(beo)向上级电网售电的功率，表示向上级电网售电价格；

22、

23、其中，表示向上级电网购电和购气的功率，分别是购电和购气的价格；

24、

25、其中，表示设备的单位运维费用，表示输出功率；

26、生成的建筑综合能源系统下层模型目标函数如式(5)所示

27、

28、其中，cuser表示用户的总成本，表示用户的购能成本，表示用户因参与需求响应的成本，表示用户因环境因素的不舒适成本。

29、进一步的技术方案：所述的基于深度强化学习的建筑综合能源系统优化方法，其特征在于，所生成的建筑综合能源系统约束条件如下所示：

30、能量与功率平衡约束

31、

32、

33、

34、其中，pic表示储能装置的总充能功率，pid表示储能装置的总放能功率，分别为生产的电能直接供给电负荷，热负荷和冷负荷的分配系数，分别为eho生产的电能和热能。分别为生产的热能直接供给热负荷，冷负荷的分配系数。

35、设备功率约束

36、

37、

38、其中，表示设备m在t时刻的功率，表示设备m的最大功率。表示设备m的最大爬坡功率。

39、(4-3)储能设备的充能和放能功率限制

40、0≤pic≤picmax (11)

41、0≤pid≤pid,max (12)

42、

43、其中，picmax，pidmax分别表示最大充能功率和最大放能功率，表示t时刻的设备储能，分别表示充能和放能效率。

44、需求响应约束

45、

46、

47、

48、其中，表示用户最大可转移负荷的比例。需求响应本身是动态调度的经典应用，随时间变化分时电价上下浮动，用户的可转移负荷相应做出调整，体现动态优化。

49、用户负荷约束

50、

51、

52、其中，ωi表示转移和削减第i种能源的不适系数，表示用户最舒适的理想负荷，表示实际负荷，对于可转移负荷；

53、

54、

55、

56、其中，表示负荷可转移的上限值，表示可转移负荷的总量。

57、进一步的技术方案：基于深度强化学习的建筑综合能源系统优化模型的建立过程为建立一个由四元组＜s,a,r,γ＞表示的马尔可夫决策过程；

58、其中，s表示有限的状态集合s＝[s1,s2,...,s7]

59、式中，s1表示第一个机组的发电功率，s2表示第二个机组的发电功率，s3表示第三个机组的发电功率，s4表示储能电池的充电放电状态，s5表示更新后的用户负荷，s6表示目前的基线价格信息，s7表示目前的时间戳；

60、a表示有限的动作集合a＝[a1,a2,...,a6]

61、式中，针对建筑综合能源系统的五个决策变量设计构成动作集合。a1表示第一个机组的发电功率，a2第二个机组的发电功率，a3第三个机组的发电功率，a4表示储能电池充电或者放电的量(正值代表充电，负值代表放电)，a5表示燃气锅炉的发热功率，a6表示能源运营商制定的价格；

62、r表示执行动作后的奖励函数是智能体在当前状态下执行动作后的即时奖励，是智能体进行学习改善策略的重要指引信号，奖励函数表示为第l次迭代结束后能源运营商的累计总收益；

63、在给定状态st和在时间戳t处下，能源系统过渡到下一个状态st+1，定义为

64、

65、其中p对应于跃迁概率，它模拟了建筑综合能源系统的动力学和不确定性。在基于模型的算法中，不确定性是通过确定的值或从先验概率分布中抽样来预测的。相反，深度强化学习是一种无模型的方法，能够从历史数据和交互中学习不确定性。

66、智能体状态s下，选择动作a；建筑综合能源系统环境中的调度方案被确定，环境给予智能体奖励rt+1，环境状态会更新为st+1，表示为

67、进一步的技术方案：所述的基于深度强化学习的建筑综合能源系统优化方法，所述轨迹信息为一个五元组<sl,al,rl,sl+1,done>；其中，done为判断调度是否终止的标记，待当前时间戳到达二十四小时，优化结束，done＝true；否则，done＝false。

68、进一步的技术方案：基于深度强化学习的建筑综合能源系统优化方法所决策模型采用基于自适应噪声系数改进的深度确定性策略梯度算法进行训练，包括当前actor网络与critic网络、目标actor网络与critic网络和经验回放池。

69、进一步的技术方案：所述产生新的调度方案过程中产生的轨迹信息，存放到经验回放池中的具体步骤包括：

70、采集前10代奖励的方差和critic网络的损失平均值。

71、对前10代奖励的方差和critic网络的损失平均值做归一化处理，统一量纲。

72、根据前10代奖励的方差和critic网络的损失平均值构造递减函数，作为智能体选择动作前的自适应噪声系数。

73、用户根据自身的最佳响应策略调整用电负荷，更新下一步的负荷状态信息，实现用户与能源运营商的交互。

74、智能体使用改进后的自适应噪声机制选择动作，产生奖励等一系列轨迹信息，并把它们存放到经验回放池当中。

75、进一步的技术方案：所述经验回放池中的轨迹数量达到要求时，按顺序批量采样轨迹对建筑综合能源系统智能调度决策模型参数进行训练的具体步骤包括：

76、当经验回放池中的轨迹数量达到限值时，按最小采样批次采样池中的轨迹供给当前critic网络和critic目标网络进行q值预测。

77、目标critic网络会将预测的q值传递给当前critic网络进行梯度下降训练，神经网络参数训练好的当前critic网络会定期将参数复制给目标critic网络，提升目标critic网络的预测能力。

78、根据当前q值使用梯度上升法更新当前actor网络，更新当前actor网络使得q值输出最大。当前actor网络会定期将参数复制给目标actor网络。

79、当前actor网络会根据状态特征，选取q值最大的动作执行，循环往复。

80、第二方面，提供了基于深度强化学习的建筑综合能源系统优化系统，包括以下模块：

81、接收模块，被配置为接收建筑综合能源系统智能调度环境各个发电机组发电功率和燃气锅炉热功率以及基线价格的状态信息；

82、初始化模块，被配置为初始化各个机组发电功率和燃气锅炉热功率以及基线价格的状态信息；

83、建立模块，被配置为根据能源运营商与用户的交互因素，建立基于主从博弈框架的建筑综合能源系统智能调度决策模型；

84、构建模块，被配置为根据问题特征构建马尔科夫决策过程；

85、第一生成模块，被配置为采用深度强化学习算法根据状态信息产生调度方案；

86、第二生成模块，被配置为用户根据调度方案调整用电计划，反馈给能源运营商调整状态信息，并再次采用深度强化学习算法根据状态信息产生新的调度方案；

87、存放模块，被配置为采集产生新的调度方案过程中产生的轨迹信息，存放到经验回放池中；

88、训练模块，被配置为经验回放池中的轨迹数量达到要求时，按顺序批量采样轨迹对建筑综合能源系统智能调度决策模型参数进行训练；

89、输出模块，被配置为直至能源运营商的累计总收益稳定，输出最优调度方案与价格信息

90、有益效果

91、本发明提供了基于深度强化学习的建筑综合能源系统优化方法，与现有技术相比具备以下有益效果：

92、1、能够以用户的需求为核心，把能源运营商和用户的交互部分构建一个一主多从的博弈框架，提出了一种基于主从博弈框架的两层建筑综合能源系统模型。该模型旨在考虑能源运营商和用户在定价阶段的利益需求，以达到能源运营商和用户之间的纳什均衡，从而能够提升建筑综合能源系统优化的运行效果；2、本发明改进了深度确定性策略梯度算法中选择动作的噪声探索机制。由原始的高斯分布噪声结合特定的奖励方差和网络的平均值，构建了一种新的自适应加权噪声探索机制，使智能的收敛速度更快、更有效，能够有效适应用户需求的动态变化，进一步提升建筑综合能源系统的可靠性和合理性；

93、3、最后，本发明在成本核算中纳入改进的碳交易奖惩机制措施。根据国际环境的大趋势，构建碳排放成本的参数公式，更严格地控制能源供给侧的碳排放。