技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于多智能体深度强化学习的分布式资源隐私保护能量调度方法及系统与流程 > 正文

基于多智能体深度强化学习的分布式资源隐私保护能量调度方法及系统与流程

国知局
2024-07-31 23:16:07

本发明涉及分布式资源隐私保护能量调度，具体涉及一种基于多智能体深度强化学习的分布式资源隐私保护能量调度方法及系统。

背景技术：

1、能量枢纽(energy hub，eh)的特点是能够整合分布式可再生能源，从而减少化石燃料的消耗、降低碳排放。由于可再生能源固有的随机性和可变性，风能和太阳能发电的大规模整合将扩大电网系统的峰谷差。传统化石燃料发电机的大量替代将会导致电网系统的灵活性大幅降低，从而导致分布式可再生能源大幅削减。除了可再生能源的间隙性和不确定性影响外，用户负荷的随机性、能源之间的多样性以及不同能源形式之间的相互依赖性也会对能源系统的优化和管理产生重大挑战。并且随着连接到能量枢纽的设备数量和种类不断增加，在优化调度过程中会产生大量的电力消耗数据。这些数据可能包含来自设备和用户的敏感信息，从而带来重大的安全风险，所以在优化调度过程中解决隐私和安全问题至关重要。然而，接入隐私保护策略增强了对敏感数据的隐私保护，但可能导致能量枢纽网络性能下降和控制不稳定等问题。

2、现有的能源调度方法，只是停留在针对单一、小规模能力枢纽集群进行优化调度，采用的方法在解决涉及大量终端用户侧分布式能源资源时需要更多的计算资源，从而挤压系统内其他任务的通信和计算资源分配，同时产生大量成本，因此，以较低的经济成本对大规模能量枢纽进行优化调度及隐私保护仍是空白且鲜有对大规模能量枢纽集群中的热-电-气系统中在优化和调度的同时保护用户的敏感隐私数据。

技术实现思路

1、发明目的：为了克服现有技术的不足，本发明提供一种基于多智能体深度强化学习的分布式资源隐私保护能量调度方法，解决了对大规模能量枢纽进行优化调度及隐私保护造成的成本高、网络性能下降和控制不稳定的问题，本发明还提供一种基于多智能体深度强化学习的分布式资源隐私保护能量调度系统。

2、技术方案：根据本发明的第一方面，提供基于多智能体深度强化学习的分布式资源隐私保护能量调度方法，该方法包括以下步骤：

3、s1结合热电联产chp、电热锅炉eb、电转气设备p2g和能量存储系统ess构建eh模型；

4、s2基于热电联产chp、电热锅炉eb、电转气设备p2g建立含能量平衡约束、设备运行约束和储能设备约束的eh模型运行约束条件；

5、s3基于上述约束条件和在考虑碳交易成本的情况下，构建优化调度模型，使得总经济成本最小化；

6、s4基于分布式深度强化学习算法对eh模型进行实时最优能量调度，并在利用强化学习训练优化调度模型时，引入差分隐私保护策略保护eh内的敏感数据，因而，解决具有数据隐私保护的能源互联网集群调度问题。

7、进一步的，包括：

8、所述步骤s1中，首先，确定eh模型的结构，所述eh模型是为了满足电负荷、热负荷以及气负荷的需求，而集合电网、气网、供热网、风力发电装置及光伏发电装置并集合热电联产设备chp、电锅炉eb、电转气设备p2g以及能量存储系统ess的综合模型，然后，采用chp系统功率输出、chp系统热量输出、eb的热量输出、p2g的气体输出以及ess存储的能量描述所述eh模型。

9、进一步的，包括：

10、所述chp系统功率输出和chp系统热量输出表示为：

11、

12、

13、其中，表示t时刻节点i中第n台chp的功率输出，是燃气到电能的转换效率，表示t时刻节点i中第n台chp的燃气消耗，表示t时刻节点i中第n台chp的热量输出，是燃气到热量的转换效率；

14、所述eb的热量输出表示为：

15、

16、其中，表示节点i中eb的热量输出，ηeb表示电-热转换效率，表示节点i中eb的热量输入；

17、所述p2g的气体输出表示为：

18、

19、其中，代表t时刻节点i中p2g的气体输出，ηp2g表示电-气转换效率，时刻节点i中p2g的电能输入；

20、所述ess存储的能量描述为：

21、

22、其中，x代表能量存储的类型，其中，能量存储类型包括e、h和g，其分别代表电网、热网和气网，表示t+1时刻ess存储的能量，代表某能量存储类型的自损失率，表示t时刻ess存储的能量，表示t时刻节点i中储能系统的充电功率，为某种能量存储类型的充电效率，表示t时刻节点i中储能系统的放电功率，表示某种能量存储类型的放电效率，δt为时间间隔。

23、进一步的，包括：

24、步骤s2中，所述eh模型运行约束条件包括：能量平衡约束、设备运行约束和储能设备约束，其中，所述能量平衡约束表示为：

25、

26、

27、

28、其中，n和n表示chp从1到n的索引和集合，表示t时刻节点i与主电网的交换功率；表示节点i的光伏发电装置在t时刻的发电功率，表示节点i的风力发电装置在t时刻的发电功率，分别表示t时刻的电负荷、热负荷和气负荷值，表示t时刻节点i与外部气网的交换功率。

29、进一步的，包括：

30、所述设备运行约束条件表示为

31、

32、

33、

34、

35、

36、

37、其中，和分别表示p2g功率的下限/上限，表示从时间点t到t+δt的变化量，表示p2g的最大爬坡功率，和表示eb功率的下限/上限，表示时间点t到t+δt的变化量，表示eb的最大爬坡功率，和表示燃气消耗的下限/上限，表示从时间点t到t+δt的变化量，表示第n台chp的最大爬坡功率。

38、进一步的，包括：

39、所述储能设备约束包括不同网络上储能设备需满足的容量约束和爬坡，分别表示为：

40、

41、

42、

43、

44、其中，引入非负整数和以确保充电和放电行为不会同时发生；和表示ess功率的下限/上限，其中，x代表能量存储的类型，e、h和g分别代表电网、热网和气网，和表示充电/放电功率的下限/上限。

45、进一步的，包括：

46、所述步骤s3中，优化调度模型的构建过程包括以下步骤：

47、s31构建碳交易成本模型，所述碳交易成本模型不考虑可再生能源发电设备和储能设备的碳排放，也即参与碳交易的设备包括chp和p2g设备；对于每个碳排放源，如果实际的碳排放超出了免费获得的分配碳配额，超出部分需要在碳交易市场购买，因此，碳交易成本模型建立如下：

48、

49、其中，表示t时刻总的碳交易成本，表示t时刻第i台chp的碳交易成本，表示t时刻第i台p2g的碳交易成本；

50、所述chp的碳交易成本表示为：

51、

52、其中，代表碳交易价格，echp代表由chp系统产生单位能量的碳排放强度，echp表示chp系统产生单位能量的碳排放配额；

53、所述p2g的碳交易成本表示为：

54、

55、如上述方程(21)所示，p2g的转化过程可以分为两个步骤：电解制氢和甲烷化，其中在此过程中消耗的co2体积等于产生的ch4体积；

56、因此，p2g单元的输出可以转化为等效体积的ch4，从而使我们能够进一步确定p2g单元所实现的碳排放强度减少量；

57、

58、其中，代表co2的气体密度；表示天然气ch4的热值，由于p2g单元不是碳排放源，其碳配额设为零，因此，碳交易成本的计算表示如下：

59、

60、s32构建总经济成本最小化的目标函数，具体的：

61、选择将eh的总运行成本最小化作为目标函数，其中包括与外部能源采购、设备运行和维护以及碳交易相关的成本，具体的计算方法如下：

62、

63、

64、其中，和分别表示t时刻的电力和天然气价格，πchp代表chp的运维成本，πeb代表eb的运维成本，代表es的运维成本，πp2g代表p2g的运维成本；

65、因此，优化调度模型的目标函数表述如下：

66、

67、s.t.(1)-(25)

68、其中，i和m分别表示从1到n的chp的索引和集合。

69、进一步的，包括：

70、所述步骤s4具体包括：

71、采用的分布式深度强化学习算法为多代理深度确定性策略梯度算法maddpg，基于maddpg算法对eh模型进行实时最优能量调度，具体包括：

72、步骤s41计算智能体i的状态空间si，动作空间ai和奖励空间ri，其中，状态空间si表示在时隙t，一个eh集群的状态空间包括每个代理区域内的风能、光伏发电、三个能源网络的负荷、chp单元的天然气消耗、eb和p2g设备的电力消耗、电价、天然气价格以及储能系统的充放电行为，因此定义如下：

73、

74、其中，si,t∈si；

75、动作空间ai包括可控能量转换设备和能量存储设备，表示如下：

76、

77、其中，ai,t∈ai；

78、奖励函数ri描述为：

79、

80、其中，λ是一个整数参数，表示在t时刻不满足(6)-(18)条件的数量；此外，γ和ζ分别对应较小和较大的正值，作为奖励权重因子；

81、步骤s42根据所述eh模型的奖励机制，在给定实时eh模型环境参数的情况下，多次训练模型，从而学习到倾向于为经济能量调度提供合理的决策，所述奖励机制包括收入增益和约束违规惩罚，且所述约束违规惩罚的系数占比大于收入增益的系数，所述约束违规惩罚为违反约束条件的行为。

82、进一步的，包括：

83、所述利用强化学习训练优化调度模型时，引入dp算法差分隐私保护策略保护eh内的敏感数据，具体包括：

84、步骤s43采用拉普拉斯机制向数据添加噪声，作为一种保护隐私的措施，每个代理都负责控制这个噪声添加过程，具体来说，首先引入代理i的本地隐私数据集，并表示为：

85、

86、步骤s44数据集将被映射为：并用于生成拉普拉斯噪声以构建差分隐私向量，表示为：

87、

88、其中，δf和∈分别是函数f的敏感度和隐私预算；

89、步骤s45代理i的隐私保护效率通过计算原始隐私信息xi,t和扰动信息yi,t之间的差异来评估，其公式定义如下：

90、

91、其中，si,t被表示为协方差矩阵。同时，通过整合约束条件(6)-(18)，代理被引导添加不仅满足约束条件而且能实现所需的隐私保护效果的噪声。

92、进一步的，包括：

93、所述步骤s4还包括：

94、由于上文中引入外部噪声，其对能源网络的稳定性、安全性和可靠性产生负面影响，利用eh内部的能量存储系统ess提供所需的额外能量来进行噪声添加，缓解这种影响；

95、添加的噪声被定义为：

96、

97、ess获取的用作噪声的能量服从以下拉普拉斯分布的概率密度函数，

98、

99、其中，μ通常取0，λ＝δf/∈。

100、另一方面，本发明还提供一种基于多智能体深度强化学习的分布式资源隐私保护能量调度系统，该系统包括：

101、eh模型构建模块，用于结合热电联产chp、电热锅炉eb、电转气设备p2g和能量存储系统ess构建eh模型；

102、约束条件定义模块，用于基于热电联产chp、电热锅炉eb、电力变燃气p2g建立含能量平衡约束、设备运行约束和储能设备约束的eh模型运行约束条件；

103、优化调度模型构建模块，用于基于上述约束条件和在考虑碳交易成本的情况下，构建优化调度模型，使得总经济成本最小化；

104、调度问题解决模块，用于基于分布式深度强化学习算法对eh模型进行实时最优能量调度，并在利用强化学习训练优化调度模型时，引入差分隐私保护策略保护eh内的敏感数据，因而，解决具有数据隐私保护的能源互联网集群调度问题。

105、有益效果：与现有技术相比，本发明具有以下优点：本发明首先构建了含热电联产、电热锅炉、p2g装置和储能系统等分布式资源集群的eh模型；其次，建立了含能量平衡约束、设备运行约束和储能设备约束的eh运行约束条件；然后，在考虑碳交易成本的情况下，建立目标函数，使得总经济成本最小化，建立总运行经济成本最小化的优化调度模型；最后，基于分布式深度强化学习算法对eh实时最优能量调度方法，并引入差分隐私保护策略保护eh内的敏感数据，解决具有数据隐私保护的能源互联网集群调度问题。

106、且本发明针对大规模、多个能量枢纽集群提出的上述隐私保护及优化调度策略，将能量枢纽最优调度问题转化为深度强化学习模型，去处理具有高维状态和动作空间的复杂任务。通过多个智能体之间的协同训练，学习协作策略，使整个能源系统的性能和利用率最大化，并在优化和调度过程中保护敏感隐私数据。本发明填补了在大规模能量枢纽集群情况下，以较低成本进行优化调度并保护隐私策略的空白。