技术新讯 > 发电变电,配电装置的制造技术 > 基于MADDPG和帕累托前沿相结合的微电网群优化调度方法及系统与流程  >  正文

基于MADDPG和帕累托前沿相结合的微电网群优化调度方法及系统与流程

  • 国知局
  • 2024-09-05 15:04:39

本发明涉及微电网群优化调度,尤其涉及一种基于maddpg和帕累托前沿相结合的微电网群优化调度方法及系统。

背景技术:

1、随着全球能源需求的增长和环保标准的提升,微电网作为一种集成可再生能源的关键平台,正日益受到关注。微电网通过整合风力、光伏、火力发电及储能设备等多种能源形式,不仅能够提高能源的利用效率,还能实现能源供应的灵活性和优化。这些系统在连接至主电网时,可以增强电力系统的稳定性和负载响应能力;在主电网失效时,它们也能独立运行,保证关键区域的电力供应,极大地提升了供电的安全性和可靠性。

2、微电网的高度自主性和能源管理的灵活性,为其在特定地区或社区提供了独立或辅助的电力支持。然而,随着技术的进步和应用场景的拓展,单个微电网的功能和效益往往受限于其规模和所处的地理位置。在这种背景下,微电网群的概念应运而生。微电网群由多个微电网节点组成,这些节点在保持各自独立运营的同时,还能通过互联互通的方式实现能源和信息的共享,从而大大提高整体的能源效率和经济效益。

3、微电网群的管理和优化调度面临着比单个微电网更加复杂的挑战。每个微电网节点都具备一定程度的自主性,并需要处理各自的能源生产和消耗,同时还需要与其他节点进行能源交换。这不仅要求有一个高效的系统来协调和优化整个微电网群的操作,还要求该系统能够适应快速变化的环境和复杂的多目标决策需求。主要的技术挑战包括如何实时响应能源需求的波动、如何优化可再生能源的利用、如何协调各个节点间的能源交换,如何防范和应对潜在的系统故障或外部干扰等。

4、传统的控制方法往往难以有效处理微电网群内部复杂的动态关系和外部环境的不确定性。微电网群的优化调度需要考虑如何在减少碳排放、降低能源成本和提高供电可靠性之间找到最佳平衡。此外,可再生能源的高度波动性和不可预测性进一步增加了调度策略的复杂度。

技术实现思路

1、本发明的目的是提供一种基于maddpg和帕累托前沿相结合的微电网群优化调度方法、装置及设备,旨在有效处理动态复杂环境中的连续动作空间问题,通过整合多目标优化工具,支持决策者在经济效益、环境影响和供电可靠性之间寻求最佳平衡,从而实现资源的高效利用和优化环境绩效。

2、本发明提供了一种基于maddpg和帕累托前沿相结合的微电网群优化调度方法,包括:

3、根据微电网群的多重目标及与微电网群调度优化相关的关键因素,建立微电网群优化调度模型,所述多重目标至少包括经济成本、环境影响及安全运行目标,与微电网群调度优化相关的关键因素包括储能系统的优化运行、柴油机及设备的操作约束;

4、建立基于多智能体深度强化学习的模型,将微电网群调度问题框架化为马尔可夫决策过程,并定义相应的状态空间、动作空间以及奖励函数,生成多智能体强化学习模型;

5、基于maddpg算法对处于训练初始阶段的多智能体强化学习模型进行初始优化操作并进行训练,所述初始优化操作包括基于maddpg算法引入ou过程来向强化学习中的策略添加噪声;

6、采集历史数据分析以获得关键能源输出和负载需求的波动曲线,并计算得到微电网群在不同行为模式下的最优策略的帕累托前沿,选择奖励值较高的策略作为最终输出结果。

7、作为优选地,所述建立微电网群优化调度模型包括多个微电网节点,每个节点包括风力发电、光伏发电、柴油发电、负载及储能设施,

8、分别将风力发电、光伏发电及负载t时刻输出功率配置为、和;

9、确定并配置储能设施中储能电池当前时刻的剩余电量与前一时刻的剩余电量、储能电池功率及充放电效率的关系,储能状态更新的计算如下:

10、,

11、充放电约束:和,

12、储能容量约束:,

13、其中,和表示时间t和时间t+1时的储能状态,δt表示时间间隔,、和分别表示储能衰减系数、充电效率和放电效率,和表示充电和放电功率;

14、配置柴油发电作为微电网群的后备电源,柴油发电机的燃料成本计算如下:

15、;

16、柴油发电机在t时刻的输出功率需满足如下爬坡约束:

17、;

18、其中,为t时刻柴油发电机总燃料成本,为柴油发电机输出功率,a 、b为方程系数,用于计算燃料耗量,为柴油发电机消耗单位燃料所需费用。

19、作为优选地,所述建立微电网群优化调度模型还包括:

20、配置运行时单个微电网节点在任意时刻t内部需维持电力平衡,需满足如下公式:

21、,

22、电量交换的约束条件:,

23、配置整个微电网群在t时刻的电力平衡则表述为如下公式:

24、,

25、式中,为微电网节点与主电网进行交易的电量,、分别为节点j到节点i的输入电量与节点i到节点j的输出电量,j∈n,、为0/1变量,当节点i向节点j输出电量时,该变量取值为1,否则取值为0;当节点j向节点i输入电量时,该变量取值为1,否则取值为0。

26、作为优选地,所述建立微电网群优化调度模型还包括:

27、以最大化整个微电网群在t个时间间隔内的总收益为目标,建立第一目标函数:

28、,

29、其中,为储能系统的成本,包括功率损耗和维护管理费用,表示为:

30、,

31、为柴油发电机的维护成本表示为:

32、,

33、为电力交易收入,当为正时,为售电,对应的售电价格为;当为负时,为买电,对应的买电价格为,计算公式如下:

34、,

35、以最小化整个系统的碳排放为目标,建立第二目标函数:

36、,

37、以最小化所有成本和碳排放的总和为总目标函数,建立总目标函数:

38、,

39、其中,为t时刻柴油机总燃料成本,为单位功率操作成本,为单位功率维护成本,ef为碳排放因子,为碳排放定价。

40、作为优选地,所述建立基于多智能体深度强化学习的模型包括:

41、定义状态空间,所述状态空间包含风力发电量、光伏发电量、柴油发电量、储能状态、当前负载需求,以及与邻近节点及主电网的电力交易价格和历史交易数据及与每个微电网节点的状态在任意时刻 t 的相关信息,状态空间表示为:

42、,

43、定义动作空间,所述动作空间包括调整各类发电设备的输出功率、储能设备的充电和放电决策、决定向邻近微电网买入或卖出的电量、以及与主电网的电力买卖及每个节点智能体能够采取的具有可能性的动作,动作空间表示为:

44、,

45、定义奖励函数,构建包括经济效益影响因素、环境影响因素、供电可靠性影响因素的多目标奖励函数:

46、,

47、其中,表示柴油发电维护成本,表示标量化奖励函数中各个子目标的优先级系数,表示对动作越界/不符合约束的惩罚;

48、根据智能体的状态、动作以及奖励函数对多智能体深度强化学习的模型进行训练,得到训练好的多智能体深度强化学习的模型。

49、作为优选地,所述基于maddpg算法对处于训练初始阶段的多智能体强化学习模型进行初始优化操作包括:

50、采用ou过程在actor网络的输出动作上添加噪声,ou过程通过随机微分方程描述:

51、,

52、其中,是时间t的过程状态,μ是长期均值,θ是速率常数,指示过程回归到均值的速度,σ是过程的挥发性,即噪声的强度,是一个标准wiener过程或布朗运动,表示随机扰动。

53、作为优选地,所述采集历史数据分析以获得关键能源输出和负载需求的波动曲线,并计算得到微电网群在不同行为模式下的最优策略的帕累托前沿,选择奖励值较高的策略作为最终输出结果进一步包括:

54、从微电网环境中获取当前时刻状态,输入到maddpg中actor网络中;

55、在训练初始阶段,采用ou过程向actor的动作输出添加噪声;

56、获取每个节点的历史数据和平均波动曲线,计算得到微电网群在不同行为模式下最优策略的帕累托前沿以获得满足所有考虑因素的帕累托最优解集;

57、在策略选择过程中,将通过训练的多智能体强化学习模型输出的策略的奖励值与帕累托前沿上距离最近的策略的奖励值进行对比,选择奖励值更高的策略作为输出,确保在满足多个优化目标的条件下实现最佳性能;

58、采用奖励函数对得到的动作进行打分,通过智能体与环境交互得到下一时刻状态,将当前状态、动作、奖励、下一时刻状态存入经验池;

59、从经验池中采集经验数据并继续输入模型,对actor网络和critic网络进行迭代训练直至策略收敛。

60、作为优选地,所述计算得到微电网群在不同行为模式下的最优策略的帕累托前沿,选择奖励值较高的策略作为最终输出结果包括:

61、当微电网群上具有不同供电能力的第一节点、第二节点和第三节点时,确定不同行为模式下的帕累托前沿;

62、若当前行为模式为经济效益最大化行为模式,所述帕累托前沿包括各种在收益最大化和成本最小化之间取得平衡的策略组合,则以最大化系统的总收益为目标,总收益包括发电收益和电力交易收入,最小化发电成本和储能成本,执行对应的第一策略,所述第一策略包括对第一节点优先利用风力发电,在电价大于阈值时将剩余电力卖给主电网;对第二节点优先利用光伏发电;对第三节点在电价小于阈值时从主电网购电并储存,在电价大于阈值时使用储能设备供电;

63、若当前行为模式为环境影响最小化行为模式,所述帕累托前沿包括各种在碳排放最小化和供电稳定性之间取得平衡的策略组合,则以最小化系统的碳排放为目标,执行对应的第二策略,所述第二策略包括对第一节点和第二节点均通过储能设备平衡供需;对第三节点优先采用储能设备的电力;

64、若当前行为模式为供电可靠性最大化行为模式,所述帕累托前沿包括各种在供电可靠性和经济成本之间取得平衡的策略组合,则以确保在负载波动和能源供给不稳定的情况下保持供电稳定为目标,总收益包括发电收益和电力交易收入,最小化发电成本和储能成本,执行对应的第三策略,所述第三策略包括对第一节点在风力发电不足时切换到储能设备供电;对第二节点在光伏发电不足时使用柴油发电机确保供电;对第三节点保持储能设备的充电水平处于饱和状态,以备在紧急情况下使用;

65、根据实际运营需求和策略优先级,从不同行为模式的帕累托前沿中选择最优策略操作;

66、其中,所述第一节点具有风力发电和储能设备,所述第二节点具有光伏发电和柴油发电机,所述第三节点具有负载和储能设备。

67、本发明还提供了一种基于maddpg和帕累托前沿相结合的微电网群优化调度系统,包括:

68、微电网群优化调度模型构建模块,用于根据微电网群的多重目标及与微电网群调度优化相关的关键因素,建立微电网群优化调度模型,所述多重目标至少包括经济成本、环境影响及安全运行目标,与微电网群调度优化相关的关键因素包括储能系统的优化运行、柴油机及设备的操作约束;

69、多智能体强化学习模型构建模块,用于建立基于多智能体深度强化学习的模型,将微电网群调度问题框架化为马尔可夫决策过程,并定义相应的状态空间、动作空间以及奖励函数,生成多智能体强化学习模型;

70、初始优化模块,用于基于maddpg算法对处于训练初始阶段的多智能体强化学习模型进行初始优化操作并进行训练,所述初始优化操作包括基于maddpg算法引入ou过程来向强化学习中的策略添加噪声;

71、比较决策模块,用于采集历史数据分析以获得关键能源输出和负载需求的波动曲线,并计算得到微电网群在不同行为模式下的最优策略的帕累托前沿,选择奖励值较高的策略作为最终输出结果。

72、本发明还提供了一种电子设备,包括:

73、存储器,所述存储器用于存储处理程序;

74、处理器,所述处理器执行所述处理程序时实现如本发明实施例所述的基于maddpg和帕累托前沿相结合的微电网群优化调度方法。

75、针对现有技术,本发明具有如下的有益效果:

76、本发明提出了一种基于maddpg和帕累托前沿相结合的微电网群优化调度方法,首先建立一个基于多智能体深度强化学习的模型,将微电网群调度问题框架化为马尔可夫决策过程,并定义了相应的状态空间、动作空间以及奖励函数,通过ornstein-uhlenbeck过程增加初始训练阶段的探索性,避免算法早期收敛到局部最优解。利用历史数据分析得到关键能源输出和负载需求的波动曲线,并计算得到策略的帕累托前沿,以此在训练后期选择奖励值较高的策略作为最终输出。该方法通过迭代训练直至策略收敛,确保了策略的最优性和系统在变化条件下的鲁棒性,特别是在应对可再生能源波动性方面表现出卓越的适应性。

77、本发明通过整合各类能源资源和设备的运行策略,有效地实现了成本效益最大化、环境影响最小化以及系统运行的最高安全性;模型通过设定多元化奖励函数,并灵活调整奖励权重,实现了多目标之间的有效平衡;模型在训练初期采用ou过程对动作添加噪声,增加了探索性,避免了算法过早收敛到局部最优解;并通过比较智能体输出的策略与帕累托前沿上策略的奖励值,选取了奖励值较高的策略作为最终输出,确保了在满足多目标优化的条件下实现最佳性能。这一系列措施不仅优化了决策过程,还提高了系统在应对可再生能源波动时的适应性和鲁棒性,增强了微电网群的整体运行效率和可靠性。

本文地址:https://www.jishuxx.com/zhuanli/20240905/289406.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。