技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于鲁棒柔性行动器-评判器的电力系统风险调度方法  >  正文

一种基于鲁棒柔性行动器-评判器的电力系统风险调度方法

  • 国知局
  • 2024-07-31 22:58:01

本发明涉及基于人工智能的电力系统不确定性经济调度领域,具体是一种基于鲁棒柔性行动器-评判器的电力系统风险调度方法。

背景技术:

1、高比例新能源的接入对电力系统安全运行造成巨大的挑战。运行越限风险能够从概率性和严重性两个层面反映新能源不确定性对电网安全的影响。因此,考虑越限风险量化与管控下的不确定性经济调度,是保障电力系统安全、可靠运行的有效途径。

2、现有针对新能源接入下运行越限风险的研究主要有两方面:1)作为安全评估指标,对已制定调度计划进行安全校核,其局限性在于无法在调度计划制定时将越限风险严格控制在可接受范围内;2)量化越限风险并纳入优化目标函数或约束条件。然而,该方法忽略了越限风险的时空相关性。

技术实现思路

1、本发明的目的是提供一种基于鲁棒柔性行动器-评判器的电力系统风险调度方法,包括以下步骤:

2、1)考虑设备时序运行越限风险与新能源预测误差联合概率分布,构建考虑时空越限风险约束的风险调度模型;

3、2)提出鲁棒约束马尔可夫决策过程,对考虑时空越限风险约束的风险调度模型进行重构,构建基于鲁棒约束马尔可夫决策过程的风险调度代理模型;

4、3)引入条件风险价值cvar作为风险调度代理模型的安全勘测指标,引入熵约束和越限成本约束,对鲁棒约束马尔可夫决策过程的风险调度代理模型进行优化,得到最优风险调度代理模型;

5、4)引入原对偶优化策略,构建基于鲁棒柔性行动器-评判器的安全深度强化学习架构,并利用该安全深度强化学习架构求解最优风险调度代理模型,得到电力系统最优调度策略。

6、进一步,所述考虑时空越限风险约束的风险调度模型如下所示:

7、

8、式中,x为表征运行周期内系统运行的决策变量向量;y表示系统除决策变量以外的其余状态变量构成的向量;t为调度周期;ft(x)表示成本函数;h(x,y)=0为交流潮流等式约束集;ax+dy+e≤0表示线性不等式约束集;g(x,y)≤0表示风险约束集;t为时间;a、d为系数;e为常数。

9、进一步,考虑时空越限风险约束的风险调度模型中,决策变量向量包括各时间断面下的机组出力、预留备用容量,除决策变量以外的其余状态变量包括节点电压、支路潮流功率。

10、进一步,交流潮流等式约束如下所示:

11、

12、式中,下标g、w、i分别表示常规机组编号、新能源机组编号、节点号;上标t表示时刻;分别表示第g台机组在t时刻的有功与无功功率;分别表示节点i在t时刻的有功与无功负荷;表示第w台新能源机组在t时刻的出力;为节点i在t时刻的电压幅值;gii、bii分别为节点i的对地电导与电纳;gi、wi分别表示接入节点i的常规机组与新能源机组集合;bi表示与节点i连接的支路集合;

13、支路i-j在t时刻的有功传输功率与无功传输功率如下所示:

14、

15、式中,gij、bij分别为支路i-j的电导与电纳;为节点i与节点j在t时刻的电压相角差;为节点j在t时刻的电压幅值;。

16、进一步,所述线性不等式约束包括机组容量约束、机组爬坡约束、新能源出力约束、旋转备用约束、电压安全约束、线路容量约束;

17、机组容量约束如下所示:

18、

19、式中,表示第g台机组在t时刻的运行状态二进制变量;分别表示第g台机组在t时刻的有功与无功功率;上标max、min分别为各变量对应的上限和下限;表示有功功率的上下限;表示无功功率的上下限;

20、机组爬坡约束如下所示:

21、

22、式中,rg、vg分别为机组g的爬坡速率与开机/关机速率;表示第g台机组在t-1时刻的运行状态二进制变量;为第g台机组在t-1时刻的有功功率;

23、旋转备用约束如下所示:

24、

25、式中,nl为负荷节点数;ρ表示旋转备用率;ng为机组数;表示节点i在t时刻的有功负荷;

26、新能源出力约束如下所示:

27、

28、式中,分别表示第w台新能源机组在t时刻的最小与最大预测出力;表示第w台新能源机组在t时刻的出力;

29、电压安全约束如下所示:

30、

31、式中,为节点i在t时刻的电压幅值上下限;

32、线路容量约束如下所示:

33、

34、式中,为支路i-j在t时刻的有功传输功率上限。

35、进一步,所述风险约束包括支路过载风险约束、电压越限风险约束;

36、支路过载风险约束如下所示:

37、

38、

39、式中,(·)+表示取正值,即表示max{·,0};db表示可接受的阈值,且根据调度偏好设定,当db≤0时,表示一个特定的安全裕度,否则表示风险阈值;ζ表示风电预测误差向量,是一个不确定性变量,且服从联合概率分布函数ρ;表示支路i-j在t时刻的支路过载程度,其是关于ζ的函数;tv表示可接受的最大越限持续时间;pr{x}=1-f(x)表示x的概率;其中f(x)表示x的累积概率分布函数;表示越限持续时间;b表示支路集合;

40、电压越限风险约束如下所示:

41、

42、式中,分别表示第i个节点的在t时刻的过电压、欠电压程度;i表示节点集合;di表示可接受的电压越限阈值;di→0。

43、进一步,基于鲁棒约束马尔可夫决策过程的风险调度代理模型如下所示:

44、

45、

46、

47、式中,e[]表示期望;χt=(st,at,…st,at.)表示从时间节点t之后遵循策略π的决策轨迹;表示遵循轨迹χt的所产生的累积折现成本;qc(st,at,ζ)是累积折现成本cπ,ρ的期望;表示轨迹χt与环境相互作用产生的越限风险上限;γ为折扣因子;

48、其中,状态st如下所示:

49、

50、式中,下标“w”、“g”、“b”分别为风电场集合、发电机组集合、支路集;为有功负荷;为发电机组有功功率;为支路越限持续时间;

51、动作at如下所示:

52、

53、

54、

55、

56、式中,dg、ug分别表示机组的向上爬坡速率向量与向下爬坡速率向量;t60、t10表示时间间隔;t60>t10;为机组功率变化量;为向上旋转备用容量;为向下旋转备用容量;为发电机组有功功率上下限;

57、成本cπ,ρ(st,at,ζ)如下所示:

58、cπ,ρ(st,at,ζ)=[cb,ci,cp]|π,ρ   (20)

59、

60、

61、

62、

63、式中,π为动作策略分布,表示在某一运行状态下采取的调度策略;c表示约束越限的成本;cb和ci分别表示支路过载和电压越限的风险;cp指节点功率不平衡量;m(τ)表示权重函数,用于量化越限持续时间对系统运行的影响;m为常数;τ为越限持续时间;

64、奖励rt如下所示:

65、

66、

67、

68、

69、

70、

71、

72、式中,表示运行成本;和分别表示弃风和切负荷的惩罚成本;表示对违反约束的惩罚;ag,bg,cg,ug,dg分别表示机组常、一次、二次、向上和向下旋转备用成本系数;λw,λl,λu分别表示惩罚成本系数;d=(db,di,dp);表示由不确定性引起的节点i的不平衡注入功率;表示第w个风电场的实际并网功率;ζw表示风电预测误差向量;表示第i个节点的实际有功功率。

73、进一步,最优风险调度代理模型如下所示:

74、

75、

76、式中,fπ,ρ表示cπ,ρ的概率分布函数;α表示置信度;cvarα(cπ,ρ)表示条件风险价值;e表示期望;为概率分布函数;表示熵阈值。

77、进一步,所述基于鲁棒柔性行动器-评判器的安全深度强化学习架构包括生成器网络、动作网络、奖励价值评估网络、成本价值评估网络;

78、所述生成器网络通过拟合风电预测误差分布ρ来模拟r-cmdp环境的不确定性,构建从预测风电功率到模拟实际并网功率的映射空间;

79、所述生成器网络的价值函数如下所示:

80、

81、式中,d、g分别表示判别器网络和生成器网络;

82、所述动作网络根据当前系统运行环境状态输出动作,建立状态空间到动作空间的映射:

83、所述动作网络采用cvar评估函数减小采样空间;

84、cvar评估函数如下所示:

85、

86、式中,φ(·)和φ(·)分别表示标准正态分布的概率分布函数和累积概率分布函数;

87、所述奖励价值评估网络对调度策略的奖励q值进行评估,建立状态与动作到评估值的映射空间:

88、所述成本价值评估网络评估当前系统运行状态下,调度策略的越限成本的二阶中心矩和q值,建立状态与动作到评估值的映射空间:

89、进一步,所述奖励价值评估网络的损失函数如下所示:

90、

91、

92、式中,表示经验回放池;为奖励q值的分布式贝尔曼算子;为奖励q值;β表示熵温度;

93、所述成本价值评估网络的损失函数如下所示:

94、

95、

96、式中,jc(μ)、jv(η)表示损失函数;为成本价值评估网络奖励q值的分布式贝尔曼算子;表示奖励q值;为二阶中心矩;所述动作网络的损失函数jπ(θ)如下所示:

97、

98、式中,κc表示越限成本权重;πθ(at|st)为策略分布;γπ(st,at,α)为cvar评估函数;

99、熵温度β和越限成本权重κ通过最小化损失函数jh(β)和jd(κ)调整,即:

100、

101、

102、式中,为评估函数;

103、安全深度强化学习架构采用二阶梯度动量优化器adam进行优化训练,即:

104、

105、式中,分别表示第n次迭代时网络参数的权值与偏置,和分别是损失函数在前n次迭代过程中累积的二阶梯度动量,β1与β2为动量梯度系数,α为学习率,为梯度修正量,ε是为防止分母为0的一个常量。wn、bn表示迭代参数。

106、本发明的技术效果是毋庸置疑的,本发明面向电力系统安全运行的需求,提出sc-rd模型与r-sac求解算法,实现电力系统运行风险的精确量化与严格管控,保障电力系统安全可靠运行。

107、本发明所提的基于时空越限风险约束的不确定性调度模型,考虑了设备时序运行越限风险与新能源预测误差联合概率分布,能够真实反映电网承受能力与实际运行环境,为风险管控提供更翔实的信息,进而保障制定更准确的调度策略。

108、本发明所提的r-cmdp建模方法通过引入cvar作为智能体安全勘测指标探索sc-rd的安全可行域,搭建累积折现越限成本的二阶中心矩评估模块实现cvar的高效估计,提高智能体满足约束的能力,以保障电力系统安全运行。

109、本发明在技术上首次提出了一种r-sac的drl算法,用于应对sc-rd模型非凸、非线性、积分形式等特点对高效求解带来的难题,同时克服了现有drl在优化模型约束满足性上的关键技术瓶颈。该算法利用cgan充分挖掘风电空间相关性拟合预测误差的联合概率分布以模拟r-cmdp环境不确定性。在r-cmdp基础上,结合pdo策略实现神经网络参数化的r-cmdp的最大熵自适应学习,保障决策的高效性与全局最优性。

110、本发明所提的r-sac方法适用于任意规模、任意时间尺度、任意复杂模型的电力系统不确定性调度模型的求解。能够充分挖掘并捕捉实际电网运行环境的不确定性,并实现高效的决策。本发明所提算法大幅度地提高了drl在电力系统领域应用的安全性与可靠性,为推进电力系统智能化发展做出一定贡献。

本文地址:https://www.jishuxx.com/zhuanli/20240730/195520.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。