一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

配电网风险动态提前预警方法、系统、装置及存储介质与流程

2022-03-23 06:42:49 来源:中国专利 TAG:
1.本发明属于配电网运行预警
技术领域
:,具体涉及一种基于强化学习算法的配电网风险动态提前预警方法、系统、装置及存储介质。
背景技术
::2.随着城市配电网技术的迅速发展,配电网建设逐步进入高可靠性阶段。根据统计,在用户停电事故中四分之三以上都是由配电网出现故障导致。同时,具有间歇性及不确定性的光伏、风电等分布式可再生能源大范围接入电网,对电网电压电流也产生了影响,使得配电网运行的风险大幅增加。因此,对配电网运行过程中存在的故障风险进行有效预警,以便及时采取风险防控措施,对保障供电安全性和可靠性显得尤为重要。3.传统的配电网风险预警方法,主要是基于潮流、电压、频率等状态监测数据,再对配电网的运行风险进行评估并预警。但配电网的网络拓扑结构复杂、分布相对分散、设备种类繁多、设备运行状态易受外部因素影响等特点,使采用传统方法进行风险预警时所耗用的时间较长,相应的造成了预警响应时间过长,导致最终的预警效率偏低。技术实现要素:4.本发明的目的在于提供一种基于强化学习算法的配电网风险动态提前预警方法、系统、装置及存储介质,以解决现有技术中目前传统依靠潮流计算的预警方法因耗用时间过长而导致的预警效率低,预警不及时等问题。5.为了实现上述目的,本发明采用如下技术方案:6.本发明的第一方面,提供了一种基于强化学习算法的配电网风险动态提前预警方法,包括如下步骤:7.获取配电网在线运行数据及预测的用户侧日负荷数据;8.将所述配电网在线运行数据及预测的用户侧日负荷数据作为状态输入预设的配电网风险动态提前预警模型;9.所述配电网风险动态提前预警模型输出存在风险的配电网线路和节点。10.可选的,所述配电网风险动态提前预警模型的获取方式如下:11.获取配电网风险预警所涉及的配电网历史数据作为数据源,将配电网历史数据转化为适合强化学习算法的原始样本集;12.使用原始样本集建立配电网系统环境模型,并构建智能体的深度强化学习模型,所述配电网系统环境模型用于接收深度强化学习模型的动作,并向深度强化学习模型反馈奖励/惩罚函数;其中,奖励/惩罚函数包括配电网风险评估指标;13.利用深度强化学习模型和配电网系统环境模型进行离线训练和学习,得到配电网风险动态提前预警模型。14.可选的,原始样本集获取方式如下:15.将配电网历史运行数据转化为k×n矩阵格式的数据集x;k为历史记录条数,n为用于评估配电网风险的影响因素个数加1;16.对数据集进行清洗:包含数据空缺值处理、数据异常值处理、数据重复值处理;17.使用核主成分分析对清洗后的数据集进行特征提取,确定配电网风险预警中核心的数据特征序列{x1,x2,…,xm},其中m∈[1,n-6];[0018]基于数据特征序列{x1,x2,…,xm}和必要影响特征生成适合强化学习算法的原始样本集y。[0019]可选的,所述配电网风险评估指标包括节点电压越界及线路过载。[0020]可选的,构建配电网系统环境模型,具体方式如下:[0021]设置智能体状态空间,包括配电网拓扑结构、发电机的有功功率输出pg和电压设定值un、负载消耗功率pl、每条线路的传输功率(线路流量)pl、传输功率损耗ploss、各节点电压ui;[0022]设置智能体动作空间,配电网中一共含有n个节点和m条线路,动作空间包括所有节点xi和线路yj可能存在的所有状态,其中i∈(0,1,…,n),j∈(0,1,…,m);每个节点存在三种状态xi∈(0,1,2),分别代表:0电压正常、1正电压越界、2负电压越界三;每条线路存在两种状态yj∈(0,1),分别代表:0线路正常、1线路过载;[0023]动作输出集合t={(x1,…,xi),(y1,…,yj)};[0024]设置智能体奖励/惩罚机制;[0025]通过上述步骤得到配电网系统环境模型。[0026]可选的,设置智能体奖励/惩罚机制,具体方式如下:[0027]记录当前所有状态电压越界节点xa(a≤(1,n),xa∈(1,2))和过载线路yb(b≤(1,m),yb=1),输出集合f={(x1,…,xa),(y1,…,yb)}包含所有电压越界节点和过载线路;[0028]将集合t和集合f中的节点xi和线路yj一一进行比对;[0029]当a=i时,若xa=xi,则r1=100;[0030]当b=j时,若yb=yj,则r2=100;[0031]若相邻节点或线路的状态相同并且不包括0状态时,r3=40;[0032]令15min为一个时间步,每个时间步长环境模型反馈给智能体的总奖励为:r=r1 r2 r3。[0033]可选的,构建深度强化学习模型,具体方式如下:[0034]初始化回放记忆单元d,能够容纳的数据条数为n;初始化真实q网络,随机生成权重ω;初始化目标q网络,权重同样为ω;[0035]循环遍历,每次事件episode=1,2,…,m,m为总天数;初始化第一个状态s1;[0036]以15min为间隔,循环遍历每个事件的每一步step=1,2,…,t;[0037]用∈-greedy策略生成动作at:以∈概率选择一个随机的动作at;如果小概率事件没发生,则用贪婪策略选择当前值函数最大的动作;at=argmaxaq(st,a,ω);[0038]在配电网系统环境模型中执行动作at,接收奖励rt及新的状态st 1;将转换结果(st,at,rt,st 1)存入回放记忆单元d中;[0039]从回放记忆单元d中均匀随机采样一个转换样本数据(sk,ak,rk,sk 1);判断是否是一个事件的终止状态,若是终止状态,利用td目标网络参数ω计算td回报(reward):[0040][0041]执行一次梯度下降算法:[0042][0043]更新动作值函数逼近的网络参数θ=θ δθ;每隔c步更新目标q网络;[0044]结束每次事件内循环;结束事件间的循环;[0045]得到dqn强化学习模型。[0046]本发明的第二方面,提供了一种用于所述基于强化学习算法的配电网风险动态提前预警方法的系统,包括:[0047]数据获取模块,用于获取配电网在线运行数据及预测的用户侧日负荷数据;[0048]预测模块,用于将所述配电网在线运行数据及预测的用户侧日负荷数据作为状态输入预设的配电网风险动态提前预警模型;所述配电网风险动态提前预警模型输出存在风险的配电网线路和节点。[0049]本发明的第三方面,提供了一种计算机装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的基于强化学习算法的配电网风险动态提前预警方法。[0050]本发明的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时,实现所述的基于强化学习算法的配电网风险动态提前预警方法。[0051]与现有技术相比较,本发明的有益效果如下:[0052](a)本发明提供的基于强化学习算法的配电网风险动态提前预警方法,利用人工智能算法解决配电网风险动态提前预警,将配电网风险预警问题转化成马尔科夫决策过程,选取配电网的网络结构、发电量及负荷量等作为状态,将判断所有节点和线路是否存在风险作为动作,将风险预警的正确性作为奖励,再利用don强化学习算法训练配电网风险预警模型。对于在线配电网只需输入其对应的状态,就可判断该电网是否存在风险,又因为判断过程无需对整个配电网进行潮流计算,所耗用的时间较短,因而基于强化学习方法的配电网风险动态提前预警方法具有运算速度快、效率高等优点。[0053](b)本发明采用的dqn算法即为强化学习领域中应用广泛,且性能优异的算法,融合了深度神经网络和q-learning的强化学习算法,与传统的q-learning算法相比,拥有深层次的神经网络,储存的动作也更多,可以很好解决“维数灾”的问题,适合用来决策各种离散动作。附图说明[0054]构成本技术的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:[0055]图1为本发明实施例基于强化学习算法的配电网风险动态提前预警方法流程图;[0056]图2为本发明实施例中强化学习智能体与环境交互的过程结构图;[0057]图3为本发明实施例中dqn强化学习算法训练过程结构图;[0058]图4为本发明实施例中马尔科夫决策过程(mdp)流程图。具体实施方式[0059]下面将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。[0060]以下详细说明均是示例性的说明,旨在对本发明提供进一步的详细说明。除非另有指明,本发明所采用的所有技术术语与本技术所属领域的一般技术人员的通常理解的含义相同。本发明所使用的术语仅是为了描述具体实施方式,而并非意图限制根据本发明的示例性实施方式。[0061]本发明实施例第一方面,提供了一种基于强化学习算法的配电网风险动态提前预警方法,利用人工智能算法解决配电网风险动态提前预警,原理是:首先将配电网风险预警问题转化成马尔科夫决策过程,选取配电网的网络结构、发电量及负荷量等作为状态,将判断所有节点和线路是否存在风险作为动作,将风险预警的正确性作为奖励,再利用don强化学习算法训练配电网风险预警模型。对于在线配电网只需输入其对应的状态,就可判断该电网是否存在风险,又因为判断过程无需对整个配电网进行潮流计算,所耗用的时间较短,因而基于强化学习方法的配电网风险动态提前预警方法具有运算速度快、效率高等优点。[0062]如图1所示,本发明提供的基于强化学习算法的配电网风险动态提前预警方法,使用强化学习算法模型自主学习风险预警过程,训练完成的模型可以根据当前配电网状态立刻判断出是否存在风险以及存在风险的位置,包括如下步骤:[0063]步骤1:数据预处理,选取某地区配电网历史数据作为数据源,将配电网理论风险预警所涉及的历史数据转化为适合强化学习算法的原始样本集。[0064]具体的,本实施例中将配电网风险预警中存在的影响因素进行举例,如有功供电量p、无功供电量q、线路总长度、温度、季节因素等,并通过核主成分分析确定其中导致电网出现风险影响最大的几类因素,以减少运算量。导致电网出现风险影响最大的几类因素所涉及的历史数据作为数据源。[0065]应用于本发明的实施例,核主成分分析(kernelprincipalcomponentsanalysis,kpca)是一种适用于非线性主特征提取的算法,其改进于线性的主成分分析(principalcomponentsanalysis,pca)。kpca的核心思想是对于原n维欧氏空间rn中存在复杂非线性关系的原始数据通过核函数映射的方式变换hilbert特征空间,使之在希尔伯特(hilbert)空间呈现出线性关系,并在hilbert空间利用线性pca做主成分提取。[0066]本发明中数据预处理过程主要由下列四个子步骤构成:[0067]步骤11:将已知某地区配电网历史运行数据记录转化为k×n矩阵格式的数据集x;k为历史记录条数,n为用于评估配电网风险的影响因素个数加1;[0068]具体的,在矩阵格式的数据集中,每一行代表一条配电网某时运行数据,各列分别代表影响配电网是否存在运行风险的各种因素,如:有功供电量p、无功供电量q、电压设定值un、负载消耗功率pl、线路理论线损值、线路总长度、温度、季节因素等。[0069]步骤12:对数据集x进行清洗:包含数据空缺值处理、数据异常值处理、数据重复值处理。[0070]具体的,数据空缺值处理:对记录缺失和记录中的某个缺失字段缺失进行剔除或补充;数据异常值处理:对偏差过大的数据进行剔除或替换;数据重复值处理:对重复的数据进行剔除。[0071]步骤13:对清洗后的数据集x进行特征提取,使用核主成分分析确定所述配电网风险预警中较为核心的数据特征序列{x1,x2,…,xm},其中m∈[1,n-6];[0072]具体的,由于配电网风险预警中存在多种影响因素,为简化评估过程需从中确定对配电网风险影响较大的部分(数量依据实际情况而定)核心因素{x1,x2,…,xm},m∈[1,n-6],作为数据特征。同时,一些必要影响因素(包括发电机有功功率pg、电压设定值un、负载消耗功率pl、理论传输功率损耗pioss、各节点电压ui)不进行特征提取,必须出现在配电网的环境模型中。[0073]对除去必要影响因素的其他因素进行特征提取,配电网风险评估的实际影响因素在原数据样本空间中往往呈现出复杂的非线性关系,因而很难直接判别出哪些因素影响最大,本方法采用核主成分分析将原数据样本中各种配电网风险评估影响因素映射到hilbert空间,从而使之在hilbert空间中呈现出线性关系,以确定对配电网风险影响最大的(数量依据实际情况而定)核心因素{x1,x2,…,xm}。具体过程如下:[0074]引入从原样本空间rn到hilbert空间的变换x=φ(x),即:[0075]rn→hilbert[0076]x→x=φ(x)[0077]并设定φ(xi)已经完成中心化,计算hilbert空间中各点的协方差矩阵c;[0078]求解λv=cv中的λ和非零λ对应的特征向量v,其中v一定处于由φ(x1),φ(x2),…,φ(xm)构成的空间中,则v可表示为此时原问题变为求解αi,得关于α的对偶特征方程mλα=kα,α=[α1…αm]t,其中kij=<φ(xi),φ(xj)>是gram矩阵;令λn<αn,αn>=1,即特征向量单位化;再计算各φ(xi)在v上的投影gi(x),其中gi(x)是对应于φ(xi)的非线性主成分分量;[0079]将所有投影值gi(x)组合成一个矢量g(x)=[g1(x),…,gn(x)]t,作为样本的特征向量;比值表示了分量gi(x)对样本总体方差的贡献度,选取若干个(数量依据实际情况而定)特征值最大的λi对应的特征向量vi构成实验所需的特征子空间,即完成数据特征提取。[0080]步骤14:按照步骤13确定的数据特征序列{x1,x2,…,xm}和必要影响特征生成适合强化学习算法的原始样本集y,y为k×(m 6)矩阵,样本集y中,每一行代表一条已知配电网某时运行数据,各列分别代表步骤13得到的核心数据特征序列{x1,x2,…,xm}和必要影响特征。[0081]步骤2:建立配电网风险评估指标;[0082]当输电线路发生故障停运时,有功潮流将发生转移,故障点附近存在线路过载和节点电压越界的风险。指标为:线路过载:节点电压越界:[0083]步骤3:使用预处理后的数据建立配电网系统环境模型,并构建智能体的深度强化学习模型。将风险评估指标融入奖励(惩罚)函数,利用dqn强化学习模型和模拟环境进行离线训练和学习,得到满足误差要求的配电网风险动态提前预警模型;[0084]具体的,强化学习可有效的解决复杂物理系统控制与决策问题,图2为强化学习智能体与系统环境交互过程。系统环境每执行一次智能体给出的动作(action),会返回新的系统状态(state)并计算相应的奖励值(reward);而智能体根据当前状态,以输出能够最大化奖励期望值的控制动作为目标,在与实际环境交互过程中不断学习并改进动作策略。[0085]作为示例,在传统的q学习算法中,由于维数灾难,强化学习难以解决大规模mdp问题。于是在q学习算法和深度神经网络的基础上发展出了深度强化学习代表性的算法,深度q网络(deepqnetwork,dqn)。该方法通过神经网络拟合动作价值函数,在有限的状态与环境交互过程中学习到所有状态-动作对的q值,从而学习到最优策略。[0086]如图3所示,图3为dqn算法训练过程,步骤3具体包括下列步骤:[0087]步骤31:构建配电网系统环境模型;[0088]应用于本发明的实施例,配电网系统环境模型是同智能体进行交互的电力系统环境,即对于强化学习智能体给出的每一个动作,都可以计算出在此策略下是否存在风险,并反馈奖励函数,更新策略,不断迭代至学习到最优策略。[0089]作为示例,电网本质上是由连接到负载、发电机和电力线的变电站相对应的节点组成的图形。发电机发电,负载用电,电力线在变电站之间输电。将变电站与输电线路分别视作节点和边,使用无向图g(v,e)表示电网拓扑,其中v为节点集,e为边集。[0090]本实施例中,每个变电站2根母线,即为双母线系统。连接到变电站的元件,即负载、发电机和电力线,可以分配给一个并且电力仅通过同一母线上的元件传输。因此,将每个变电站视为分成两个节点。其他潮流计算部分由潮流计算软件matpower计算。[0091]本实施例中,将环境形式化为马尔可夫决策过程(markovdecisionprocess,mdp)。[0092]具体来说,mdp可以被定义为一个元组(s,a,p,r,γ),分别代表状态空间,动作空间,状态转移概率,回报函数和折扣因子。代理从环境中观察到状态st∈s,并在时间步长t采取行动at∈a,代理以概率p(st 1|st,at)到达新的状态st 1,同时接收奖励r(st,at,st 1)。其状态转化过程如图4所示。[0093]步骤32:智能体状态空间;[0094]具体的,配电网的状态由配电网环境模型中提取的各种特征组成。包括配电网拓扑结构(每条电力线的连通性和每个变电站中的母线分配)、发电机的有功功率输出pg和电压设定值un、负载消耗功率pl、每条线路的传输功率(线路流量)pl、传输功率损耗ploss、各节点电压ui等。[0095]步骤33:智能体动作空间;[0096]本实施例中,通过强化学习模型直接选择动作,无需进行复杂的计算。[0097]具体的,配电网中一共含有n个节点和m条线路,动作空间包括所有节点xi和线路yj可能存在的所有状态,其中i∈(0,1,…,n),j∈(0,1,…,m)。每个节点存在三种状态xi∈(0,1,2),分别代表:0电压正常、1正电压越界、2负电压越界三;每条线路存在两种状态yj∈(0,1),分别代表:0线路正常、1线路过载。[0098]动作输出集合t={(x1,…,xi),(y1,…,yj)}。[0099]步骤34:智能体奖励(惩罚)机制;[0100]应用于本发明的实施例,智能体在时间周期内通过持续学习最大化其累计回报,针对配电网系统,设置智能体奖励(惩罚)机制,使得预测的电压越界节点以及过载线路尽可能准确。具体方式为:[0101](1)记录当前所有状态电压越界节点xa(a≤(1,n),xa∈(1,2))和过载线路yb(b≤(1,m),yb=1),输出集合f={(x1,…,xa),(y1,…,yb)}包含所有电压越界节点和过载线路;[0102](2)将集合t和集合f中的节点xi和线路yj一一进行比对;[0103](3)当a=i时,若xa=xi,则r1=100;[0104](4)当b=j时,若yb=yj,则r2=100;[0105](5)若相邻节点或线路的状态相同(不包括0状态)时,r3=40;[0106]令15min为一个时间步,每个时间步长环境模型反馈给智能体的的总奖励为:[0107]r=r1 r2 r3[0108]步骤35:dqn算法流程;[0109]本实施例中,通过dqn把q-table更新转化为一函数拟合问题,通过拟合一个函数来代替q-table产生q值,使得相近的状态得到相近的输出动作深度神经网络对复杂特征的提取有很好效果,所以将deeplearning与reinforcementlearning结合,产生dqn算法。[0110]优选的,dqn算法的另一部分创新在于,通过experiencereplay(经验池)的方法来解决相关性及非静态分布问题;使用一个真实网络产生当前q值,使用另外一个目标网络产生targetq。[0111]具体算法流程如下:[0112](1)初始化回放记忆单元d,可容纳的数据条数为n;[0113](2)初始化真实q网络,随机生成权重ω;[0114](3)初始化目标q网络,权重同样为ω;[0115](4)循环遍历,每次事件episode=1,2,…,m(m为总天数);[0116](5)初始化第一个状态s1;[0117](6)循环遍历每个事件的每一步step=1,2,…,t;(以15min为间隔,将一天分成96个点,t=96);[0118](7)用∈-greedy策略生成动作at:以∈概率选择一个随机的动作at;如果小概率事件没发生,则用贪婪策略选择当前值函数最大的那个动作;[0119][0120](8)在配电网系统环境模型中执行动作at,接收奖励rt及新的状态st 1;[0121](9)将转换结果(st,at,rt,st 1)存入d中;[0122](10)从d中均匀随机采样一个转换样本数据(sk,ak,rk,sk 1);[0123](11)判断是否是一个事件的终止状态,若是终止状态利用td目标网络参数ω计算td回报(reward)[0124](12)执行一次梯度下降算法;[0125][0126](13)更新动作值函数逼近的网络参数θ=θ δθ;[0127](14)每隔c步更新目标q网络;[0128](15)结束每次事件内循环;结束事件间的循环。[0129]经过上述几个步骤的训练学习之后,形成基于强化学习算法的风险动态提前预警模型,从而实现对配电网风险的准确预警。[0130]步骤4:直接使用预测的电力用户日负荷数据表示用户侧负荷特性,利用配电网风险动态提前预警模型在线进行配电网风险提前预警。包括下列步骤:[0131]步骤41:将配电网在线运行数据及预测好的负荷数据作为状态输入到配电网风险动态提前预警模型;[0132]步骤42:直接输出存在风险的配电网线路和节点。[0133]本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。[0134]本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。[0135]这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。[0136]这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。[0137]由技术常识可知,本发明可以通过其它的不脱离其精神实质或必要特征的实施方案来实现。因此,上述公开的实施方案,就各方面而言,都只是举例说明,并不是仅有的。所有在本发明范围内或在等同于本发明的范围内的改变均被本发明包含。当前第1页12当前第1页12
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献