一种基于TD3的电力系统暂态稳定紧急控制策略生成方法与流程
- 国知局
- 2024-08-02 16:14:15
本发明涉及电力系统控制领域,具体是一种基于td3的电力系统暂态稳定紧急控制策略生成方法,用于提高电力系统在面临暂态失稳情况下的稳定性和鲁棒性。背景技术:::1、电力系统的暂态稳定性是指电力系统在遭受外部扰动后,能够在一定时间内恢复到新的平衡状态的能力。在面临突发故障或负荷波动时,电力系统可能面临暂态失稳的风险,导致电力系统崩溃或发生停电。因此,开发高效的暂态稳定控制策略对于确保电力系统的可靠运行至关重要。2、传统的电力系统控制方法主要依赖于经验规则和线性控制器,这些方法在复杂的非线性和时变电力系统中表现出限制。随着深度强化学习技术的发展,利用强化学习算法来设计电力系统暂态稳定控制策略成为一种备受关注的方法。然而,现有的方法往往面临收敛速度慢、稳定性差以及在实际电力系统中泛化能力不足等挑战。在实际电力系统中,由于系统的非线性和不确定性,传统控制方法难以提供足够鲁棒性的控制策略。因此,需要一种能够充分考虑电力系统的动态特性、非线性特性和多变因素的电力系统暂态稳定紧急控制策略生成方法。技术实现思路1、本发明的目的在于提供一种基于td3的电力系统暂态稳定紧急控制策略生成方法,通过深度强化学习的框架,结合离线经验回放缓冲区和双q学习的思想,实现了电力系统在面临暂态稳定性挑战时的紧急控制,通过训练actor网络和critic网络,该方法能够生成有效的控制策略,提高电力系统在突发事件下的暂态稳定性。2、一种基于td3的电力系统暂态稳定紧急控制策略生成方法,包括如下步骤:3、步骤一、构建电力系统暂态稳定紧急控制的td3模型;4、步骤二、初始化td3模型中actor网络和critic网络的参数;5、步骤三、构建td3模型的经验回放缓冲区,用于训练时样本的存取;6、步骤四、基于步骤二初始化后的actor网络和critic网络以及步骤三构建的经验回放缓冲区,使用td3算法对actor网络和critic网络进行离线训练;7、步骤五、基于步骤四离线训练后的td3模型在电力系统实时场景中生成紧急控制策略并实施以维持暂态稳定性。8、进一步的,所述步骤一具体包括:9、步骤1.1:定义电力系统状态集合st={δgi(t),vnj(t)},其中δgi(t)表示t时间的第i台发电机的功角,vnj(t)表示t时间的第j个节点的电压幅值,st作为神经网络的输入层输入;10、步骤1.2:定义电力系统输出动作集合at={kg1,kg2,...,kgm,kl1,kl1,...,kll},其中kgi表示第i台发电机的切除系数,i=1,2,...,m;klj表示第j个负荷的切除系数,j=1,2,...,l,切除系数k表示对当前发电机/负荷的切除量占当前发电机/负荷额定容量的比例,0≤k≤1;11、发电机的切除控制按照整台切除来设置,即:12、13、负荷的切除控制按照一定间隔p%来设置,即:14、15、步骤1.3:定义电力系统暂态稳定判断标准tsi:16、17、其中|δδmax|表示步骤3.1中任意两台发电机中最大相对功角差,tsi>0时,18、系统稳定,反之系统失稳;19、步骤1.4:定义即时奖励函数rt:20、rt=rstate+rothers21、22、rothers=rc+rv+rs23、其中:24、rstate表示控制后系统状态的奖励值,rstable表示系统稳定时候的rstate值,取正数,runstable表示系统不稳定时候的rstate值,取负数;25、rothers表示控制后其他奖励值;26、rc表示控制成本奖励值,根据切除量的加权和给予惩罚,反映切机和切负荷的成本:27、28、pgi=pratedgikgi,plj=pratedljklj29、pgi表示第i台发电机的切除量,pratedgi表示第i台发电机的额定容量;plj表示第i个负荷的切除量,pratedlj表示第i个负荷的额定容量。m为发电机数量,l为负荷数量;30、rv表示电压约束奖励值,根据超出上下限的大小给予惩罚,以限制控制后各节点电压:31、32、33、cv表示电压越限惩罚系数,rn表示节点n电压的越限值,vn表示第n个节点的电压值,和分别表示第n个节点的电压幅值的上下限;34、rs表示控制步数奖励,根据控制步数的总次数给予惩罚,以最少的动作次35、数完成控制目标:36、rs=csnstep37、cs表示控制步数惩罚系数,nstep表示控制次数。38、进一步的,所述步骤二具体包括:39、步骤2.1:在actor网络中,初始化包括状态输入层、多个全连接隐藏层和输出层的神经网络参数,其中输入数据是电力系统状态集合st,输出数据是电力系统输出动作集合at,输出层的节点数等于电力系统的可行动作空间维度daction,以确保生成合理的控制动作,daction为电力系统输出动作集合α的长度;40、步骤2.2:在critic网络中,初始化包括状态输入层、动作输入层、多个全连接隐藏层和输出层的神经网络参数,其中输入数据为电力系统状态和输出动作集合{st,at},输出层的节点数为1,输出数据为对应状态和输出动作组合的q值q(st,at):41、42、其中:43、q(st,at)表示状态st下采取动作at的q值;44、rt表示状态st下采取动作at的即时奖励;45、γ是折扣因子,用于平衡当前奖励和未来奖励的重要性;46、st+1表示采取动作at后转移到的下一个状态;47、at+1表示st+1状态下选择的动作;48、表示在下一个状态st+1选择最优动作的q值;49、步骤2.3:设定离线训练的迭代次数、每次迭代中的训练步数和收敛标准。50、进一步的,所述步骤三具体包括:51、步骤3.1:采集电力系统仿真数据,包括系统状态st和st+1,控制动作at,并根据数据计算对应奖励rt;52、步骤3.2设定经验回放缓冲区的存储容量,并按照时间顺序将采集到的数据以et={st,at,rt,st+1}的格式存储到缓冲区中,构建经验回放缓冲区。53、进一步的,所述步骤四具体包括:54、步骤4.1:随机从经验回放缓冲区抽样批量的经验数据作为训练样本;55、步骤4.2:对训练样本使用actor网络生成当前状态下st的控制动作at,通过仿真获得执行控制动作后系统状态st+1,计算得到奖励值rt,并通过critic网络评估该动作的q值;56、步骤4.3:使用双q学习方法,计算当前状态下的目标值qt,并计算critic网络输出的q值与目标值qt的均方误差;57、步骤4.4:利用均方误差最小化的优化算法更新critic网络的参数;58、步骤4.5:计算actor网络的策略梯度;59、步骤4.6:利用梯度上升法,更新actor网络的参数,以提高生成控制动作的质量;60、步骤4.7:以et={st,at,rt,st+1}的格式存储于经验缓冲区作为经验数据;61、步骤4.8重复以上步骤,直到达到预定的训练步数或达到收敛标准完成离线训练。62、进一步的,所述步骤五具体包括:63、步骤5.1:获取当前电力系统的实时状态st,包括发电机功角δgi(t)、节点电压vnj(t);64、步骤5.2:输入当前状态到已经离线训练好的td3模型的actor网络中,生成相应的紧急控制动作at;65、步骤5.3:将生成的紧急控制动作应用到电力系统中,实施紧急控制策略;66、步骤5.4:实时监测实施后的电力系统状态响应,包括tsi、电压等暂态稳定性指标,并利用响应信息更新actor网络中的实时状态表示,以保持网络的准确性和泛化能力;67、步骤5.5:如果系统响应符合预期,继续维持当前控制策略;如果系统响应不理想,将状态信息添加到经验回放缓冲区中,供后续离线训练和改进控制策略。68、本发明具有强大的场景适应性和卓越的实用性,通过引入深度强化学习算法td3,能够有效地学习和优化电力系统的暂态稳定控制策略。电力系统属于一种高维的状态空间,在面临暂态稳定问题时的控制策略属于连续动作空间,相比于其它深度强化学习算法,td3能够综合考虑多个时间步的信息,更全面地学习电力系统的动态演化,因而能够更灵活地处理高维状态空间,并且有效地应对连续动作空间的问题,使其能够在实时控制场景中迅速应对电力系统的动态变化,同时,其采用的经验回放缓冲区和双q学习技术也有效提高了算法的稳定性和效率,进一步提升了其性能。因此,本发明为电力系统暂态稳定性的提升提供了一种创新的、鲁棒的解决方案。当前第1页12当前第1页12
本文地址:https://www.jishuxx.com/zhuanli/20240801/249927.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表