技术新讯 > 发电变电,配电装置的制造技术 > 一种用全纯嵌入法引导深度强化学习的实时最优潮流方法与流程  >  正文

一种用全纯嵌入法引导深度强化学习的实时最优潮流方法与流程

  • 国知局
  • 2024-08-22 14:49:52

本申请涉及电力系统优化运行,尤其是涉及到一种用全纯嵌入法引导深度强化学习的实时最优潮流方法。

背景技术:

1、随着全球对能源危机和气候变化的关注日益增加,现代能源系统正迅速向低碳化、绿色化和可持续化转变。这一转型对现代电力系统的运行和控制提出了更高的要求。最优潮流(opf, optimal power flow)作为电力系统运行和控制的核心问题,旨在通过最优化运行条件来实现电力系统的稳定性。然而,随着可再生能源的不断增加、电力市场的复杂性和电力网络的动态变化,传统的基于数学规划的方法在解决实时优化问题时面临挑战。为了应对这些挑战,近年来先进的机器学习技术,特别是深度强化学习(drl),已被引入到电力系统的运行和控制中。

2、目前,深度强化学习的控制策略通常是以深度神经网络为基础。然而,将现有的深度强化学习算法直接应用到复杂的电力系统中解决最优潮流问题,会存在适应性和安全性的问题,即在某些操作条件下,无法保证预测的控制行动的安全性和可靠性。

技术实现思路

1、有鉴于此,本申请提供了一种用全纯嵌入法引导深度强化学习的实时最优潮流方法,主要目的在于能够解决深度强化学习算法在电力系统优化过程中所存在的适应性和安全性的问题,从而能够保证预测的控制行动的安全性和可靠性。

2、依据本申请的第一方面,提供了一种用全纯嵌入法引导深度强化学习的实时最优潮流方法,该方法包括:

3、分别定义电力系统的系统状态变量和策略动作变量;

4、基于所述系统状态变量和所述策略动作变量,构建所述电力系统对应的策略模型,其中,所述策略模型对应的经验缓冲区中仅存储系统状态;

5、将所述电力系统的非线性潮流方程转换为全纯函数,以构建所述电力系统对应的评论者函数;

6、对所述评论者函数和所述策略模型进行交替更新迭代,当满足预设收敛条件时,输出最终更新后的策略模型,并确定所述电力系统对应的最优策略动作。

7、依据本申请的第二方面,提供了一种用全纯嵌入法引导深度强化学习的实时最优潮流装置,该装置包括:

8、定义单元,用于分别定义电力系统的系统状态变量和策略动作变量;

9、第一构建单元,用于基于所述系统状态变量和所述策略动作变量,构建所述电力系统对应的策略模型,其中,所述策略模型对应的经验缓冲区中仅存储系统状态;

10、第二构建单元,用于将所述电力系统的非线性潮流方程转换为全纯函数,以构建所述电力系统对应的评论者函数;

11、更新单元,用于对所述评论者函数和所述策略模型进行交替更新迭代,当满足预设收敛条件时,输出最终更新后的策略模型,并确定所述电力系统对应的最优策略动作。

12、依据本申请的第三方面,提供了一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述用全纯嵌入法引导深度强化学习的实时最优潮流方法。

13、依据本申请的第四方面,提供了一种电子设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述用全纯嵌入法引导深度强化学习的实时最优潮流方法。

14、借由上述技术方案,本申请提供的一种用全纯嵌入法引导深度强化学习的实时最优潮流方法,通过采用基于物理驱动的评论者函数代替深度神经网络,能够解决深度强化学习算法在电力系统优化过程中所存在的适应性和安全性的问题,即这种方式能够确保优化结果更加符合电力系统的实际运行情况,从而能够提供更可信的决策依据,保证控制行动的安全性和可靠性。

15、上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。

技术特征:

1.一种用全纯嵌入法引导深度强化学习的实时最优潮流方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述分别定义电力系统的系统状态变量和策略动作变量,包括:

3.根据权利要求1所述的方法,其特征在于,所述将所述电力系统的非线性潮流方程转换为全纯函数,以构建所述电力系统对应的评论者函数,包括:

4.根据权利要求3所述的方法,其特征在于,所述基于所述嵌入式系统,构建所述电力系统对应的评论者函数,包括:

5.根据权利要求2所述的方法,其特征在于,所述基于所述系统状态和所述预测策略动作,对所述评论者函数和所述策略模型进行交替更新迭代,当满足预设收敛条件时,输出最终更新后的策略模型,并确定所述电力系统对应的最优策略动作,包括:

6.根据权利要求5所述的方法,其特征在于,所述基于所述系统状态和所述预测策略动作,对所述评论者函数进行更新,得到本轮更新后的评论者函数,包括:

7.根据权利要求6所述的方法,其特征在于,所述基于所述系统状态和所述预测策略动作,对所述评论者函数对应的复数方程进行求解,得到所述各个母线对应的复功率,包括:

8.一种用全纯嵌入法引导深度强化学习的实时最优潮流装置,其特征在于,包括:

9.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法。

10.一种电子设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法。

技术总结本申请公开了一种用全纯嵌入法引导深度强化学习的实时最优潮流方法,涉及电力系统优化运行技术领域。其中方法包括:分别定义电力系统的系统状态变量和策略动作变量;基于所述系统状态变量和所述策略动作变量,构建所述电力系统对应的策略模型,其中,所述策略模型对应的经验缓冲区中仅存储系统状态;将所述电力系统的非线性潮流方程转换为全纯函数,以构建所述电力系统对应的评论者函数;对所述评论者函数和所述策略模型进行交替更新迭代,当满足预设收敛条件时,输出最终更新后的策略模型,并确定所述电力系统对应的最优策略动作。本申请能够解决深度强化学习算法在电力系统优化过程中所存在的适应性和安全性的问题。技术研发人员:周良才,周毅,刘林林,黄志龙,曹路,徐昊,王健,张亮,范栋琦,闫书赫,王浩宇,余少琪,高佳宁,丁佳立,刘硕,徐万欣受保护的技术使用者:国家电网有限公司华东分部技术研发日:技术公布日:2024/8/20

本文地址:https://www.jishuxx.com/zhuanli/20240822/280042.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。