技术新讯 > 发电变电,配电装置的制造技术 > 基于强化学习的配电网电压控制方法、装置及设备与流程 > 正文

基于强化学习的配电网电压控制方法、装置及设备与流程

国知局
2024-10-09 14:44:48

本技术涉及配电网控制，尤其涉及基于强化学习的配电网电压控制方法、装置及设备。

背景技术：

1、电压是配电网一个至关重要的参数，它直接影响着电力设备的安全运行和电力质量的稳定性。然而，由于电力系统的复杂性和不确定性，其运行过程中常常受到各种内部和外部因素的影响，例如负荷变化、风力、光照变化等，这些因素可能导致电压偏离额定值，造成电力系统的不稳定甚至发生安全事故。现代配电网正受到分布式发电(如光伏发电)日益普及所带来的显著电压波动的挑战，例如，过电压通常发生在中午，此时光伏发电高峰期，负荷需求相对较低；电压骤降主要发生在夜里，由光伏发电量过低导致。在实际运行中，显著的过/欠电压可能会导致配电网进入不安全运行状态，例如违反设备热限制或故障电流水平变化。因此，对电压进行实时控制和监测对维持电压稳定和降低网损具有重要意义。

2、对于配电系统的电压控制，不同的控制装置具有不同的运行特性，可分为离散控制和连续控制。而较为有效的技术手段包括基于强化学习的电压控制模型，但是此方案在没有模型知识的情况下可能会违反系统的安全运行条件，导致控制模型不可靠；而且，该模型参数复杂导致实时电压控制计算效率低，不能满足实际应用需求；此外，模型依赖大量历史数据的训练，导致其泛化能力弱，难以应对实时变化环境带来的不确定影响，导致生成的控制指令缺乏准确性。

技术实现思路

1、本技术提供了基于强化学习的配电网电压控制方法、装置及设备，用于解决现有强化学习模型容易违反系统安全约束、计算参数复杂且泛化能力较弱，导致电压控制缺乏准确性、可靠性和实时性的技术问题。

2、有鉴于此，本技术第一方面提供了基于强化学习的配电网电压控制方法，包括：

3、依据马尔科夫决策理论构建基于配电网电压控制的序列决策数学模型，所述序列决策数学模型包括状态空间、动作空间和奖励函数；

4、根据配电网的电压运行约束条件配置满足预置条件的控制屏障函数；

5、基于预设神经网络对历史屏障函数补偿器进行叠加估计操作，得到控制屏障函数补偿器；

6、通过所述控制屏障函数和所述控制屏障函数补偿器对所述序列决策数学模型进行基于真实配电网环境的在线训练，得到目标电压控制器；

7、依据所述目标电压控制器生成的电压调控指令控制目标调压设备。

8、优选地，所述依据马尔科夫决策理论构建基于配电网电压控制的序列决策数学模型，包括：

9、依据马尔科夫决策理论根据配网基础信息为配电网的可控设备定义状态空间，所述配网基础信息包括电压水平、电流、负载和环境条件；

10、为配电网的所述可控设备定义允许调压的动作空间后，确定所述动作空间中动作-状态对的奖励函数，并生成序列决策数学模型。

11、优选地，所述根据配电网的电压运行约束条件配置满足预置条件的控制屏障函数，包括：

12、根据配电网的电压运行约束条件为电压控制系统模型定义安全域；

13、依据预置条件和所述安全域配置控制屏障函数。

14、优选地，所述根据配电网的电压运行约束条件为电压控制系统模型定义安全域，之前还包括：

15、采用高斯估计算法对配电网的电压控制过程进行估计分析，得到电压控制系统模型。

16、优选地，所述通过所述控制屏障函数和所述控制屏障函数补偿器对所述序列决策数学模型进行基于真实配电网环境的在线训练，得到目标电压控制器，包括：

17、获取真实配电网环境实时系统的运行状态，得到动态运行数据；

18、将所述动态运行数据输入所述序列决策数学模型，并基于所述控制屏障函数进行调控训练，生成初始电压控制器；

19、采用所述控制屏障函数补偿器对所述初始电压控制器进行动作补偿，生成目标电压控制器。

20、本技术第二方面提供了基于强化学习的配电网电压控制装置，包括：

21、模型构建单元，用于依据马尔科夫决策理论构建基于配电网电压控制的序列决策数学模型，所述序列决策数学模型包括状态空间、动作空间和奖励函数；

22、函数配置单元，用于根据配电网的电压运行约束条件配置满足预置条件的控制屏障函数；

23、补偿估计单元，用于基于预设神经网络对历史屏障函数补偿器进行叠加估计操作，得到控制屏障函数补偿器；

24、强化训练单元，用于通过所述控制屏障函数和所述控制屏障函数补偿器对所述序列决策数学模型进行基于真实配电网环境的在线训练，得到目标电压控制器；

25、电压控制单元，用于依据所述目标电压控制器生成的电压调控指令控制目标调压设备。

26、优选地，所述模型构建单元，具体用于：

27、依据马尔科夫决策理论根据配网基础信息为配电网的可控设备定义状态空间，所述配网基础信息包括电压水平、电流、负载和环境条件；

28、为配电网的所述可控设备定义允许调压的动作空间后，确定所述动作空间中动作-状态对的奖励函数，并生成序列决策数学模型。

29、优选地，所述函数配置单元，具体用于：

30、根据配电网的电压运行约束条件为电压控制系统模型定义安全域；

31、依据预置条件和所述安全域配置控制屏障函数。

32、优选地，所述强化训练单元，具体用于：

33、获取真实配电网环境实时系统的运行状态，得到动态运行数据；

34、将所述动态运行数据输入所述序列决策数学模型，并基于所述控制屏障函数进行调控训练，生成初始电压控制器；

35、采用所述控制屏障函数补偿器对所述初始电压控制器进行动作补偿，生成目标电压控制器。

36、本技术第三方面提供了基于强化学习的配电网电压控制设备，所述设备包括处理器以及存储器；

37、所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

38、所述处理器用于根据所述程序代码中的指令执行第一方面所述的基于强化学习的配电网电压控制方法。

39、从以上技术方案可以看出，本技术实施例具有以下优点：

40、本技术中，提供了基于强化学习的配电网电压控制方法，包括：依据马尔科夫决策理论构建基于配电网电压控制的序列决策数学模型，序列决策数学模型包括状态空间、动作空间和奖励函数；根据配电网的电压运行约束条件配置满足预置条件的控制屏障函数；基于预设神经网络对历史屏障函数补偿器进行叠加估计操作，得到控制屏障函数补偿器；通过控制屏障函数和控制屏障函数补偿器对序列决策数学模型进行基于真实配电网环境的在线训练，得到目标电压控制器；依据目标电压控制器生成的电压调控指令控制目标调压设备。

41、本技术提供的基于强化学习的配电网电压控制方法，基于马尔科夫决策理论构建强化学习模型，即序列决策数学模型；然后基于构建的控制屏障函数将模型训练约束在电压约束安全范围内，确保系统稳定可靠；而加入控制屏障函数补偿器对模型进行控制补偿则可以减少模型参数的计算量，提升模型计算效率；此外，基于真实配电网环境对模型进行在线训练可以增强模型的泛化能力，更加准确的把握实时动态环境变化的影响，能够确保电压控制的准确性、可靠性和实时性。因此，本技术能够解决现有强化学习模型容易违反系统安全约束、计算参数复杂且泛化能力较弱，导致电压控制缺乏准确性、可靠性和实时性的技术问题。