技术新讯 > 发电变电,配电装置的制造技术 > 多智能体强化学习的负荷与电源协同控制方法与流程 > 正文

多智能体强化学习的负荷与电源协同控制方法与流程

国知局
2024-12-06 12:12:50

本发明属于配电输送，具体涉及一种多智能体强化学习的负荷与电源协同控制方法。

背景技术：

1、县域乡村地区能源绿色转型是构建现代能源体系的重要组成部分，农业灌溉、电烤烟、电烤茶等乡村特色负荷具有分散接入、点多面广、季节性波动强等特征，其用电灵活性强，可调节潜力大。

2、县域特色负荷如电烤烟、电烤茶、机井灌溉等负荷的电力需求具有明显的时空特征；同时，随着大量分布式电源接入配电网，电力系统的结构和运行环境变得更加复杂；现有的电力调度方法难以有效应对这些挑战，导致系统稳定性和调度效率的下降。

3、一方面县域特色负荷复杂性、多样性突出且接入电网空间分散，导致开展协同调控的难度较大用户负荷单个资源功率较小、直接调控成本高，采用负荷聚合调控手段面临感知深度不够，缺少负荷聚合特性量化方法，制约了分布式电源与负荷的协调互济；另一方面，县域特色负荷用能特性差异较大，与分布式电源的有效协同缺少系统支撑。

技术实现思路

1、本发明所要解决的技术问题是解决县域特色负荷在不同季节和分布式能源发电高峰期的电力调度问题，针对现有技术的不足，提供一种实现多场景台区自治控制，确保电力系统的稳定性和高效性的多智能体强化学习的负荷与电源协同控制方法。

2、为解决上述技术问题，本发明所采用的技术方案是：包括：

3、获取各节点的负荷数据和分布式电源数据；

4、构建多智能体系统，所述多智能体系统以负荷数据和分布式电源数据为输入数据；

5、使用负荷数据和分布式电源数据为样本对多智能体系统进行训练，进而构建负荷和电源的协同控制算法，所述协同控制算法用于根据所述负荷数据和所述分布式电源数据调整智能体的控制策略；

6、对多智能体系统进行离线训练和在线优化，所述多智能体系统在不同负荷场景下使用相应负荷场景的控制策略。进一步的，获取县域典型台区拓扑结构，以及特色负荷的历史数据。

7、获取并存储各节点的状态观测信息和动作信息；所述状态观测信息包括电压幅值、有功负荷、无功负荷和光伏逆变器有功出力，所述动作信息包括无功出力；

8、对获取到的数据进行清洗和特征提取。

9、进一步的，构建多智能体系统中各智能体的协同控制算法的方法包括：

10、构建控制决策；所述控制决策表示为<g,s,o,a,p,rρ,γ>

11、其中，g是智能体集合，s为状态空间集合，o为联合观测空间集合，a为联合动作空间集合，p为是状态转移概率函数，r为奖励函数，ρ为下一动作。γ为奖励函数，ρ是初始状态的概率函数，γ∈(0,1)是折扣因子，用以平衡即时奖励和未来奖励的权重。

12、进一步的，所述状态空间集合表示为s＝l×p×q×v，其中l＝{pl,ql}为含有特色负荷台区内所有节点有功负荷和无功负荷集合；p＝{ppv,pess}和q＝{qpv,qess}分别为含有特色负荷台区内所有分布式光伏、储能系统有功功率与无功功率集合；v＝{v}为含有特色负荷台区内所有节点电压幅值集合；

13、所述状态空间集合还包括智能体状态信息，所述智能体的状态信息记为其中对应表示含有特色负荷台区内m节点的有功负荷、无功负荷、分布式光伏布式光伏、储能系统有功功率与无功功率、节点电压幅值；联合观测空间o＝{o1,…om}包含了所有智能体的观测信息，在部分可观测配电网中

14、所述联合动作空间集合表示为其中表示含有特色负荷台区内n个分布式光伏逆变器的动作集合，表示含有特色负荷台区内n个储能系统有功动作集合；

15、所述状态转移概率函数用于量化台区特色负荷不确定性和分布式光伏出力与储能动作的不确定性；

16、所述奖励函数表示为r＝-karv-kbruv+kc(r0-rpv)，其中，r0为分布式光伏消纳率基准值，按照1取值，ka、kb、kc分别对应为台区的电压幅值、电压三相不平衡度和清洁能源高消纳对应的权重系数，rv为节点电压幅值越限惩罚项，ruv为电压不平衡度越限惩罚项，rpv为分布式光伏的理论消纳率与实际消纳率之差，r为智能体共享的奖励函数。

17、进一步的，构建多智能体系统中各智能体的协同控制算法方法中还包括：

18、构建智能体评价网络；所述智能体评价网络表示为：

19、

20、

21、算法损失函数用于量化评价网络评估的价值和预期累计奖励ym之间的差异，其中预期累计奖励ym利用贝尔曼方程结合策略熵项计算得到；评价网络通过最小化损失函数l(θ)进行迭代更新；

22、其中，m为整个系统的智能体总数；e[[g]表示期望值；d表示经验回放缓冲区，用于存储智能体与环境交互产生的经验数据r为奖励值，为动作后新观测到的状态；为智能体m的目标动作网络参数；β为正则化系数，用于控制熵的重要程度。

23、进一步的，构建多智能体系统中各智能体的协同控制算法方法中还包括：

24、构建智能体动作网络；所述智能体动作网络表示为：

25、

26、

27、算法中区域m智能体动作网络的输入为配电网局部观测状态om，输出为光伏逆变器的控制动作am、bm,待优化参数为动作网络参数φm与目标动作网络参数算法的动作网络引入了目标网络和策略熵项；算法采用策略梯度方法对动作网络进行训练，每个智能体基于梯度上升法更新自身动作网络参数φm。

28、进一步的，构建多智能体系统中各智能体的协同控制算法方法中还包括：

29、构建智能体安全防线；所述智能体安全防线表示为：

30、

31、其中，sij表示节点i对节点j的有功功率变化的灵敏度，vi表示节点i的电压，pj表示节点j的有功功率。

32、进一步的，所述多智能体系统包括特色负荷智能体、分布式电源智能体、中央协调智能体和构建储能缓冲智能体；

33、所述特色负荷智能体用于各个特色负荷的管理；

34、所述分布式能源智能体，用于管理分布式电源的发电和输出；

35、所述储能缓冲智能体，用于管理储能的充放电深度与次数；

36、所述中央协调智能体，用于协调特色负荷智能体和分布式电源智能体的工作。

37、进一步的，对多智能体系统进行离线训练的方法包括：

38、采集县域典型台区拓扑结构以及台区特色负荷与电源历史数据；

39、对采集到的台区特色负荷与电源历史数据进行数据清洗和特征提取，以数据清洗和特征提取后的特色负荷与电源历史数据生成数据样本；

40、使用所述数据样本对所述多智能体系统进行训练，获得控制策略；

41、对多智能体系统进行在线优化的方法包括：

42、采集各节点的实时状态数据；根据所述实时状态数据，结合训练好的多智能体系统动态调整多智能体系统控制策略。

43、一种多智能体强化学习的负荷与电源协同控制装置，包括：

44、数据获取模块：用于获取各节点的负荷数据和分布式电源数据；

45、智能体模块：用于构建多智能体系统，所述多智能体系统以负荷数据和分布式电源数据为输入数据；

46、协同控制模块：用于使用负荷数据和分布式电源数据为样本对多智能体系统进行训练，进而构建负荷和电源的协同控制算法，所述协同控制算法用于根据所述负荷数据和所述分布式电源数据调整智能体的控制策略；

47、训练模块：对多智能体系统进行离线训练和在线优化，所述多智能体系统在不同负荷场景下使用相应负荷场景的控制策略。

48、进一步的，所述数据获取模块包括数据获取单元、节点信息获取单元和提取单元，

49、所述数据获取单元用于获取县域典型台区拓扑结构以及特色负荷的历史数据；所述节点信息获取单元用于获取并存储各节点的状态观测信息和动作信息；所述提取单元用于对获取到的数据进行清洗和特征提取。

50、进一步的，所述智能体模块包括特色负荷智能体、分布式电源智能体、中央协调智能体和构建储能缓冲智能体；所述特色负荷智能体用于各个特色负荷的管理；所述分布式能源智能体，用于管理分布式电源的发电和输出；所述储能缓冲智能体，用于管理储能的充放电深度与次数；所述中央协调智能体，用于协调特色负荷智能体和分布式电源智能体的工作。

51、进一步的，所述协同控制模块包括控制决策单元、智能体评价网络单元、智能体动作网络单元、智能体安全防线单元；

52、进一步的，所述控制决策单元用于构建控制决策，所述控制决策表示为<g,s,o,a,p,rρ,γ>

53、其中，g是智能体集合，s为状态空间集合，o为联合观测空间集合，a为联合动作空间集合，p为是状态转移概率函数，r为奖励函数，ρ为下一动作。γ为奖励函数，ρ是初始状态的概率函数，γ∈(0,1)是折扣因子，用以平衡即时奖励和未来奖励的权重；

54、所述空间集合用于表示为s＝l×p×q×v，其中l＝{pl,ql}为含有特色负荷台区内所有节点有功负荷和无功负荷集合；p＝{ppv,pess}和q＝{qpv,qess}，分别为含有特色负荷台区内所有分布式光伏、储能系统有功功率与无功功率集合；v＝{v}为含有特色负荷台区内所有节点电压幅值集合；

55、所述联合观测空间集合组件包括智能体状态信息组件，所述智能体的状态信息用于记为其中对应表示含有特色负荷台区内m节点的有功负荷、无功负荷、分布式光伏布式光伏、储能系统有功功率与无功功率、节点电压幅值；联合观测空间o＝{o1, …om}包含了所有智能体的观测信息，在部分可观测配电网中

56、所述联合观测空间集合用于表示为其中表示含有特色负荷台区内n个分布式光伏逆变器的动作集合，表示含有特色负荷台区内n个储能系统有功动作集合；

57、所述状态转移概率函数用于量化台区特色负荷不确定性和分布式光伏出力与储能动作的不确定性；

58、所述奖励函数用于表示为r＝-karv-kbruv+kc(r0-rpv)，其中，r0为分布式光伏消纳率基准值，按照1取值，ka、kb、kc分别对应为台区的电压幅值、电压三相不平衡度和清洁能源高消纳对应的权重系数，rv为节点电压幅值越限惩罚项，ruv为电压不平衡度越限惩罚项，rpv为分布式光伏的理论消纳率与实际消纳率之差，r为智能体共享的奖励函数；

59、进一步的，所述智能体评价网络单元用于构建智能体评价网络，所述智能体评价网络表示为：

60、

61、

62、算法损失函数用于量化评价网络评估的价值和预期累计奖励ym之间的差异，其中预期累计奖励ym利用贝尔曼方程结合策略熵项计算得到；用于评价网络通过最小化损失函数l(θ)进行迭代更新；

63、其中，m为整个系统的智能体总数；e[[g]表示期望值；d表示经验回放缓冲区，用于存储智能体与环境交互产生的经验数据r为奖励值，为动作后新观测到的状态；为智能体m的目标动作网络参数；β为正则化系数，用于控制熵的重要程度。

64、进一步的，所述智能体动作网络单元用于构建智能体动作网络；所述智能体动作网络表示为：

65、

66、

67、用于算法中区域m智能体动作网络的输入为配电网局部观测状态om，输出为光伏逆变器的控制动作am、bm,待优化参数为动作网络参数φm与目标动作网络参数算法的动作网络引入了目标网络和策略熵项；算法采用策略梯度方法对动作网络进行训练，每个智能体基于梯度上升法更新自身动作网络参数φm。

68、进一步的，所述智能体安全防线组件用于构建智能体安全防线，智能体安全防线表示为：

69、

70、其中，sij表示节点i对节点j的有功功率变化的灵敏度，vi表示节点i的电压，pj表示节点j的有功功率。

71、一种电子设备，包括处理器和存储器；所述存储器用于存储可执行指令，所述处理器用于执行所述指令，以实现实施例3所述的方法。

72、一种计算机可读存储介质，所述可读存储介质中存储有指令，当所述指令被执行时，实现实施例3所述的方法。

73、与现有技术相比，本发明的有益效果如下：

74、1、通过构建多智能体系统，实现各智能体之间的协同控制，基于灵敏度安全层约束，动态调整控制策略，策略前分布式光伏大发节点电压存在越限行为，通过考虑县域特色负荷与分布式光伏策略调整后，各节点电压在较小区间区间，满足国标低压台区电压标准，平滑了分布式光伏输出曲线，显著降低了电压越限行为。通过县域特色负荷分类聚合与分布式电源协同控制，实现电力系统的稳定性和高效性。

75、2、该发明能够针对夏季高峰负荷和冬季采暖负荷，分别设计相应的控制策略；针对电烤烟、电烤茶、机井灌溉等特色负荷，设计专门的负荷管理策略；能够动态调整分布式电源的发电和负荷的用电，确保系统的稳定性。

76、3、通过回测实验和实时数据验证，评估模型的预测精度和控制效果；不断优化模型参数，提升预测和控制的准确性；同时能够结合新的实时数据，进行模型的在线学习和更新，确保模型的适应性和准确性。