技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于先验知识强化学习的电网故障诊断方法、系统和装置 > 正文

基于先验知识强化学习的电网故障诊断方法、系统和装置

国知局
2025-01-17 12:54:59

本发明涉及电网故障诊断，具体为基于先验知识强化学习的电网故障诊断方法、系统和装置。

背景技术：

1、随着电网规模的逐渐扩大和电网故障特征的日渐复杂，对电网故障诊断、电网安全稳定运行提出了更高要求。一旦某一区域发生电网故障，如果不能及时判断故障类型并做出相应的隔离补救措施，很可能会导致大面积的停电，危及整个电网系统的运行安全，对国民经济造成重大损失。

2、电网故障诊断依赖于分析监测系统获取的电气量和开关量故障信息，以判断故障发生的区域。电网文本告警信息作为诊断的基础，在电网故障诊断中具有明显的优势。可以将故障诊断过程转化为模型求解问题，例如利用贝叶斯网络模型，但是无法对海量告警信息进行故障诊断。

3、随着深度学习技术的快速发展，给电网故障诊断带来更多选择，可以处理大量的数据。其中深度强化学习可以实现由原始数据到目标输出的端到端学习，是实现智能故障诊断的有效方法。目前关于深度强化学习应用到电网故障诊断的一些研究工作虽然取得了较好结果，但是仍然存在着不足。

4、目前大部分利用深度强化学习进行电网故障诊断的研究仅仅关注每个故障的信息，而忽略了电网故障告警信息文本之间存在的语义和逻辑关系，导致往往难以提取到完整、关键的特征信息；同时面对样本数据不平衡情况时，仍面临着特征提取效率不高、模型收敛缓慢以及诊断准确率较低等问题。

技术实现思路

1、本发明提供了一种基于先验知识强化学习的电网故障诊断方法。

2、本发明技术方案如下：

3、一种基于先验知识强化学习的电网故障诊断方法，包括以下步骤：

4、s1、获取不同环境状态下电网故障的告警数据文本，构建数据集，基于告警数据文本提取开关特征和关键特征，将关键特征与先验知识中的关键特征规则进行文本的关键特征匹配，所述先验知识包括设定的若干个开关状态特征和若干个关键特征规则，

5、如果与任一关键特征规则的匹配概率值大于概率阈值，匹配成功，获得对应的动作和电网故障类型；如果匹配不成功，则执行s2；

6、s2、将匹配不成功的告警数据文本经嵌入处理，得到当前环境状态下的嵌入向量，对嵌入向量依次进行多头注意力机制处理、与嵌入向量的残差连接处理、归一化处理和非线性处理，得到深层特征，对深层特征进行全连接处理，得到该环境状态下不同动作的估计期望值；

7、s3、基于开关特征、开关状态特征、不同动作的估计期望值获得当前环境状态下估计期望值最高的动作和对应的电网故障类型，具体为：

8、基于所有动作构建动作空间，基于不同开关状态特征对应构建不同的动作子空间，每个动作子空间包括特定数量的动作作为动作探索空间；

9、将提取的开关特征与任一开关状态特征进行特征匹配，如果存在匹配成功的开关状态特征，则在其对应的动作探索空间中基于探索概率随机选择一个动作进行探索，或基于1-探索概率选择估计期望值最大的动作进行利用，获得对应的电网故障类型；

10、否则，在动作空间中进行探索或利用。

11、进一步地，所述s3还包括对探索或利用后得到的动作基于设置的奖励函数获得反馈奖励，转移至下一环境状态，基于当前环境状态、当前环境状态下获得的每个动作及对应的反馈奖励、下一环境状态构建一个经验组存入经验缓冲池，对若干个经验组设置采样概率，并基于采样概率进行经验回放处理，更新估计期望值，直至达到设置轮次；

12、对若干个经验组设置采样概率，并基于采样概率进行经验回放处理，更新估计期望值，具体为：

13、基于反馈奖励、折扣因子、下一环境状态的最大期望值，获得目标期望值；基于估计期望值和目标期望值的差值、设定的优先级，获得每个经验组的采样概率，基于采样概率从经验缓冲池中随机抽取若干个经验组进行经验回放处理，更新估计期望值。

14、所述基于估计期望值和目标期望值的差值、设定的优先级，获得每个经验组的采样概率，公式表示如下：

15、，

16、其中，为估计期望值和目标期望值的差值，为目标期望值，为估计期望值，为当前环境状态，为当前动作，为更新估计期望值的参数；为反馈奖励，为折扣因子，为下一环境状态的期望值，为下一环境状态，为下一动作，为更新目标期望值的参数；

17、，

18、其中，为每个经验组的采样概率，为第 i个经验组的概率，为设定的优先级。

19、所述设置的奖励函数具体为：

20、，

21、其中， t为时间步，为在时间步 t的当前环境状态，为在时间步 t的当前动作，为在时间步 t的当前环境状态下的故障样本标签，为多数类故障样本， ρ为多数类故障样本与少数类故障样本的比例， d f为少数类故障样本；

22、当分别对正确、错误的对多数类故障样本进行分类时，奖励值为分别为1、-1；当分别对正确、错误的对少数类故障样本进行分类时，奖励值分别为 ρ、- ρ。

23、所述基于采样概率从经验缓冲池中随机抽取若干个经验组进行经验回放处理，为对随机抽取的若干个经验组基于估计期望值和目标期望值计算损失函数，公式表示如下：

24、，

25、其中， n为随机抽取的经验组的数量, i为序号，为目标期望值，为估计期望值，为当前环境状态，为当前动作，为更新估计期望值的参数。

26、基于损失函数使用梯度下降法更新目标期望值的参数，同时每间隔特定时间步数，将估计期望值的参数更新至目标期望值的参数中。

27、所述优先级基于数据集中告警数据文本的故障数据量设置，设置优先级与数据集中告警数据文本的故障数据量成反比。

28、所述s3中探索概率基于数据集中不同故障类型发生的数据量不同设置，设置探索概率与数据集中不同故障类型发生的数据量成正比，同时设置探索概率在每一轮次以特定的衰减率进行下降，直至下降至最小探索概率值。

29、所述s2中将匹配不成功的告警数据文本经嵌入处理，得到当前环境状态下的嵌入向量，具体为对告警数据文本分别进行词嵌入处理、句嵌入处理和位置嵌入处理，对应得到词嵌入向量、句嵌入向量和位置嵌入向量，将所述词嵌入向量、句嵌入向量、位置嵌入向量进行拼接处理，得到嵌入向量。

30、本发明还提供了一种基于先验知识强化学习的电网故障诊断系统，包括：

31、关键特征匹配模块：用于获取不同环境状态下电网故障的告警数据文本，构建数据集，基于告警数据文本提取开关特征和关键特征，将关键特征与先验知识中的关键特征规则进行文本的关键特征匹配，所述先验知识包括设定的若干个开关状态特征和若干个关键特征规则，如果与任一关键特征规则的匹配概率值大于概率阈值，匹配成功，获得对应的动作和电网故障类型；否则，匹配不成功；

32、特征提取模块：用于将匹配不成功的告警数据文本经嵌入处理，得到当前环境状态下的嵌入向量，对嵌入向量经依次进行多头注意力机制处理、与嵌入向量的残差连接处理、归一化处理和非线性处理，得到深层特征，对深层特征进行全连接处理，得到该环境状态下不同动作的估计期望值；

33、故障诊断模块：用于基于开关特征、开关状态特征、不同动作的估计期望值获得当前环境状态下估计期望值最高的动作和对应的电网故障类型，具体为：基于所有动作构建动作空间，基于不同开关状态特征对应构建不同的动作子空间，每个动作子空间包括特定数量的动作作为动作探索空间；将提取的开关特征与任一开关状态特征进行特征匹配，如果存在匹配成功的开关状态特征，则在其对应的动作探索空间中基于探索概率随机选择一个动作进行探索，或基于1-探索概率选择估计期望值最大的动作进行利用，获得对应的电网故障类型；否则，在动作空间中进行探索或利用。

34、另外，本发明提供了一种基于先验知识强化学习的电网故障诊断装置，包括处理器和存储器，其中，所述处理器执行所述存储器中保存的计算机程序时实现如上所述的基于先验知识强化学习的电网故障诊断方法。

35、本发明的有益效果在于：

36、1、本发明提出的基于先验知识强化学习的电网故障诊断方法通过引入先验知识，干预动作选择过程，在选择动作的过程中引入了先验知识，能够充分利用预先积累的有价值的先验知识，降低在探索过程中的动作选择随机性，有效避免无效探索，节约训练成本，提高训练效率；在处理样本数据不平衡问题时，通过引入先验知识，避免由于样本数量少导致的训练周次不足问题，减少对大量数据的依赖，从而能更有效地进行学习和推断，同时提高了电网故障诊断的准确性。

37、2、本发明将告警数据文本中与先验知识中的关键特征规则先进行关键特征的文本匹配，如果找到了与当前环境状态匹配的关键特征规则，则直接输出该关键特征规则对应的推荐动作，这可以显著加快电网故障诊断的决策过程，无需通过试错来学习该动作。

38、3、本发明将匹配不成功的告警数据文本经嵌入处理后转化为嵌入向量，对嵌入向量进行进一步处理，更加关注告警数据文本中词语之间的含义和关联，从而更有效地提取和利用告警信息中的关键特征。最后通过经验回放，动态调整经验的优先级，使得重要的、稀有的经验更频繁地被选择，同时与环境不断交互决策出最大奖励，输出最优故障诊断结果。利用深度学习的感知能力和强化学习的决策能力，无需人工提取特征，实现了由文本告警信息到故障类别的端到端的智能自主决策。