一种强化学习与模糊测试融合驱动的电力系统稳定性网络攻击方法
- 国知局
- 2024-09-11 14:28:21
本发明属于信息物理融合系统的网络空间安全领域,尤其涉及一种强化学习与模糊测试融合驱动的电力系统稳定性网络攻击方法。
背景技术:
1、现代社会,为了实现可持续发展目标,应对全球气候变化的挑战,包括减少能源消耗、提高能源效率和促进环境保护,发展可再生能源已成为世界许多国家的选择。同时,随着信息通信技术的发展,越来越多的电力电子设备在智能电网中实现远程控制功能,特别是有利于分布式能源的管理。由于这些因素,现代电力系统逐渐向分布式能源并网的新型信息物理融合电力系统转型。
2、在信息物理融合的电力系统中,电力电子设备的安全性与智能电网的稳定性密切相关。由于物理系统在运行时对于实时性的高要求,许多设备在设计之初忽视了网络安全,这也导致电力系统转型为信息物理融合的新型电力系统时容易遭受网络攻击。并且由于智能电网的复杂性,不仅需要考虑传统网络攻击的影响,还要考虑许多针对智能电网的结合电网物理特性的新型网络攻击。由于目前针对电网新型网络攻击的研究较少,对应的防护手段也没有得到充分研究,因此为了帮助电网系统操作者更好地运行和保护电网,研究高比例新能源并网下的电力系统信息物理综合安全十分重要。
3、现有的针对电力系统的网络安全研究主要由虚假数据注入攻击、负载变化攻击与针对新能源的网络攻击三类构成。虚假数据注入攻击是智能电力系统中的一种网络安全威胁,攻击者试图通过向电力系统中注入虚假数据来干扰其正常运行。负载变化攻击在近些年来得到了广泛研究,该攻击通过僵尸网络操纵大量大功率物联网设备,来控制电网的负荷大范围变化,从而攻击电网的频率稳定,最后导致大范围停电事故发生。在分布式新能源领域,围绕分布式能源与智能逆变器的网络安全性以及存在的网络攻击面进行广泛的讨论,不仅从新能源系统通讯层面的传统网络安全角度进行了分析,也有结合分布式新能源与电网的物理模型进行分析。而现有的针对电力系统的网络安全研究存在以下问题:(1)高比例新能源与电力系统的物理模型建模复杂,它们具有高度的非线性,分析起来十分困难;通过线性化电力系统的方式进行分析会缺乏一定的准确度。(2)现有研究对威胁模型的假设常常失去真实性,缺少对现实场景中网络层次的划分,正确评估攻击者的能力建立真实可信的威胁模型十分重要。(3)在进行信息物理综合安全研究时,将信息侧与物理侧结合分析具有难度,常常顾此失彼。
技术实现思路
1、本发明的目的在于,针对高比例分布式新能源并网带来的电力系统惯量降低导致的稳定性问题,以及由于传统电力电子设备与通信技术结合而引入的网络安全问题,提出一种强化学习与模糊测试融合驱动的电力系统稳定性网络攻击方法。
2、这里强化学习,是一种机器学习方法,旨在使智能体通过与环境的交互来学习如何做出决策,以最大化某种奖励信号。强化学习的目标是找到一个最优的策略,使智能体能够在不断的试错中学到最佳的行为方式,以最大化长期奖励。
3、这里模糊测试,是一种软件测试技术,旨在发现软件程序或系统中的错误和漏洞。它通过向程序输入随机、无效或非预期的数据(称为“模糊输入”)来测试其鲁棒性和安全性。模糊测试的基本思想是以一种自动化和高度可扩展的方式探索程序的边界和异常情况,从而发现潜在的漏洞。
4、本发明的目的是通过以下技术方案来实现的:一种强化学习与模糊测试融合驱动的电力系统稳定性网络攻击方法,该方法包括以下步骤:
5、步骤1,将分布式新能源网络系统按照功能结构分为外网层、内网层和核心内网层,构建攻击者威胁模型,攻击者寻找新能源网络系统中的网络安全漏洞,利用漏洞获得新能源网络系统的控制权限;
6、步骤2,设计适应度函数,设计方法是将信号数据作为输入,经过快速傅里叶变换后得到频域信号,再求其频谱功率密度的平均值和最大值,将平均值和最大值加权求和后作为信号数据量化后的值;
7、步骤3,收集分布式新能源节点中的传感器信号数据,将电压信号通过适应度函数量化为反映电网稳定性的值;
8、步骤4,攻击者初始化强化学习智能体,其初始状态为当前电力系统稳定性状态,动作为利用模糊测试方法篡改分布式新能源节点中的逆变器的某个参数值,将篡改后的传感器信号数据量化值与篡改前的传感器信号数据量化值进行比较,计算获得该参数的敏感度值,根据敏感度值计算奖励返回给智能体,再观察得到篡改后的电力系统稳定性状态,做出新的篡改动作,直到奖励收敛,完成智能体训练,得到逆变器各个参数对于电力系统稳定性的敏感度;
9、步骤5,进入攻击阶段,通过当前电力系统稳定性状态,智能体做出修改具体逆变器参数的决策,通过修改逆变器参数值使电力系统进入不稳定状态。
10、进一步地,所述分布式新能源网络系统的不同层具有不同权限;逆变器参数包括控制器参数和锁相环参数,外网层拥有逆变器控制中心,通过该控制中心修改内网层的控制器参数,核心内网层修改锁相环参数。
11、进一步地,步骤2中,求得的频谱功率密度的平均值psdmean和最大值psdmax分别拥有系数k1和k2,将当前时刻t的电力系统稳定性状态st量化表示为:
12、st=f(signalt)=k1×psdmean+k2×psdmax
13、其中,k1和k2分别代表攻击者更希望电力系统的不稳定性由何种方式出现,k1越大代表受到小扰动引起的震荡现象更被青睐,k2越大代表受到大扰动引起的不稳定性更被青睐。
14、进一步地,所述强化学习智能体的训练过程具体为:
15、智能体在每轮训练中选择一个逆变器参数p,使用模糊测试语料库中的随机浮点数k篡改逆变器参数p得到pnew=k×p;同时,接收分布式新能源节点中的节点电压信号signalnow;
16、使用适应度函数f量化当前时刻电力系统稳定性状态,得到snow=f(signalnow),通过与篡改前电力系统稳定性状态的量化值slast进行比较,计算得到参数的敏感度值tp=(snow-slast)/(k-1),智能体根据tp与奖励函数r获得奖励r=r(tp);将得到最高奖励值的浮点数k反馈到模糊测试语料库中,使其在之后的测试中出现的概率增加;
17、在之后的训练过程中,节点电压信号量化值作为电力系统稳定性状态传送到智能体中,智能体做出篡改某一个逆变器参数的动作,根据适应度函数与奖励函数得到对应的奖励,直到获得的奖励收敛。
18、进一步地,所述强化学习智能体的训练过程中,对修改逆变器参数的幅度进行限制,将k控制在5%之内。
19、进一步地,所述强化学习智能体的训练过程中的奖励函数r为根据敏感度以及适应度函数设计的分段函数,表达式如下:
20、
21、其中,k1和k2分别为频谱功率密度的平均值和最大值对应的加权系数,tp为敏感度值。
22、进一步地,在攻击阶段,攻击者借助训练好的强化学习智能体,通过输入电力系统当前信号数据使智能体做出决策,对关键参数进行5到10倍数值的修改,让电力系统进入不稳定状态。
23、进一步地,攻击者在借助智能体做出动作决策的同时综合考虑收益与成本,收益与成本的判断维度包括攻击难度、攻击所需时间、可能被发现的风险和逆变器参数敏感度。
24、本发明还提供一种强化学习与模糊测试融合驱动的电力系统稳定性网络攻击装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,用于实现上述的强化学习与模糊测试融合驱动的电力系统稳定性网络攻击方法。
25、本发明还提供一种计算机可读存储介质,其上存储有程序,其特征在于,该程序被处理器执行时,实现上述的强化学习与模糊测试融合驱动的电力系统稳定性网络攻击方法。
26、本发明的优点及有益效果是:本发明将强化学习与模糊测试技术相结合,构建了无需电网模型知识的针对电力系统稳定性的黑盒网络攻击方法,说明了网络安全与分布式新能源节点对电力系统能否保持稳定发挥着关键作用。该攻击方法对未来的电力系统防护思路有着极好的参考与借鉴作用。
本文地址:https://www.jishuxx.com/zhuanli/20240911/290994.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。