一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种电力信息物理系统虚假数据注入攻击检测方法与流程

2022-02-25 18:24:40 来源:中国专利 TAG:


1.本发明涉及电力信息物理系统网络攻击防御领域,是一种电力信息物理系统虚假数据注入攻击检测方法。


背景技术:

2.作为具有重要战略意义的国家大型基础设施之一,电力系统是网络攻击的高价值目标。2019年初,国家电网公司将建设运营电力物联网确立在企业战略地位,电力系统的智能化程度将进一步提升,电力系统正成为典型的电力信息物理系统(cps),网络攻击所造成的影响可能超出正常预期。随着乌克兰停电事故、委内瑞拉停电事故的相继发生,网络攻击导致的电力系统严重破坏事件引起广泛关注,如何有效认识、检测各类恶意网络攻击是近年来电力系统安全领域的热点问题。
3.电网虚假数据注入攻击(false data injection at-tacks,fdias)是攻击者向电网量测量注入预先制定的虚假数据,经修改后的量测数据可绕过不良数据检测模块,在极为隐蔽的情况下改变电网运行状态或者非法获取经济利益,甚至导致大规模的停电事故。针对电力系统的攻击检测,已有一些学者进行了相关研究。针对电力系统的攻击检测,相关研究在实用性和准确性上都有了长足的进步。但目前的检测方法难以快速准确地检测出隐蔽性极强的虚假数据注入攻击。


技术实现要素:

4.本发明的目的是,针对电力信息物理系统网络攻击中虚假数据维度高、噪声强特性,难以直接应用于模型训练和检测实验的问题,提出一种电力信息物理系统虚假数据注入攻击检测方法。首先,通过结合孤立森林(iforest)与局部线性嵌入算法(lle),设计了iforest-lle电力量测数据特征提取方法;然后,利用决策树分类模型与梯度提升框架,组合设计了基于梯度提升决策树高精度攻击检测模型;最后,模拟攻击构造实验所需数据集,并进行算例分析,实验结果表明,提出的方法能有效检测虚假数据注入攻击并具备良好的检测精度。
5.本发明的目的是由以下技术方案来实现的:一种电力信息物理系统虚假数据注入攻击检测方法,其特征是,它包括以下步骤:
6.步骤1)提取攻击检测量测数据特征;
7.(1.1)基于孤立森林算法对电力信息物理系统中受攻击的数据进行异常分值提取,把攻击行为量化为异常特征,采样子数据集建立二叉孤立树itree,通过多个itree组合构成iforest,提取每个数据样本x的iforest异常分值特征iscore(x),每个数据样本x的iforest异常分值可表示为:
[0008][0009]
式中,h(x)为x的路径长度,即从根节点到被孤立节点边的总和,ξ为欧拉常数,e[h(x)]为所有itree上路径长度的均值,c(μ)为异常分值量化方程,当iscore(x)趋于0.5时,
正常程度越高,当其趋于1时,异常程度越高;
[0010]
(1.2)进一步使用非线性的局部线性嵌入(lle)进行数据降维,在保持高维空间非线性结构的同时,寻找其低维映射,寻找高维空间样本点与临近点距离,构建局部重建权值矩阵,寻找高维空间在低维空间的映射,输出新属性的特征数据集,提取攻击检测量测数据特征p=[id,iscore(x),f1,f1,

,fr]。
[0011]
步骤2)设计基于梯度提升决策树的攻击检测模型;
[0012]
(2.1)将cart回归树作为攻击检测模型的基学习器,通过不同的损失函数,使模型完成二元分类的学习任务,定义对数损失函数l(y,f(x)):
[0013]
l(y,f(x))=log(1 exp(-2yf(x)))
[0014]
(2.2)得到损失函数与初始化基学习器后,进入迭代提升过程,减少上一代模型损失函数极小值方向残差,不断建立更高精度的检测模型:
[0015][0016]fboost
(x)为最终的gbdt攻击检测模型,由不断提升的m个弱分类器组合而成,β
nm
为损失函数梯度下降方向的最优步长,i为过拟合系数。
[0017]
本发明的一种电力信息物理系统虚假数据注入攻击检测方法与现有技术相比的有益效果是:本发明特征提取与攻击检测方法有更高的检测精度与运行效率,达到了高精度检测的目标,具有良好的泛化能力,所提攻击检测方法可被借鉴用于其他种类的攻击。
附图说明
[0018]
图1为一种电力信息物理系统虚假数据注入攻击检测方法流程图;
[0019]
图2为不同特征提取方法的模型训练时间对比图;
[0020]
图3为不用特征提取方法的攻击检测精度对比图;
[0021]
图4为各种分类器的roc曲线对比图。
具体实施方式
[0022]
下面结合附图对本发明的一种电力信息物理系统虚假数据注入攻击检测方法作详细描述。
[0023]
一种电力信息物理系统虚假数据注入攻击检测方法,包括如下步骤:
[0024]
1)攻击检测量测数据特征提取。
[0025]
(1.1)基于孤立森林的异常分值提取
[0026]
精心设计的虚假数据注入攻击可成功躲避状态估计检测机制,使传统的异常检测算法失效,由于攻击向量存在随机性,受攻击的量测数据可能在通过状态估计检测机制的同时,存在数据分布或离群的差异,攻击检测的第一步是找到由于攻击随机性而产生的数据离群点。异常分值提取的目标是把攻击行为量化为异常特征。
[0027]
对于包含n条数据样本x的电力量测数据d,采样子数据集建立二叉孤立树itree,通过多个itree组合构成iforest,itree的建立过程如下:
[0028]
1)从电力数据集d中随机选择一个属性p;
[0029]
2)随机选择属性p中单个值q;
[0030]
3)根据选取的特征p,对每条记录进行二叉树分割,若属性p中的任意记录r<q,则将此记录放在左子节点,若r≥q,则放在右子节点;
[0031]
4)递归构造左子节点和右子节点,直到满足每条样本都被孤立或树的高度l达到了限定高度,构成itree。
[0032]
通过对量测数据集d的多次采样,得到众多子数据集,分别根据子数据集建立多个itree,以此构成iforest。通过对检测样本x在每棵itree遍历深度的量化,定义如下异常分值量化方程:
[0033][0034]
h(t)=ln(t) ξ
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0035]
每个数据样本x的iforest异常分值可表示为:
[0036][0037]
式中,h(x)为x的路径长度,即从根节点到被孤立节点边的总和,ξ为欧拉常数,e[h(x)]为所有itree上路径长度的均值。当iscore(x)趋于0.5时,正常程度越高,当其趋于1时,异常程度越高。
[0038]
(1.2)iforest-lle量测数据特征提取方法
[0039]
针对虚假数据注入攻击的检测,将离群特性量化后的异常分值iscore(x)作为攻击检测的一个独立特征,提取异常分值后的电力量测数据仍然具有维度高,噪声强的问题,需要进一步的数据降维。
[0040]
由于电力量测数据大多为非线性结构,使用主成分分析(pca)等线性降维方式,虽然实现简单,但处理后的数据训练时间长,检测效果欠佳,对于电力量测数据,本发明进一步使用非线性的lle进行数据降维,相较于传统的pca方法,lle可以在保持高维空间非线性结构的同时,寻找其低维映射,在分类决策上有更好的效果,适合本发明攻击检测的需求。该方法的主要流程为:
[0041]
step1:寻找高维空间样本点与临近点距离;
[0042]
step2:构建局部重建权值矩阵;
[0043]
step3:寻找高维空间在低维空间的映射,输出新属性的特征数据集;
[0044]
综合iforest在处理异常检测问题上和lle在处理高维数据属性降维的优势,提出iforest-lle电力量测数据特征提取方法,参照图1为算法流程。
[0045]
针对电力量测数据x,首先提取每条数据的异常分值iscore(x),并将其作为一个独立的特征,然后利用lle对其他维度的量测数据进行指定维度r的特征提取,在攻击检测时综合计算两种特征,由此,定义攻击检测量测数据特征p:
[0046]
p=[id,iscore(x),f1,f1,

,fr]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0047]
式中,id为数据样本编号,iscore(x)为iforest异常分值,[f1,f2,

,fr]为基于lle计算的量测数据特征,即新属性。
[0048]
2)基于梯度提升决策树的攻击检测模型
[0049]
本模型的优势在于相比较其他单一分类模型,有更高的分类精度,同时相比于人工神经网络,有更好的泛化能力与构建效率。
[0050]
(2.1)现给定包含n个样本的电力量测数据集x:
[0051]
x={xi},i=(1,2,

,n)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0052]
有如下分类标记值:
[0053][0054]
则有如下训练数据集:
[0055]
trax=(xi,yi)∈x
×yꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
[0056]
假设分类结果为ci,需要判断的新数据为x,,预测计算函数为:
[0057]
pre(xi)=f
p
(xi)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)
[0058]
则虚假数据注入攻击的检测问题可以表示为:
[0059][0060]
其中a为攻击注入向量,若a=0,则说明第i个数据样本没有受到攻击,反之,则判断受到攻击。
[0061]
攻击检测模型的学习目标是根据给定的量测数据训练集,求得精度最高的分类模型f
boost
(x),使数据样本x映射到分类结果y的损失函数l(y,f(x))达到最小,构建过程如下:
[0062]
(2.2)将cart回归树作为攻击检测模型的基学习器,损失函数的选择对影响模型效果有至关重要的作用,攻击检测的决策过程本质上是二元分类过程,通过不同的损失函数,使模型完成二元分类的学习任务,定义如下对数损失函数:
[0063]
l(y,f(x))=log(1 exp(-2yf(x)))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(10)
[0064]
初始化基学习器f0(x)。输入攻击检测特征训练集trax,损失函数:l(y,f(x)),设置相关参数,估计使损失函数最小化的值β:
[0065][0066]
式中,l(y,f(x))代表设定的对数损失函数。fo(x)是以cart为基础的弱分类器,或称基学习器。将通过以上工作得到损失函数与初始化基学习器后,进入迭代提升过程,模型的每一次提升是在上一代模型的损失函数极小值方向减少残差,不断建立更高精度的攻击检测分类模型。
[0067]
step1:设迭代次数为m,定义上一代模型损失函数极小值方向的残差r
im

[0068][0069]
step2:若迭代次数为m,将上式中得到的估计残差作为输入,求得m棵决策树的叶节点区域r
nm
,其中n=1,2,...,n。
[0070]
[0071]
step3:求得损失函数梯度下降方向的最优步长β
nm
,使损失函数极小值化:
[0072][0073]
step4:构建更高精度的弱分类器模型f
boost
(x),定义ν∈(0,1]为迭代提升的学习率:
[0074][0075]
step5:迭代结束,由m个更高精度的弱分类器组合得到最终梯度提升决策树模型:
[0076][0077]
其中,f
boost
(x)为最终的gbdt攻击检测模型,由不断提升的m个弱分类器组合而成。通过sigmoid函数思想,定义式(17),计算数据样本受数据篡改攻击的概率p

(x),和没有受到攻击的概率p-(x)。
[0078][0079]
发明人计算了采用本发明提供检测方法下的不同特征提取方法的模型训练时间,以及不同特征提取方法的攻击检测精度,以及各种分类器的roc曲线。图2给出了不同特征提取方法的模型训练时间,图3给出了不同特征提取方法的攻击检测精度,图4给出了各种分类器的roc曲线。从图2可以看出,所提iforest-lle特征提取方法的模型训练时间快于基本的lle方法。从图3可以看出,相较于基本的lle和pca特征提取方法,提出的iforest-lle特征提取方法更具检测精度优势。从图4可以看出,所提基于gbdt的虚假数据注入攻击检测方法可以较为准确地检测出受攻击量测数据,具备较低的误检率。以上证明了本发明提出方法的高效性与有效性。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献