一种集成式的SMOTE算法

2022-08-03 02:08:30 来源：中国专利 TAG：

一种集成式的smote算法
技术领域
1.本发明涉及入侵检测领域，尤其涉及在恶意攻击样本与正常流量样本数量差距较大的情况下，深度神经网络模型非常容易将几乎所有的样本识别成正常流量样本。为了解决用于训练的数据集类别不平等的问题，本发明提出了一种集成的 smote算法来合成攻击样本。

背景技术：

2.随着网络技术的高速发展，人类社会逐渐高度互联。依托于云技术、大数据和人工智能等技术设计的产品及提供的服务方便着人类的生产和生活，人类可以网络购物、在线办公、云数据的存储等等。当今社会，互联网技术不仅对个人，对于企业乃至国家和世界已经成为不可缺少的一部分。
3.众多事件表明，网络安全问题迫在眉睫，足以引起人们的重视，设计了防火墙和入侵检测系统进行防御。
4.目前，入侵检测方法除去传统的方法外，在机器学习技术和深度学习技术中都有在入侵检测领域应用。然而，机器学习的技术在特征提取过程中需要专家来指定，对于高维和海量的数据不具有优势，有着较高的误报率。深度学习可在数据中自动提取特征，深层的非线性网络结构对于特征有着强有力的拟合能力，对复杂的入侵行为预测能力更强，因此逐渐成为近年的研究热点。但是深度学习模型易受到训练数据集的样本数量及样本中类别比例的干扰，同时在训练过程中存在训练时间长、收敛速度慢等问题。本发明的目的在于为实现更好的检测效果，针对数据不平衡的问题采用过采样的方法扩充原始数据集，保证训练样本的类别比例适合。同时优化深度学习模型中的损失函数，使其主要关注那些少且难以区分的样本，加快模型的收敛。通过对非平衡数据的扩充，深度学习模型的优化使得在入侵检测系统中性能的提升，在网络安全技术发展的方向具有重要意义。

技术实现要素：

5.为解决入侵检测数据集中正常流量样本与攻击样本数量差别过大的问题，本发明从数据方面着手，采用合成新的攻击样本方式增加其数量，最终使得两种不同的类别在数量上能够趋于平衡。
6.为了合成新样本，前人提出过不少的方法。例如，adasyn算法引入了自适应的思想，根据一个少数类样本的k近邻中多数类样本的多少来决定合成样本的数量。受这一思想启发，本发明提出了一种集成的smote算法来合成攻击样本。它主要能够从两个角度去合成新样本。一是从攻击类型样本的p
t
值的角度合成新样本，二是基于攻击样本的所处空间的密度值去合成新样本。在普通的交叉熵损失函数中，会得到一个损失值p。p
t
的计算公式如下：
7.8.对于一个具体的样本来说，p
t
值越大则表示一个样本越是难分。那么在合成新样本的时候要关注到那些难分的样本。同样地如果一个攻击样本所处的空间位置缺少其他攻击类型的样本，那么分类模型也很难学习到它的特征。为了能够学习到这些样本的特征，在合成新的攻击样本时应当着重以这些样本为核心去合成新样本。
9.本发明采用的技术方案为一种基于smote的入侵检测数据集样本合成方法，
10.1)预训练分类器，对于攻击类型中的每个样本的xi计算的p
t
值，记为p
ti
。
11.2)对于攻击类型中p
ti
高于p
t
安全值min
p
的样本,将该样本加入p
t
样本集合中。
12.3)对于p
t
样本集合中每一个样本xi计算在p
t
样本集合中的k个最近邻样本。
13.4)计算p
t
样本集合中每一个样本xi与k近邻样本距离，记为d
ij
。
14.5)对于p
t
样本集合中每一个样本xi，计算其与k近邻样本距离之和为di,公式如下：
[0015][0016]
6)计算p
t
样本集合中样本xi的密度系数，记为ri，公式为：
[0017][0018]
当ri越大时，该样本所处的位置攻击类样本的密度越低；当ri越大时，该位置的密度越高。其中ms表示当前所处p
t
集合样本的数量。
[0019]
7)将p
t
集合中密度系数高于ri安全值minr的样本加入新集合q
[0020]
8)对于集合q中的每一个样本xi，归一化其p
t
值与密度系数ri。公式如下：
[0021][0022][0023]
其中，r
min
，r
max
分别是集合q中样本的密度系数最小值与最大值。p
t_max
与 p
t_min
分别表示集合q中样本的p
t
的最小值与最大值。
[0024]
9)对于集合q中的每个xi，根据两个参数r'i和p'
ti
计算合成系数，记为rpi，公式如下：
[0025][0026]
公式里的α是[0,1]区间的有理数，它作为一个超参数用来调整基于密度和基于p
t
的关注程度。mq表示的是集合q的样本数量。
[0027]
10)计算需要合成的样本总数，公式如下：
[0028]
g＝(m
l-ms)
×
β
[0029]
其中m
l
为原数据集中多数类样本数量。β是[0,1]区间的有理数。在合成新样本的过程中，β作为超参数来调整合成样本的数量。
[0030]
11)计算集合q中的样本xi需要合成的新样本数量，记为gi。公式如下：
[0031]gi
＝g
×
rpi[0032]
对于集合q中每一个样本xi，根据gi值来合成新的少数类样本。
[0033]
与现有技术相比较，本发明将把这两种不同关注点整合起来，使得在合成新样本的时候能够同时从两个不同的角度去关注攻击类型的样本，这能够更加有效地应对入侵检测的类别不平衡问题。在设计集成式的smote算法时，设置超参数α来控制两种不同的角度在合成新样本中的权重占比，使得合成的新样本具有一定的偏向性。
附图说明
[0034]
图1为本发明所提供的整体流程示意图。
[0035]
图2为采用本方法的分类模型示意图。
具体实施方式
[0036]
本发明将把这两种不同关注点整合起来，使得在合成新样本的时候能够同时从两个不同的角度去关注攻击类型的样本，这能够更加有效地应对入侵检测的类别不平衡问题。在设计集成式的smote算法时，设置超参数α来控制两种不同的角度在合成新样本中的权重占比，使得合成的新样本具有一定的偏向性。以下是集成式smote算法详细描述：
[0037]
预训练分类器，对于攻击类型中的每个样本的xi计算的p
t
值，记为p
ti
。
[0038]
对于攻击类型中p
ti
高于p
t
安全值min
p
的样本,将该样本加入p
t
样本集合中。
[0039]
对于p
t
样本集合中每一个样本xi计算在p
t
样本集合中的k个最近邻样本。
[0040]
计算p
t
样本集合中每一个样本xi与k近邻样本距离，记为d
ij
。
[0041]
对于p
t
样本集合中每一个样本xi，计算其与k近邻样本距离之和为di,公式如下：
[0042][0043]
计算p
t
样本集合中样本xi的密度系数，记为ri，公式为：
[0044][0045]
当ri越大时，该样本所处的位置攻击类样本的密度越低；当ri越大时，该位置的密度越高。其中ms表示当前所处p
t
集合样本的数量。将p
t
集合中密度系数高于ri安全值minr的样本加入新集合q；对于集合q中的每一个样本xi，归一化其p
t
值与密度系数ri。公式如下：
[0046][0047][0048]
其中，r
min
，r
max
分别是集合q中样本的密度系数最小值与最大值。p
t_max
与 p
t_min
分别表示集合q中样本的p
t
的最小值与最大值。对于集合q中的每个xi，根据两个参数r'i和p'
ti
计算合成系数，记为rpi，公式如下：
[0049]
[0050]
公式里的α是[0,1]区间的有理数，它作为一个超参数用来调整基于密度和基于p
t
的关注程度。mq表示的是集合q的样本数量。
[0051]
计算需要合成的样本总数，公式如下：
[0052]
g＝(m
l-ms)
×
β
[0053]
其中m
l
为原数据集中多数类样本数量。β是[0,1]区间的有理数。在合成新样本的过程中，β作为超参数来调整合成样本的数量。
[0054]
计算集合q中的样本xi需要合成的新样本数量，记为gi。公式如下：
[0055]gi
＝g
×
rpi[0056]
对于集合q中每一个样本xi，根据gi值来合成新的少数类样本。
[0057]
在样本合成算法方面，采用以下较为简单的方式：
[0058]
1)对于集合q的一个样本xi，选取k近邻中的任意两个个样本xj，xk；利用这两个样本合成一个临时样本x
tem
，公式如下
[0059]
x
tem
＝xi rand(0,1)*(x
j-xk)
[0060]
其中rand(0,1)并不只是在指区间(0，1)的一个随机数，而是一个随机向量，其维度与与数据集中样本的特征维度一致，如[0.1,0.05,0.2,0.3
……
]。这样不再是两个样本的简单特征的合成。
[0061]
2)使用x
tem
与xi合成新样本x
new
，公式如下：
[0062]
x
new
＝x
tem
e
(rand(0,1)-1)*5
*(x
tem-xi)
[0063]
采用新的成全方式，避免新生成的样本呈现现出在x
tem
与xi均匀分布的现象，而是具有向xi的倾向性，并且x
new
也不是x
tem
与xi这个两个样本的简单特征的合成的向量组合。这样的方法使得合成的x
new
更具真实性，更加具备攻击类型样本的特征。示意图如图2所示，对于攻击样本来说，在第二步中去除了高于p
t
安全值min
p
的样本，在第四步中去除了密度系数高于ri安全值minr的样本，最终得到了集合q。这样用来合成新样本的集合q都从样本的p
t
值和密度两个角度排除了一部分噪音样本，可以在一定程度上减少噪音的合成，有利于分类模型的训练。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种集成式的SMOTE算法

相关文献

最热文献