融合BalancedWCGAN-GP与IBA0A特征选择的网络入侵检测方法
- 国知局
- 2024-11-21 12:19:45
本发明涉及一种融合balanced wcgan-gp与iba0a特征选择的网络入侵检测方法。
背景技术:
1、随着互联网服务的广泛普及,服务提供商和用户面临着日益严峻的系统安全保护挑战,尤其是在应对新型攻击和破坏方面。网络入侵检测系统通过分析网络数据包来识别潜在威胁。然而,在处理特征冗余和类别不平衡严重的数据集时,提升入侵检测的预测精度已成为亟待解决的关键问题。此外,现有大多数基于机器学习的入侵检测模型由于数据不平衡和特征冗余问题,常导致训练效果不佳,进而影响检测准确性,并在特征选择优化中面临较高的复杂性。
2、为解决上述问题,提供一种融合balanced wcgan-gp(改进的条件生成对抗网络)与iba0a(改进二进制算法优化算法)特征选择的网络入侵检测方法。
技术实现思路
1、本发明的目的在于克服现有的缺陷而提供的一种融合balanced wcgan-gp与iba0a特征选择的网络入侵检测方法,解决了传统网络入侵检测数据集中的数据不平衡问题,实现了多类分类任务。
2、实现上述目的的技术方案是:
3、融合balanced wcgan-gp与iba0a特征选择的网络入侵检测方法,包括:
4、步骤s1,获取入侵检测数据集,并对入侵检测数据集进行预处理;
5、步骤s2,通过balanced wcgan-gp模型对数据集进行不平衡处理;
6、步骤s3,通过mrmr算法策略、sigmoid传递函数、lévy飞行和macro f1分数加权适应度函数改进aoa算法,形成iba0a模型,筛选出数据集中的关键特征;
7、步骤s4,将筛选出的特征组合被输入至网络入侵检测分类模型,并使用tpe优化算法对网络入侵检测分类模型的参数寻优,执行最终的入侵检测与分类。
8、优选的,所述步骤s1中,入侵检测数据集采用nsl-kdd和cicddos2019,包括攻击类别与正常流量的相关数据。
9、优选的,所述步骤s1中,预处理方式包括空值处理、标签编码和最大-最小值缩放;
10、其中,空值处理是通过删除缺失值、不相关的参数,清理并过滤数据;
11、标签编码是在应用归一化技术之前,对除最后一个特征以外的所有分类特征进行标签编码;
12、最大-最小值缩放在标签编码后,对获得的输出应用最小-最大归一化技术,以将每个特征的数值范围缩放至[0,1]区间,其转换公式为:
13、;
14、式中,和分别是特征向量的最小值和最大值,和分别是特征样本的原始值和归一化后的值。
15、优选的,所述步骤s2中,wcgan在生成器和判别器的输入中引入了条件信息,判别器不仅需要区分生成数据与真实数据,还需要判断数据是否与给定的条件信息相符,即cgan的目标函数如下:
16、;
17、式中,和分别为判别器和生成器的输出,和分别为真实样本和噪声,和分别表示对真实样本分布和噪声分布的期望值,为条件信息;
18、将wasserstein距离引入wcgan,代替其中的js散度,用于度量从一个分布到另一个分布的最小代价,其公式如下:
19、;
20、式中,表示集合的下限集,表示分布所有可能组合的联合分布集合,对每个可能的联合分布,计算采样自的之间距离的期望,所有不同联合分布中期望的最小值即为分布的wasserstein 距离;
21、模型中采用 lipschitz 限制条件,而其连续性定理限制了连续函数的最大局部变化,其公式如下:
22、;
23、式中,和分别表示函数在输入值和处的函数值,为lipschitz常数,表示函数在定义域内变化的最大速率;
24、则,wcgan 模型的目标函数如下:
25、;
26、在处理lipschitz分布时,权重剪裁容易导致梯度消失甚至梯度爆炸,在总损失函数中引入梯度惩罚gp可以形成wcgan-gp网络,从而使训练更为稳定,wcgan-gp的目标函数为:
27、;
28、;
29、式中,为惩罚项系数,和分别为真实数据和生成器生成数据,为一个随机数,服从 [0,1]上的均匀分布,为的期望函数,为将输入判别器后其梯度的二范数;
30、引入逆比例权重思想对wcgan-gp的目标函数进行改进,形成balanced wcgan-gp模型,根据每个类别的样本量调整损失函数中的权重,从而使得目标函数在优化过程中更加关注样本量少的类别,改进后的目标函数如式:
31、;
32、式中,为类别的总数,为类别的逆比例权重,具体为:
33、;
34、式中,是类别的样本数量,类别样本数量少的类别会有更高的权重,从而促使生成器更加关注这些少数类别,此时判别器损失和生成器损失 分别如下式:
35、;
36、。
37、优选的,所述步骤s3中,通过mrmr算法策略初始化aoa的种群,首先计算特征与标签之间的相关性以及特征之间的冗余度,然后通过计算mrmr值并对特征进行排序,选取具有最大相关性和最小冗余的特征,其中,计算特征与标签之间的相关性,其公式如下:
38、;
39、式中,代表特征集与类别之间的相关性,由各个特征和类别之间的所有互信息值的均值定义,而代表单个特征和类别的互信息值,其计算方式如下:
40、;
41、式中,是两个随机变量,是和的联合概率密度函数,而和分别是和的边缘概率密度函数;
42、计算特征之间的冗余度,其公式如下:
43、;
44、为剔除冗余特征并筛选出相关性高、冗余度低的特征集合,通过计算差值,相关性越大、冗余度越小的特征会获得更高的mrmr值,其公式如下:
45、;
46、特征进行排序得到每个特征的排名;
47、确保种群在特征选择的过程中具有较好的覆盖范围和初始解质量,根据数据集中特征的mrmr值排名与总特征数量,设定选定前个特征的范围,其公式如下:
48、;
49、式中,表示向上取整,表示向下取整;
50、值在确定的范围内均匀分布,生成值集合,其中每个值对应一个种群个体,值的生成公式如下:
51、;
52、式中,表示第个种群的特征数量,即第个种群包含了mrmr值排名前个的特征,是aoa算法初始化的种群总数,是当前种群的索引,范围从0到。
53、优选的,所述步骤s3中,为有效将连续搜索空间映射到离散搜索空间,采用sigmoid传递函数,将aoa转换为二进制形式,其公式如下:
54、;
55、式中,是指在迭代第次时维度中的位置,为将其映射到离散空间,对应的更新公式如下:
56、。
57、优选的,所述步骤s3中,采用lévy飞行解决aoa在搜索过程中也可能陷入局部最优值的困境,lévy步长表达式如下:
58、;
59、式中,和是服从正态分布的变量,即,,,定义为:
60、;
61、式中,是标准伽玛函数,取值范围是[0, 2];
62、将lévy飞行引入aoa的勘测阶段中,增强其全局搜索能力和跳出局部最优的能力,改进后的位置更新公式为:
63、;
64、式中,表示第个解的第个位置在下一次迭代中的更新,为到目前为止获得的最好解中的第个位置,是一个很小的数,和分别代表第个位置的上界和下界,为控制参数,设定为0.5,为随机数,是一个缩放因子,用于调整lévy飞行步长的影响范围,通常取值较小,取值为0.01。
65、优选的,所述步骤s3中,引入macro f1分数作为分类性能的指标,并结合特征数量来构建适应度函数,以实现特征选择的双重目标,减少特征数量和提升分类性能,相应的适应度函数表示如下所式:
66、;
67、式中,是数据集特征的数量,是选择的特征数量,用于调节选择特征的强度,设置范围是[0, 1],相比于压缩特征,目的是寻找最佳泛化性能的特征组合,设置为0.01,是分类类别的数量,计算公式如如下所式:
68、;
69、式中,是模型在第个类别的f1分数,计算方式如下所式:
70、;
71、式中, 代表第个类别的精度,代表第个类别的召回率。
72、优选的,所述步骤s4中,网络入侵检测分类模型是通过ibaoa方法筛选出的最佳特征被构建为新的特征集,随后采用正则化损失函数的xgboost分类器对这些特征进行分类,其中,xgboost分类器训练过程包括正则化和提升两个阶段;
73、正则化阶段:
74、设网络入侵检测数据特征集为;共有个样本,为特征空间,数据子集对应的标签为,因此棵回归树的最终预测结果如式:
75、;
76、式中,,为所有回归树的集合,为树的结构,是树中叶子节点的个数;
77、为了控制模型的复杂度并防止过拟合,引入正则化项 ,进一步得到目标函数(o)的表达式为:
78、;
79、式中,;
80、为第个样本对应的真实标签,为损失函数,和为惩罚项系数,为第个叶子节点的权重;
81、提升阶段:
82、设为第个样本在次迭代时的预测值,利用前向分步加法算法,添加到模型中进行新函数的学习,此时目标函数转换为:
83、;
84、进一步对进行二阶泰勒展开,目标函数二阶近似优化为:
85、;
86、式中,,为损失函数的一阶导数,,为损失函数的二阶导数,去掉常数项后,公式如下所式:
87、;
88、对于固定的树结构,叶子的最优权重计算公式为:
89、;
90、相应的最优值计算公式为:
91、;
92、式中,为树的目标分数,值越小越好,使用贪婪算法从树的根节点开始迭代地向树中添加分支,逐步构建出整棵树,枚举出可行的分割点,选择最小,损失函数减少量最大时的分割点作为划分点,设和是分裂后左、右节点的样本集,令,则拆分后的损失函数减少量如下所式:
93、。
94、优选的,所述步骤s4中,tpe优化算法优化网络入侵检测分类模型结构与参数的具体步骤如下:
95、导入原始数据,设置分类器的结构与超参数范围,并随机生成一组初始化参数组合;
96、执行tpe概率密度估计,通过采样函数计算ei值,并根据先前采样的ei值选择下一个需要评估的参数组合;
97、将具有最大ei值的参数组合输入分类器进行训练,并输出当前超参数下的模型预测结果;
98、如果新选择的参数组合的误差符合精度要求,则终止算法执行,并输出相应的参数组合和模型的预测误差;
99、如果不符合精度要求,则对采样函数进行修正,重新tpe概率密度估计,直到满足设定的迭代次数为止;
100、其中,通过对和进行建模,代替了对的单一建模,代表解的分布情况,代表已知解的情况下参数的分布情况,引入了优化标准来引导搜索配置空间,的计算如下:
101、;
102、式中,是已经定义好的阈值,表示观测值的损失函数比小的密度估计值,表示观测值的损失函数比大的密度组成;
103、的定义如下所示:
104、;
105、通过转化,并构建函数:
106、;
107、即,在最大化寻找更优的超参数过程中,应该逐步迭代到使 更小的值,即逼近最大概率的和最小概率的。
108、本发明的有益效果是:本发明所提出的balanced wcgan-gp通过引入逆比例权重,优化了wcgan-gp的损失函数,有效克服了传统条件生成对抗网络在生成少数类数据时的不足,显著提高了生成数据的质量;改进二进制算数优化算法通过sigmoid传递函数使得传统算数优化算法得以应用于特征选择,并利用mrmr初始化策略生成更优的初始特征子集;通过lévy飞行策略缓解了算法陷入局部最优的风险,并通过调整适应度函数使其更适用于类别不平衡的数据,最终在较少的迭代中提取出最优特征组合;最后结合tpe算法进一步优化的正则化xgboost分类器,实现了对入侵模式的精准且稳健的分类。
本文地址:https://www.jishuxx.com/zhuanli/20241120/335224.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表