技术新讯 > 计算推算,计数设备的制造及其应用技术 > 面向入侵检测特征分析的多解释融合算法  >  正文

面向入侵检测特征分析的多解释融合算法

  • 国知局
  • 2024-11-06 14:48:30

本发明涉及可解释机器学习及威胁检测领域,具体涉及一种面向入侵检测特征分析的多解释融合算法。

背景技术:

1、近年来,机器学习尤其是深度学习的发展十分迅速,在许多现实任务中得到了广泛应用,为生活中的问题提供了很好的解决方法。机器学习算法通过学习阶段构建预测模型,能够将用户特征映射到类(决策或结果),虽然可取的很好的效果,甚至在某些应用中人类尚不可及,但是现如今的各种模型大多不具备可解释性,人们也对此充满疑虑、无法完全信任。由于训练数据收集中的系统偏差,算法可能会从训练数据中学习到伪相关信息,结果导致无意中做出错误的决策,而如果算法不具备可解释性,算法做出错误决策人们也无从得知。机器学习模型尤其是复杂的深度学习模型,就像一个黑盒子,给它一个输入,我们就可以得到一个判断结果,它的决策依据对于我们来说却是未知的,因此,这给一些领域实际的应用可能会带来严重的威胁和非常多的不确定性

2、当前的研究中,尤其是在可解释性入侵检测系统领域,尽管已经取得了一定的进展,但是还面临着一些挑战和问题。一个显著的问题是,在处理特定数据集时,由于不同的解释方法基于各自独特的机制来阐释模型的预测,它们往往关注不同的方面,并可能导致提供差异化的重要特征解释。这种差异性使得研究人员难以完全信赖任何单一的解释方法,它们对于模型预测的理解存在分歧。此外,解释结果的这种不一致性也为评估模型的解释能力带来了困难。如果不同的方法给出了不同的最重要特征,那么决定哪些特征确实对模型预测至关重要将变得复杂。这就需要一种更加有效的方式来整合多种解释方法的视角,以便提供一个更为一致和全面的解释框架。

技术实现思路

1、本发明的目的主要针对现有的一些研究不足之处。提出一种面向入侵检测特征分析的多解释融合算法,采用三种评价解释方法性能的指标作为权重值,融合三种事后解释方法,解决了不同的解释方法给出的观点不尽相同的问题。

2、本发明的技术方案:

3、一种面向入侵检测特征分析的多解释融合算法,步骤如下:

4、1.对原始威胁网络流数据进行独热编码、特征缩减、数据标准化等处理,并对处理后的威胁数据集按照训练集:测试集7:3的比例进行划分;

5、2.将划分好的数据集输入随机森林模型中进行训练,分别使用基于shap的解释方法,基于lime的解释方法,基于pfi的解释方法进行解释;

6、3.分别计算三种方法一致性分数,复杂性分数和可靠性分数;

7、4.进行多解释方法融合计算,以三种评价解释方法性能的指标作为权重值,融合shap、lime和pfi三种解释方法;

8、步骤1):对原始威胁网络流数据进行独热编码、特征缩减、数据标准化等处理,并对处理后的威胁数据集按照训练集:测试集7:3的比例进行划分;

9、对网络流数据进行预处理,进行标签独热编码,量化名义特征,剔除掉冗余和无意义的特征,最后输出77维度特征的数据集,并对预处理后的威胁数据集按照训练集:测试集7:3的比例进行划分。

10、步骤2):将划分好的数据集输入随机森林模型中进行训练,分别使用基于shap的解释方法,基于lime的解释方法,基于pfi的解释方法进行解释;

11、使用划分好的训练集对随机森林模型进行训练,首先采用lime算法对模型进行解释,lime算法通过在模型的预测周围创建一个局部的数据集并在这些数据上训练一个简单模型来近似原始复杂模型的行为,这使得它能够解释任何模型的单一预测。具体实现公式如下:

12、ξ(x)=argming∈gl(f,g,wx)+ω(g)

13、其中,ξ(x)表示对实例x的解释,g是实例x对应的可解释模型,argming∈g表示在所有可能的解释模型g中找到使得目标函数最小的那个g,f表示原始模型,wx表示采样数据与原始数据的接近程度,l(f,g,wx)表示损失函数,衡量解释模型g在权重函数wx加权下对原始模型f预测结果的逼近程度,ω(g)表示模型g的复杂度。按照上述方法,在lime中使用新的数据集来训练模型g,该模型被认为学习了原始模型f的局部行为,以实现在这一局部的预测解释。

14、其次采用pfi算法对模型进行解释,该方法通过排列输入特征值来计算拟合模型的预测误差变化。具体来说,首先将模型在某个数据集上的预测结果保存下来,然后随机打乱数据集中某个变量的值,再次使用模型进行预测,并比较两次预测结果的差异。如果打乱某个变量后模型的预测结果发生了显著变化,那么可以认为这个变量对模型的预测结果有重要影响。pfi算法有三个步骤。输入训练过的模型特征矩阵x,目标向量y,误差度量

15、步骤1.估计原始模型错误

16、步骤2.对于每一个特征j∈{1,…,p},通过排列数据x中的特征j来生成特征矩阵xperm。这样断开了特征j和真实结果y之间的关联。估计误差基于排列后数据的预测。计算排列特征重要性,作为商fij=eperm/exrig或差异fij=eperm-eorig;

17、步骤3.对特征按照fij的大小进行排序;

18、最后使用shap算法进行解释,shap的基础理论源自shapley值,它设计了一种方法来评估个体玩家如何在一个协作游戏中为成功做出贡献。shapley值被认为是特征值对预测的平均贡献:

19、

20、其中:φj(val)表示特征j的shapley值,它表示特征j对预测结果的平均边际贡献。表示对所有不包含特征j的特征子集s进行求和。s表示特征子集,表示s是不包含特征j的所有特征的一个子集。|s|表示集合s的个数,|s|!表示集合|s|的阶乘。p是总特征数,p!是总特征数的阶乘,val(s∪{j})是当特征子集s加上特征j时的模型预测值,val(s)是特征子集s时的模型预测值,val(s∪{j})-val(s)表示特征j对特征子集s的边际贡献。

21、shap通过计算每个特征的贡献来应用于实例x的预测:

22、

23、其中,g(z′)是解释模型的输出,φ0是基准值,表示没有特征时模型的预测值,通常是所有样本的平均预测值。是解释模型的加和部分,表示每个特征对预测结果的贡献的总和。φj是特征j的shap值,表示特征j对预测结果的边际贡献。z′j是特征j的指示变量,表示特征j是否被包含在模型中,m表示特征的总数。

24、步骤3):分别计算一致性分数,复杂性分数和可靠性分数,为三种方法融合做准备;

25、首先对三种解释方法分别进行一致性计算,一致性度量了模型中每个特征的重要性与解释方法给出的特征重要性得分的接近程度。具体公式如下:

26、

27、emi代表模型所给出的特征i的特征贡献得分,代表第d个样本的解释方法所给出的特征i的特征贡献得分,n代表特征数量,为第d个样本对应第k种解释方法的一致性分数。

28、进一步地,进行复杂性计算,复杂性主要考虑使用更少的特征来描述预测结果的解释,使用大量特征来描述预测结果的解释是相对复杂的,无法从中提炼出最具辨识度的分类特征。其中第d个样本对应第k种解释方法的复杂性分数计算定义为:

29、

30、表示样本d第i个特征的特征贡献度占全部征的特征贡献度的比值。

31、

32、表示样本d第i个特征的特征贡献度。

33、进一步地,进行可靠性计算,对于任意数据样本,首先测量从它到所有其他样本点的欧几里德距离,然后分别计算出在预测结果一致和不一致的条件下选择前10%的相邻数据点作为对比,以此来衡量解释的可靠性。其公式如下:

34、

35、

36、为第d个样本在预测结果一致性条件下的可靠性,为样本在预测结果不一致性条件下的可靠性,表示通过解释法给出样本的相邻数据的特征重要度,k是特征的数量。表示通过解释方法给出样本的不同类别相邻数据点的特征重要性。m表示前10%的相邻数据点。

37、接下来将原始数据和标准化,并使用这些标准化值来计算出综合的可靠性:

38、

39、

40、

41、其中为样本的相同类别的数据点,为样本的不同类别的数据点。为最终计算后的可靠性得分。

42、步骤4):进行多解释方法融合计算,以三种评价解释方法性能的指标作为权重值,融合shap、lime和pfi三种解释方法;

43、首先,分别计算出每种方法下对应的一致性分数、复杂性分数和可靠性分数的样本均值,对于每种类型的攻击,定义一个包含shap、lime和pfi方法计算特定模型下所对应的一致性分数c、复杂性分数s和可靠性分数u的3*3矩阵a=aij,矩阵的列分别对应一致性得分、复杂性得分和可靠性得分。矩阵的行对应于三种解释方法:shap、lime和pfi。分别将三个分数统一进行归一化操作:

44、

45、归一化后,求对应每种解释方法的三个评价指标维度下的综合解释性表现,k∈{0,1,2}分别表示shap、lime和pfi三种解释方法。这个得分反映了三个评价指标维度下的综合解释性表现:

46、

47、其中wj表示第i个指标的客观权重:

48、

49、mj表示信息量,第j个指标在整个指标体系中的作用越大,就应该给其分配更多的权重:

50、

51、rj是指标的相关系数冲突以相关系数的形式来表现,rij表示指标i和j之间的相关系数:

52、

53、vj是指标变异性,使用标准差来表示各指标的内取值的差异波动情况,标准差越大表示该指标的数值差异越大,越能放映出更多的信息,该指标本身的评价强度也就越强,应该给该指标分配更多的权重,xij为对应第i个样本的第j个评估指标,为第j个评估指标的样本均值。

54、

55、接下来,将这些分数分配给每个方法所给出的特征重要性分数:

56、sk=gktk

57、tk表示在方法k下获得n个特征的重要性得分。为了确保解释维度的一致性,将每种方法给出的特征重要性行归一化操作:

58、

59、是归一化后的方法k下第i个特征的重要性得分。是原始的特征重要性得分。min(sk)是sk中的最小值,max(sk)是sk中的最大值,是归一化后sk。

60、最后,将三种方法的每个特征的加权重要性相加,得到最终的分数sfinal:

61、

62、并对它们进行再次排序,得到最终的排序后的解释结果。

63、本发明的有益效果

64、本发明提出一种多解释方法融合技术,在这项工作中,设计3个解释评估指标以融合shap,lime,pfi三种解释方法。

65、本发明通过融合多种解释方法,不仅弥补了单一解释方法的局限性,还确保了解释结果的全面性和可靠性,有效提取不同解释方法视角下的优点并互相弥补不足。

66、本发明有效的解决了不同的解释方法给出的观点不尽相同的问题,更好地提高入侵检测系统的透明性。

本文地址:https://www.jishuxx.com/zhuanli/20241106/324227.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。