技术新讯 > 电子通信装置的制造及其应用技术 > 基于联合随机森林的网络入侵检测方法 > 正文

基于联合随机森林的网络入侵检测方法

国知局
2024-12-06 12:34:48

本发明涉及网络入侵检测方法，尤其是涉及一种基于联合随机森林的网络入侵检测方法。

背景技术：

1、在当今数字化时代，互联网技术的飞速发展对社会的各个方面都产生了深远影响。随着信息化的不断推进，互联网已成为日常生活和工作不可或缺的一部分。然而，信息技术的发展也伴随着日益增长的网络安全挑战，随着互联网用户数量的爆炸式增长和各种智能设备如计算机、移动设备及物联网设备等的普及，网络攻击的频率和复杂性也显著增加。网络攻击不仅会给个人用户和企业带来直接的经济损失，还可能威胁国家安全，甚至引发地缘政治冲突。

2、在这种背景下，网络入侵检测技术成为保障网络安全的重要手段。传统的入侵检测方法主要依赖于规则和签名的匹配，这些方法虽然在检测已知威胁方面具有较高的准确性，但面对新型和未知威胁时，其效果显著下降。具体而言，基于规则的入侵检测系统需要持续更新规则库，面对复杂多变的攻击模式，规则库的维护和更新变得越来越困难。传统方法的另一缺陷是其在应对高级持续性威胁(apt)时表现出不足，这类攻击往往隐蔽性强，无法通过简单的签名匹配或规则判断进行有效检测。

3、为应对这一挑战，越来越多的研究者开始探索利用机器学习技术来提高入侵检测的智能化和准确性。机器学习，尤其是监督学习，已被广泛应用于网络入侵检测领域。基于数据集中的正常和异常流量样本进行训练，机器学习模型能够自动识别潜在的网络攻击。其中，随机森林作为一种集成学习方法，因其高效性、鲁棒性、可解释性和易拓展性，在网络入侵检测任务中展现出强大的应用潜力。随机森林通过构建多棵决策树，并在分类时综合各棵树的预测结果，从而提高整体模型预测的准确性和稳定性。然而，随机森林等传统机器学习模型的有效性依赖于数据的充分性和多样性，随着数据隐私和安全问题的日益凸显，传统的集中式机器学习方法在收集和处理大规模用户数据时面临诸多限制，尤其网络攻击的特征数据比一般数据更为敏感，集中存储和处理这些数据带来了严重的安全风险。

4、联邦学习是一种新兴的分布式机器学习技术。联邦学习通过在不同参与方的本地训练模型，仅传输模型信息到中心服务器进行聚合，既保护了用户数据的隐私，又能充分利用分布式的数据资源进行模型训练。然而，现有的联邦学习框架在处理异构数据和提升模型泛化能力方面仍然面临挑战，尤其是在面对复杂多样的网络攻击模式时，常常会出现训练过程不稳定，模型收敛慢甚至无法收敛的情况。

技术实现思路

1、本发明针对现有技术的不足，提出了一种结合集成学习和联邦学习的网络入侵检测方法，实现了在保护数据隐私的前提下，充分利用各方本地数据，构建高效、鲁棒、可解释且具有高泛化能力的入侵检测模型。该方法能够有效解决现有技术在数据隐私保护、模型泛化能力、训练过程难收敛和复杂网络攻击检测方面的不足。

2、本发明的目的可以通过以下技术方案来实现：

3、本发明提供了一种基于联合随机森林的网络入侵检测方法，其包括以下步骤：

4、(1)各参与方准备本地网络流量原始数据集，将数据集内的网络流量样本分为正常样本和异常样本，并进行训练集和测试集的划分和预处理；

5、(2)各参与方使用本地原始数据集训练第一随机森林模型，对参数进行调优，使得第一随机森林模型的auc最小；将训练好的第一随机森林模型上传至中心服务器，中心服务器将来自各参与方的第一随机森林模型集成得到集成随机森林模型并分发给各参与方；

6、(3)各参与方将本地原始训练集分为k个子集，进行k组训练和预测任务；其中，各组选择1个不同的子集作为待预测的子集，并在其余k-1个训练子集上训练新的第二随机森林模型，使用训练得到的第二随机森林模型在待预测的子集和原始测试集上进行预测；将k组任务得到的预测子集的预测结果拼接起来，作为新的训练集的特征；取k组任务得到的k个原始测试集的预测结果的平均值，作为新的测试集的特征；

7、(4)各参与方在接受到中心服务器的集成随机森林模型后，使用接收到的集成随机森林模型中来自其他参与方的第一随机森林模型对自己本地的原始数据集进行预测，将预测结果作为新的训练集和测试集的特征；

8、(5)各参与方利用步骤(3)和(4)得到的特征进行本地新数据集的构造；中心服务器初始化逻辑回归模型并分发给各参与方；

9、(6)各参与方基于新的训练集和测试集，使用联邦学习fedavg算法对逻辑回归模型进行训练，达到训练epoch轮数或要求的精度后停止训练；

10、(7)各参与方将集成随机森林模型和训练得到的逻辑回归模型组成联合随机森林模型，把联合随机森林部署在本地，执行入侵检测任务。

11、与现有技术相比，本发明的有益效果包括：

12、(1)本发明提出的方法具备高效性、鲁棒性、可解释性和易拓展性。联合随机森林的高效性和鲁棒性，使其在低算力的边缘设备上也能高效地执行入侵检测任务。由于随机森林中每个节点的分裂都有其特征依据，可以充分解释模型的预测结果，模型分类的结果是有据可循的。此外，由于联合随机森林是一种集成学习方法，允许手动添加规则树等人工先验知识，大大提高了模型的泛化性和检测能力，同时便于进行更新和迭代。

13、(2)本发明提出的方法使用集成随机森林作为基础模型，逻辑回归作为元模型的stacking方法，通过联邦学习算法训练逻辑回归模型。在整个入侵检测模型的构建过程中，每个参与方的训练数据都未离开自己的本地域，从而在保证数据隐私的前提下，充分利用各参与方的数据资源进行模型训练。整个模型具有极强的可解释性，逻辑回归的参数可以理解为集成随机森林模型中各随机森林预测值在最终预测结果中的权重，通过训练可以实现权重的最佳组合。该算法在保护各参与方隐私的前提下，实现了入侵检测模型的高效性、鲁棒性、可解释性和易拓展性。

技术特征：

1.一种基于联合随机森林的网络入侵检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于联合随机森林的网络入侵检测方法，其特征在于，所述步骤(1)具体为：

3.根据权利要求1所述的基于联合随机森林的网络入侵检测方法，其特征在于，所述步骤(1)中所述预处理为：

4.根据权利要求1所述的基于联合随机森林的网络入侵检测方法，其特征在于，所述步骤(2)具体为：

5.根据权利要求4所述的基于联合随机森林的网络入侵检测方法，其特征在于，所述步骤(2.4)具体为：

6.根据权利要求1所述的基于联合随机森林的网络入侵检测方法，其特征在于，所述步骤(4)具体为：

7.根据权利要求6所述的基于联合随机森林的网络入侵检测方法，其特征在于，所述步骤(5)具体为：

8.根据权利要求7所述的基于联合随机森林的网络入侵检测方法，其特征在于，所述步骤(6)具体为：

9.根据权利要求1所述的基于联合随机森林的网络入侵检测方法，其特征在于，所述步骤(7)具体为：

10.根据权利要求1所述的基于联合随机森林的网络入侵检测方法，其特征在于，所述步骤(7)在组成联合随机森林模型前，还包括根据已有规则库和新发现的网络攻击案例，为集成随机森林模型添加规则树，并优化各森林的权重的步骤，所述步骤具体为：

技术总结本发明提出了一种基于联合随机森林的网络入侵检测方法；各参与方首先准备本地网络流量数据集，对数据进行预处理，训练得到本地第一随机森林模型并将该模型上传至中心服务器；中心服务器将各参与方的模型集成为集成随机森林模型并分发给各参与方；各参与方在本地构造用于逻辑回归模型训练的新数据集；中心服务器和各参与方协同完成逻辑回归模型的训练；对训练得到的联合随机森林模型调整后，将集成随机森林模型和逻辑回归模型部署到本地并执行入侵检测任务。该方法可以实现各参与方在充分保护数据隐私的前提下，构建出高效、鲁棒、可解释且可拓展的入侵检测模型。技术研发人员：杨强,张泽邦,阮伟,王文海受保护的技术使用者：浙江大学技术研发日：技术公布日：2024/12/2