技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于增量集成学习的恶意DoH隧道流量检测方法  >  正文

一种基于增量集成学习的恶意DoH隧道流量检测方法

  • 国知局
  • 2025-01-17 13:04:05

本发明属于网络安全,具体涉及一种基于增量集成学习的恶意doh隧道流量检测方法。

背景技术:

1、域名系统(domain name system, dns)是互联网的基础设施之一,可将易于记忆的域名转换为机器可读的 ip 地址。然而,dns 协议中的dns查询与响应信息采用的是明文传输,容易遭受中间人攻击。近年来,dns协议的安全问题逐渐受到关注,新一代加密dns协议陆续涌现以增强用户隐私和数据安全,其中doh (dns over https)协议备受关注,由mozilla基金会工程师在2018年提出,即将dns通信数据进行https加密封装。然而,doh协议在增强数据安全性的同时,也为攻击者提供了一条隐蔽的加密隧道。

2、doh隧道由于其高度隐蔽、难溯源特性,现已受到了多个黑客组织的青睐,在多款恶意软件中得到了广泛应用。如今,基于doh的隧道攻击现已成为网络安全领域十分棘手的问题:2019年首款利用doh隧道实施数据窃取的恶意软件godlua被披露;2020年首个应用doh隧道进行数据外传攻击的apt组织(apt34)被披露。

3、当前,尽管现有的一些检测系统基于静态机器学习模型的检测方法能够有效识别部分已知隧道工具的doh隧道通信行为,但随着时间推移,新型隧道工具不断涌现。相比经典隧道工具,这些新型隧道工具在传输数据包载荷大小的选取、查询响应时间间隔的设置等实现细节上存在显著差异,导致其产生的隧道流量特征分布发生变化,从而引发静态学习模型性能退化,最终被新型变种隧道工具突破防御。

4、因此,需要合适的方法来进行应对。

技术实现思路

1、本发明的目的在于提供一种基于增量集成学习的恶意doh隧道流量检测方法,以解决现有技术中存在的以下问题:基于静态学习模型的检测方法虽然能够有效识别部分已知隧道工具的doh隧道通信行为,但随着时间推移,新型隧道工具不断涌现。相比经典隧道工具,这些新型隧道工具在传输数据包载荷大小的选取、查询响应时间间隔的设置等实现细节上存在显著差异,导致其产生的隧道流量特征分布发生变化,从而引发静态学习模型性能退化,最终被新型变种隧道工具突破防御。

2、为实现上述目的,本发明提供了一种基于增量集成学习的恶意doh隧道流量检测方法,包括如下步骤:

3、s1、获取已标记流量数据,对数据进行预处理,划分对应特征数据的训练集与验证集;

4、s2、创建多个基学习器,组成分类器集合,在训练集上采用bagging策略单独对每一个基分类器进行训练,完成分类器集合初始化构建;

5、s3、针对未知样本,基于局部准确率的动态分类器选择策略,获取未知样本在验证集中的k近邻区域,评估各分类器在该区域上的性能表现,然后选取表现最佳分类器作为该样本的专家分类器,所得预测结果用作该样本的伪标签;

6、s4、将分类器集合中各基分类器预测结果与伪标签的差异统计为伪错误率,以判断分类器的漂移状态;

7、s5、根据基分类器的历史伪错误率设置警告阈值和漂移阈值;

8、s6、若伪错误率达到警告阈值,创建替代分类器进行增量更新,并收集当前样本;若伪错误率达到漂移阈值,确认分类器发生概念漂移,替换全局基分类器,并对警告阶段收集的样本进行人工标记,进而作为新的验证集。

9、进一步地,所述步骤s1具体包括:

10、s1a、获取原始公开数据集cira-cicdohbrw-2020,并按正常doh流量和恶意doh流量两类流量类型进行筛选;

11、s1b、去除对检测加密恶意流量的无关特征,无关特征包括ip、端口;对数值型特征进行标准化,使得不同特征的量纲相同;

12、s1c、对处理后的数据集进行划分,生成训练集和验证集。

13、进一步地,所述步骤s2具体包括:

14、s2a、创建多个hoeffding树作为基分类器,构成分类器集合;

15、s2b、各分类器通过bagging策略模拟对训练集的有放回抽样学习,根据泊松分布决定样本 x i的贡献程度:即该样本在每个基分类器中被学习的次数;对于样本 x i和分类器 c j,生成服从参数 λ=1的泊松分布的随机数 w i,j, w i,j表示分类器 c j学习样本 x i的次数,实现不同基分类器在同一训练集上得到不同的学习效果,以提升集合中基分类器的多样性。

16、进一步地,所述步骤s3具体包括:

17、s3a、针对未知样本 x,在带标签的验证集中计算 x与验证集中样本 x i之间的距离

18、

19、其中 y i为 x i对应的标签, m是样本的特征维度, x k和 x i,k分别表示样本 x和验证集样本 x i在第 k个特征上的值;

20、s3b、计算出所有样本的距离后,将这些样本按照距离从小到大进行排序,并选取前k个与未知样本最相似的邻居,形成k近邻集合 n( x)={ x1 ,x2 ,...,x k};

21、s3c、评估所有分类器 c i在这些邻居上的局部准确率,即使用分类器 c j对k个邻居样本进行预测,根据预测标签计算分类器 c j的局部准确率

22、

23、其中 δ( x,y)是一个等式比较函数,当两个输入参数相等时, δ的值为1,否则为0;

24、s3d、选择局部准确率最高的分类器

25、

26、作为样本 x的专家分类器,其预测结果作为伪标签输出,其中 c j ∈c表示分类器 c j来自分类器集合 c,表示分类器 k在当前样本 x的邻居区域 n( x)上的局部准确率。

27、进一步地,所述步骤s4具体包括:

28、s4a、对于每个基分类器 c j,伪错误率定义为分类器在未标记样本上的预测结果与专家分类器的预测结果之间的不一致性;对于n个样本,如果分类器的预测 c j( x i)与伪标签不一致,则计算伪错误率

29、

30、其中 n是处理的样本数量。

31、进一步地,所述步骤s5具体包括:

32、s5a、记录每个基分类器的伪错误率 p j和标准差 s j,及对应基分类器的历史最小伪错误率 pmin和标准差 smin;

33、s5b、各分类器的警告阈值设置为各基分类器的历史最小伪错误率与两倍标准差之和 α= pmin+2 smin,漂移阈值设置为各基分类器的历史最小伪错误率与三倍标准差之和

34、 β= pmin+3 smin。

35、进一步地,所述步骤s6具体包括:

36、s6a、当分类器达到警告阈值,将立即创建替代分类器,利用当前样本及伪标签进行增量学习,并收集当前样本作为后续验证集;

37、s6b、当分类器达到漂移阈值,立即进入漂移适应阶段,对步骤s6a中收集的未知样本进行专家人工标注,用作新的验证集;

38、s6c、标记完成后,替代分类器利用其进行增量学习,使用替代分类器全局替换当前集合中的各基分类器,保持基分类器对新数据分布的适应性。

39、相比于现有技术,本发明具有以下有益效果:

40、本发明能够在无需大量标注数据的情况下,有效应对恶意doh隧道流量中的概念漂移问题,具备良好的自适应能力和检测精度,适用于复杂网络环境。

41、本发明设计了一种基于增量集成学习的恶意doh隧道流量检测方法,通过在线学习动态更新模型,并基于动态分类器选择策略进行半监督的漂移检测,提升检测精度,增强对变种恶意doh隧道工具的适应性和鲁棒性。

42、本发明为基于增量集成学习的恶意doh隧道流量检测方法,通过在线学习动态更新模型,并基于动态分类器选择策略进行半监督的漂移检测与自适应,增强对变种恶意doh隧道工具的鲁棒性,提高应对复杂网络攻击的防御感知能力,避免传统方法中重新训练模型带来的灾难性遗忘和资源浪费问题。采用动态分类器选择策略自适应选择专家分类器,避免了集合中的基分类器独立性的假设,从而提高模型对未见恶意流量的泛化能力。同时,引入的伪标签机制,通过对未标注数据的自学习,一定程度上减少了对人工标签的依赖,降低了数据标注成本。

43、除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面对本发明作进一步详细的说明。

本文地址:https://www.jishuxx.com/zhuanli/20250117/356030.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。