技术新讯 > 电子通信装置的制造及其应用技术 > 一种基于对抗样本填充的多样本网站指纹防御方法 > 正文

一种基于对抗样本填充的多样本网站指纹防御方法

国知局
2024-08-19 14:24:03

本发明属于匿名通信，具体涉及一种基于对抗样本填充的多样本网站指纹防御方法。

背景技术：

1、匿名通信技术通过对通信数据使用层层加密、多次路由等手段，实现对通信双方内容和身份的隐藏和混淆，从而达到匿名访问的目的。文献“chaum d l.untraceableelectronic mail，return addresses，and digital pseudonyms.communications of theacm，1981，24(2)：84-90”提出了一项基于节点混淆的匿名通信技术，至此匿名通信系统开始走向大众视野。洋葱路由(the onion routing，tor)是众多匿名通信系统中的一员，其源代码开放，并且至今仍在更新，同时因其低延迟、高度可靠、匿名服务搭建方便等特点，在全世界吸引了众多志愿者部署tor的节点，一跃成为当前使用人数最多、最受好评的匿名通信系统。

2、洋葱路由在通信开始之前会根据默认的选路算法选择三跳节点，客户端和服务器端不通过ip协议直接连接，从而隐藏了通信双方的ip地址，这保证了攻击者控制任意一跳节点都无法同时获取通信双方的身份。虽然tor等匿名通信系统隐藏了通信内容和网络层信息，但是流量序列特征如流量数据包大小、数据包间间隔、数据包的传输方向等网站指纹信息仍然能被网络攻击者获取。攻击者使用加密流量的特征进行训练，构建出可以识别加密流量的模型，这极大的威胁到了tor的匿名性，这一类使用流量序列特征进行模型训练的攻击就是网站指纹(website fingerprinting，wf)攻击。现有的网站指纹攻击分类器训练方法如下：攻击者首先从原始的流量数据集中提取出流量的方向、时间戳、数据包大小等基本特征，并在特征的基础上再提取更加高维度的统计特征，例如请求和响应数据包的数量、最大请求响应数据包长度等；最后将从原始数据集中学习到的所有特征用于训练网站指纹攻击分类器，分类器在训练阶段会学习每一个流量序列的标签，学习完成之后在测试阶段对流量序列的标签进行预测。

3、文献“gong j，zhang w，zhang c，et al.surakav：generating realistic tracesfor a strong website fingerprinting defense.2022ieee symposium on securityand privacy(sp)，2022：1558-1573”提出了在wasserstein gan(wgan)的基础上设计一个流量生成模型，其在wgan的基础上加入了一个经过训练的网站指纹攻击模型作为观察者，观察者的加入使得生成器在生成流量序列时，需要能生成可以混淆观察者的混淆流量，这使得生成器生成的虚假流量的隐蔽性更高，提高了生成器的流量生成质量。但是提出的流量生成模型并不完美，在生成器g训练时，仍然无法摒弃wgan固有的问题，wgan模型在训练过程中流量序列大小下降过快，而且无法控制下降方向，这造成了wgan的生成器g在学习流量的特征时十分缓慢，使得wgan的训练过程十分漫长。

4、针对网站指纹攻击者的分类器训练方式，致力于提升tor匿名性的研究者们提出了许多方案来混淆流量特征，其总体思路就是对原始数据包进行延时或填充等操作，使得经过混淆之后的流量失去原有的特征。但是，这种方法在面对强大的攻击时无法在低带宽消耗和优良的防御性能之间取得平衡，想要达到优秀的防御效果往往伴随着超高的带宽消耗，有的研究者提出的方案能够以较低的带宽开销获得良好的防御效果，但它们往往基于不切实际的假设，导致提出的防御措施无法在现实环境中部署。

5、在实践过程中，即便通过洋葱路由访问暗网网站，用户的浏览行为仍存在泄露的风险。网站指纹识别是一种流量分析攻击，其利用网页访问过程中泄露的网站指纹信息如数据包大小、方法和时间戳等，对用户所访问的网站进行推断，这对用户的匿名访问行为产生了严重的威胁。但现有的网站指纹防御方法面对强大的攻击模型无法平衡带宽时延开销和防御效果。为了抵御恶意的网站指纹攻击，网站指纹防御的技术的研究也在不断的进行，网站指纹防御模型的总体思路都是添加虚拟数据包或者延迟原始流量中的数据包，以混淆原始流量中明确的流量特征。从流量填充方式来看，目前主流的网站指纹防御可以分为三类：

6、正则化化防御、随机化防御和基于对抗样本的防御。

技术实现思路

1、为解决上述技术问题，本发明提供了一种基于对抗样本填充的多样本网站指纹防御方法，采用多种流量生成和填充方式，在有效抵御主流网站指纹攻击的同时，显著降低了带宽消耗，解决现有网站防御技术的缺陷，提升了tor的匿名性和通信体验。

2、本发明采用的技术方案为：一种基于对抗样本填充的多样本网站指纹防御方法，具体步骤如下：

3、s1、构建gan流量生成模型，并引入最小二乘损失函数约束生成的流量序列长度；

4、s2、采用asp防御机制，进入离线训练阶段，训练gan流量生成模型；

5、s3、基于步骤s2，执行在线防御阶段，提出一种基于突发填充的流量填充方算法进行流量填充，完成网站指纹防御。

6、进一步地，所述步骤s1具体如下：

7、所述构建gan流量生成模型即在wasserstein gan(wgan)的基础上加入一个经过训练的网站指纹攻击模型作为观察者o，引入最小二乘损失函数约束生成的流量序列长度，且在生成器g接收数据输入之前，设计一个流量数据整形器f。

8、所述gan流量生成模型包括：流量整形器f，生成器g，观察者o，鉴别器d。

9、其中，流量整形器f主要对原始流量中异常的数据进行剔除，并通过末尾补0的方式将不同网站的流量序列填充到对应网站固定的长度；生成器g的输入是随机向量s～n(0,1)和标签l的拼接组合s|l；观察者o是经过训练的网站指纹攻击模型，在模型迭代中，观察者o的参数不会发生变化，相当于是一个成熟的网站指纹分类器；鉴别器d用于判断生成的虚假序列是否能被网站指纹攻击者识别为真实序列，并指导生成器的流量序列产生。

10、进一步地，所述步骤s2具体如下：

11、所述asp防御机制即通过生成器g和流量调节器r的协同工作，有效抵御网站指纹攻击。

12、将随机向量s～n(0,1)和标签作为生成器g的输入，生成器据此生成虚假的流量序列，虚假的流量序列随后被送到观察者o和鉴别器d中，观察者o会向生成器g提供反馈，指示其虚假序列是否能够被攻击者的分类器分类出来，若观察者o指示生成序列为假的概率较大，则说明生成器g生成的虚假序列质量不高。同时在鉴别器d中，除了输入虚假序列外，还会加入带有标签的真实序列，其输出表示生成的虚假序列能够被识别成真实序列的概率，该信息被反馈给生成器g和观察者o以用于指导流量序列的生成。

13、进一步地，所述步骤s3具体如下：

14、s31、基于步骤s2离线训练阶段，asp的在线防御阶段使用训练好的生成器g动态生成大量的虚假流量序列，得到流量序列集合；

15、s32、使用基于突发填充的流量填充方算法进行流量填充，完成网站指纹防御；

16、其中，所述网站指纹包括：访问网页产生的流量序列中数据包的大小、方向、突发大小、突发顺序、间隔。

17、基于步骤s3得到的流量序列集合，进行流量序列采样，然后在流量调节器r的指导下，比较客户端缓冲器中数据包和流量序列的大小，进行突发级的流量填充，具体如下：

18、定义突发序列burst，burst[i]表示流量序列中第i个传出或者传出突发的长度。

19、将步骤s31生成器g产生的多个虚假流量序列和实时产生的网站流量序列进行比较，针对真实流量序列第k个突发，它比较所有虚假序列中的第k个相同方向的突发，选取虚假序列中相同方向突发的最大值作为填充的数量，若对应的虚假序列最大突发数量大于真实序列的突发数量，则会在真实序列同方向突发末尾填充数据包，直到真实序列的所有流量被发送完毕。若生成的所有虚假序列对应位置上突发的长度都小于真实序列，此时真实序列将不会进行突发填充。

20、本发明的有益效果：本发明的方法首先构建gan流量生成模型，并引入最小二乘损失函数约束生成的流量序列长度，再采用asp防御机制，进入离线训练阶段，训练gan流量生成模型，最后执行在线防御阶段，提出基于突发填充的流量填充方算法进行流量填充，完成网站指纹防御。本发明的方法通过引入最小二乘损失函数，优化生成对抗网络(gan)的训练过程，解决现有gan在训练中遇到的稳定性问题和收敛性难题，提出流量填充算法减少因流量填充引入的额外时延，提高流量混淆的隐蔽性，有效降低被攻击者识别的风险，与现有网站指纹防御技术相比，能在保持较低带宽时延消耗的同时，显著提高对基于深度学习的网站指纹攻击的防御效果。

21、本发明的方法中，生成器能够动态地创造出多样化的流量序列，极大地扩展了可能的流量模式数量，从而显著增强了防御技术的混淆性和抗攻击能力；通过引入最小二乘损失函数，有效地控制了生成流量序列的长度，克服了现有gan模型在训练过程中的不稳定性问题，加快了模型的收敛速度，提高了训练效率；采用的基于突发填充的多样本流量填充算法能够在保持与原始流量相似的包间延迟的同时进行流量填充，使得填充后的流量在特征上更接近真实流量，难以被攻击者通过流量分析技术识别，从而有效提高了匿名通信的安全性