面向流量关联的网络流采样自适应分片方法及装置与流程
- 国知局
- 2024-08-02 14:54:07
本发明涉及网络安全领域,更为具体的,涉及一种面向流量关联的网络流采样自适应分片方法及装置。
背景技术:
1、匿名网络流量关联是网络安全领域的重要研究方向,是指对于在匿名网络环境中产生的流量数据进行分析和关联,以此来识别和追踪数据流在网络中的源头和目的地。这个过程涉及到破解或绕过流量的匿名性,实现对于网络行为的跟踪和审计。匿名网络流量关联技术在网络攻击溯源、恶意行为追踪、网络犯罪取证等场景中具有应用价值。
2、现有的匿名网络流量关联方法主要可以归纳为流量特征匹配、水印调制检测、人工智能识别、流量指纹构建、主动渗透追踪等技术类别。在基于流量特征匹配的关联方法中,使用数据量时序特征的匹配方案得到了关注和应用,它通过比对发送端和接收端的网络数据量随时间的变化情况来识别二者的通信关联关系。为了量化两个流量之间的网络数据量随时间的变化差异,可以使用欧氏距离、曼哈顿距离(l1距离)、动态时间弯曲(dtw)、曲线间区域面积差等方法来计算。除此之外,sun yixin等人提出的raptor方法使用了spearman相似度算法来进行收发双方数据量时间包络的相似度量化,在tor等匿名通信网络流量关联工作中取得了很好的效果,成为近年来一种典型的基于网络数据量时序特征匹配的流量关联方法。
3、基于数据量时序特征匹配的流量关联方法,通过网络监听分别从数据发送端和数据接收端捕获网络流量,按照一定的单位时长对所获流量进行设定尺度的时间分片,通过统计各个时间分片中的网络数据量,形成以时间片段为粒度的数据量时序特征序列,关联算法根据数据发送端和数据接收端的数据量时序特征序列的相似度来计算二者之间的关联概率,得到关联结论。在这个过程中,对于一个时间分片序列,所包含的具有有效数据量特征的时间分片越多,它的辨识度就越高,用以进行特征匹配的准确性就越强。
4、目前的时间分片基本上基于预先设定的固定时间尺度。匿名网络流量关联实践发现,在固定尺度下,匿名通信等部分匿名网络服务的网络数据流时常具有很强的间歇性,难以捕获连续的数据流量以形成充分和灵活变化的数据量时序特征序列。间歇性的流量中存在大时间段的流量空白,在这些空白中没有或者只有少量的协议流量,他们构成了连续的数据量为空的时间分片,这些时间分片占用了特征序列的宝贵空间却仅包含微小的特征信息,这对于基于数据量时序特征匹配的流量关联工作不但益处很小,反而会降低一个采样周期中的有效采样率,造成关联准确率低的副作用。
技术实现思路
1、本发明的目的在于克服现有技术的不足,提供一种面向流量关联的网络流采样自适应分片方法及装置,可以显著的提升基于通信数据量时序特征匹配的流量关联算法的判别准确率,有助于保持网络监控的技术优势,防范和打击网络犯罪。
2、本发明的目的是通过以下方案实现的:
3、一种面向流量关联的网络流采样自适应分片方法,包括以下步骤:
4、步骤s1,运行参数设定;所述运行参数包括采样时间周期、空白判定阈值、留白时间比例、预设分片数量和最小分片长度;
5、步骤s2,网络流量采集:根据流量关联任务需求执行一个或多个时间周期的流量采集;
6、步骤s3,流量空白识别:在各个时间周期内,根据设定的空白判定阈值判定空白时间;
7、步骤s4,空白时间裁剪:对数据源发送流量和目标接收流量执行相应的空白时间裁剪操作;
8、步骤s5,流量自适应分片:经过空白时间裁剪之后,将各个重新组合而成的通信时间块,根据设定的预设分片数量和最小分片长度,划分为多个相邻时间片段。
9、进一步地,在步骤s2中,所述时间周期配置为步骤s1中的采样时间周期。
10、进一步地,在步骤s2中,所述根据流量关联任务需求执行一个或多个时间周期的流量采集,包括子步骤:同时启动和关闭在拟关联的数据发送端和数据接收端的网络流量采集进程;发送流量和接收流量的采集采用手动采集方式或自动采集方式;手动采集指在通信源和通信目标处分别手动运行流量捕获工具,进行流量采集;自动采集方式通过编写流量采集脚本或开发系统,使用统一管理、指令分发、分布式采集、流量自动收集的方式进行流量采集;数据收发两端的采集结果须具有相同的起始时间和结束时间,且跨度为采样时间周期的整数倍;针对一个采样时间周期中的一对收发流量,完整执行一轮流量关联过程,生成该轮关联结果;每个采样时间周期中的流量关联过程相同且独立。
11、进一步地,在步骤s3中,流量空白识别只针对数据源发送流量进行,不对目标接收流量进行;在一个采样时间周期内,凡连续时间跨度大于空白判定阈值的无效通信时间,均被判定为空白时间;在一个时间周期内,空白时间的可能个数为自然数。
12、进一步地,在步骤s3中,所述无效通信的含义具体按照实际应用情况定义。
13、进一步地,在步骤s4中,对于数据源发送流量,针对每一个时间周期,空白时间裁剪具体步骤如下:
14、步骤s411,计算裁剪时间:针对在步骤s3中识别出的空白时间,根据设定的留白时间比例,逐个计算裁剪时间;设一段空白时间的起始时刻为e,时间跨度为t秒,终止时刻为(e+t);则计算出的裁剪时间的起始时刻为e,时间跨度为t×(1-α)秒,终止时刻为(e+t×(1-α)),在终止时刻之后还留有无效通信时间跨度为(t×α)秒;利用留白时间比例仍然保留一部分的流量空白,保存突发流量特征信息;
15、步骤s412,执行时间裁剪:将在步骤s411中算得的所有裁剪时间从通信时间轴上删除;
16、步骤s413,组合剩余时间:执行时间裁剪之后,保持当前时间周期的初始时刻不变,将裁剪时间后方的剩余通信时间块延时间轴前移,与裁剪时间前方的剩余通信时间块合并,最终组合成一个连续的时间块。
17、进一步地,在步骤s4中,对于目标接收流量,针对每一个时间周期,空白时间裁剪具体步骤如下:
18、步骤s421,确定裁剪时间:目标接收流量的裁剪时间对照数据源发送流量的裁剪时间,对应的裁剪相同时间间隔的时间片段;裁剪根据网络传输实际情况考虑数据传输延迟;设数据源发送流量中某裁剪起始时刻为e、裁剪时长为t×(1-α)秒、网络数据传输延迟为δt,则目标接收流量中对应裁剪的起始时刻为e+δt、时间跨度为t×(1-α)秒、终止时刻为(e+δt+t×(1-α));
19、步骤s422,执行时间裁剪:将在步骤s421中确定的所有裁剪时间从通信时间轴上删除;
20、步骤s423,组合剩余时间:执行时间裁剪之后,保持当前采样时间周期的初始时刻不变,将裁剪时间后方的剩余通信时间块延时间轴前移,与裁剪时间前方的剩余通信时间块合并,最终组合成一个连续的时间块。
21、进一步地,在步骤s5中,所述经过空白时间裁剪之后,将各个重新组合而成的通信时间块,根据设定的预设分片数量和最小分片长度,划分为多个相邻时间片段,具体包括子步骤:
22、针对一个通信时间块tcombi计算其分片时长,使用s标识分片时长,n标识预设分片数量,s标识最小分片长度,则具体计算方法如下式:
23、
24、上式含义为:将tcombi平均划分为n份,如果单份长度不小于s,那么s为单份长度;如果单份长度小于s,那么s为s;
25、在计算得到s之后,按照s将tcombi进行分片。
26、进一步地,当tcombi不能按照s分成整数份时,此时按照时间顺序由早到晚先按s进行分片,最后将时间长度小于s的无法再分的一小块时间视作一个时间分片。
27、一种面向流量关联的网络流采样自适应分片装置,包括处理器和存储器,所述存储器中存储有计算机程序,当所述计算机程序被所述处理器加载时执行如上任一项所述的面向流量关联的网络流采样自适应分片方法。
28、本发明的有益效果包括:
29、本发明提出面向流量关联的网络流采样自适应分片方法。针对捕获的拟关联的网络流采样,自动识别和裁剪流量空白,将空白时段收缩到一定合理的时间范围,根据预设的时间分片数量对剩余数据流进行单位时间尺度可伸缩的时间分片,从而总体实现流量空白自剔除、单位尺度自伸缩的网络流采样自适应分片策略,达到拟关联流量有效采样率高,最终支撑流量关联准确率高的技术效果。此外,本发明技术方案的诸多细节面向流量关联工作提供了更加完善的技术支持:通过预设分片数量确保数据量时序特征序列包含足够的元素个数,保证流量关联能力;利用留白时间比例仍然保留一部分的流量空白,保存了突发流量特征信息;使用最小分片长度限制时间分片的最小尺度,有利于避免无效分片、调节流量关联最佳效果;充分考虑接收端流量相对于发送端流量的传输延迟,更加提升了流量时序特征匹配的适配程度。通过上述技术配置,可以显著的提升基于通信数据量时序特征匹配的流量关联算法的判别准确率,有助于保持网络监控的技术优势,防范和打击网络犯罪。
本文地址:https://www.jishuxx.com/zhuanli/20240801/244259.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表