技术新讯 > 电子通信装置的制造及其应用技术 > 一种基于Transformer的综合特征网络流量分类方法  >  正文

一种基于Transformer的综合特征网络流量分类方法

  • 国知局
  • 2024-10-15 09:30:49

本发明涉及网络安全,特别涉及一种基于transformer的综合特征网络流量分类方法。

背景技术:

1、随着计算机网络的飞速发展,网络已成为现代生活中不可或缺的一部分。越来越多的人使用网络进行信息沟通,流量数据逐年递增,给网络空间安全造成了巨大的隐患。一方面,庞大的网络流量需要进行数据分析,从而使计算机能够合理的分配资源,提升网络服务效率;另一方面,对于网络上日益增长的恶意流量,及时检测并识别这些流量能够增强网络的快速恢复和应急响应能力,对于抵御网络异常攻击,维护网络空间安全及互联网私人用户隐私都有着极其重要的价值和意义。

2、在网络流量分类领域,经过国内外科研人员的不断研究和实践,取得了一系列成果,常用的流量分类方法主要包括:基于端口识别的方法,基于深度包检测的方法、基于统计特征的方法和基于深度学习的方法。随着现代化网络中动态端口的出现,基于端口识别的方法已经无法适用。基于深度包检测的方法通过匹配指纹确定流量类型,计算复杂度较高,并且这种方式无法处理加密流量。基于统计特征的方法需要对网络流量数据进行特征工程处理,手动提取出流量数据的代表性特征,这将花费大量人力,并且不能保证提取的特征对流量分类是否有效。传统网络流量分类方法难以适应动态变化的网络环境,尤其是在面对加密流量时。在高速网络环境中,流量分类技术需要快速准确地进行分类,以满足服务质量和网络安全的需求。为了克服这些问题,研究人员和工程师需要不断探索新的流量分类技术,如基于深度学习的方法。

3、基于深度学习的方法,减少了手工提取特征的阶段,利用神经网络对数据分布的强拟合能力,进一步提高了分类准确率。大部分神经网络需要固定大小的输入,因此需要修剪原始流量,会造成重要信息丢失,统计特征可以用来补充由于修剪而造成的信息损失。transformer是一种深度学习模型,由于其强大的序列建模能力,transformer也被应用于网络流量分类领域。transformer擅长捕捉网络流量序列中的远距离信息,即全局特征,但忽略局部细节。一维卷积神经网络专门设计用于处理序列数据,能够捕捉时间序列中的局部模式和长距离依赖关系,但忽略序列间长距离的全局特征。

技术实现思路

1、为了解决现有技术中存在的上述问题,本发明提出一种基于transformer的综合特征网络流量分类方法,本发明要解决的技术问题通过以下技术方案实现:

2、本发明提出一种基于transformer的综合特征网络流量分类方法,该方法包括:

3、s1:数据预处理;

4、s2:采用不同的特征提取方式提取网络流量数据中的各个数据样本对应的统计特征、全局特征、局部特征和时序特征;

5、s3:将统计特征向量、全局特征向量、局部特征向量和时序特征向量进行特征融合,生成综合特征;

6、s4:采用全连接神经网络+softmax函数的方式对网络流量分类。

7、进一步地,s1具体包括:

8、s101:将连续的流量数据分割成多个离散的流量单元;

9、s102:对分割后的流量单元进行数据清洗处理;

10、s103:将清洗后的流量数据修剪为固定的长度,以符合神经网络的数据输入要求。

11、进一步地,s2具体包括:

12、s201:从原始网络流量数据中提取统计信息。这些信息可以保留有关流量总体结构的信息,可以用于补充会话的结构信息,例如会话中的数据包数量(num pkts),会话中syn标志活跃的数据包的平均值(avg syn标志)和会话中从第一个数据包到最后一个数据包的时间(duration window flow)等;使用max-min归一化方法对统计信息进行归一化,将所有统计值分布在[0,1]范围;自编码器对归一化后的统计信息进行编码,从中提取低维统计特征。

13、s202:经过s1后的数据通过基于transformer的特征提取模块提取流量数据的全局特征;

14、s203:经过s1后的数据通过基于一维卷积的特征提取模块提取流量数据的局部特征。

15、s204:经过s202和s203获得的全局特征和局部特征进行特征融合,融合后的特征利用门控循环单元提取关键时序特征。

16、进一步地,s201具体包括:

17、所述自编码器包含编码器和解码器两部分,使用自编码器对归一化后的统计信息进行编码,从中提取低维统计特征向量。尽管手动提取的流量统计信息已经包含了一些关键信息,但自编码器通过其自动特征学习和非线性建模的能力,可以进一步优化特征表示,从而可能提高后续分析或预测任务的准确性和效率。

18、进一步地,s202具体包括:

19、所述基于transformer的特征提取模块,使用transformer中的编码部分,并对其中某些参数进行微调。transformer的编码器部分包括一个多头注意力机制和一个前馈神经网络。

20、进一步地,s203具体包括:

21、所述一维卷积模块由两个瓶颈模块组成,每个瓶颈模块由1×1、1×3和1×1的三个卷积层组成,每个瓶颈模块采用残差连接的方式学习数据特征,前一个瓶颈模块的输出作为后一个瓶颈模块的输入。

22、进一步地,s204具体包括:

23、将所述的全局特征向量和局部特征向量进行特征展开,得到一维向量,然后进行特征融合,生成初始综合流量;

24、对所述初始综合流量利用门控循环单元进一步提取关键时序信息,得到时序特征向量;

25、进一步地,s3具体包括:

26、将所述的统计特征向量和时序特征向量进行拼接,生成综合特征。

27、进一步地,s4具体包括:

28、基于所述综合特征,采用全连接网络,使用softmax函数分类,输出加密流量分类结果。

29、与现有技术相比,本发明所达到的有益效果:本发明提供了一种基于transformer的综合特征网络流量分类方法,在预处理阶段,由于神经网络的输入要求统一大小,会对原始流量数据进行修剪,会造成重要信息的丢失。统计特征通常是基于专家知识或统计学原理提取的,在一定程度上,弥补了由于修剪带来的信息损失。将基于自编码器提取的统计特征、基于卷积神经网络提取的局部特征、基于transformer提取的全局特征和基于门控循环单元提取的时序特征进行特征融合,生成综合流量特征,使得特征集更加全面,从而提高分类器的性能。在分类模块中,本发明结合使用瓶颈模块和残差连接,可以在保持模型性能的同时,减少计算和存储的需求,使得模型更加适合处理大规模的一维数据。本发明充分利用了不同特征的优势,提高了网络流量分类的性能和可靠性。这种方法的多样性和适应性使其成为解决复杂分类问题的有效策略。该方法可以应用到多个领域,主要用于优化网络性能、提高网络安全性、进行网络管理和分析等。在网络管理和优化领域,该方法可以自动识别不同类型的流量,如视频、音频、文件传输和网页浏览,以便进行带宽分配和流量控制。可以根据业务需求和服务质量要求,优先处理关键任务流量。在网络安全领域,该方法可以用来检测和防御网络攻击,如ddos攻击、钓鱼攻击、恶意软件传播等。通过识别可疑流量模式,进行入侵检测和预防。在网络监控和分析领域,收集网络流量数据,采用该方法进行趋势分析和网络行为研究以识别网络瓶颈和性能问题。

本文地址:https://www.jishuxx.com/zhuanli/20241015/314386.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。