技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于WSAGAN的类别不平衡加密流量数据增强方法及系统 > 正文

基于WSAGAN的类别不平衡加密流量数据增强方法及系统

国知局
2024-09-19 14:31:55

本发明涉及网络安全，特别涉及一种基于wsagan的类别不平衡加密流量数据增强方法及系统。

背景技术：

1、自从互联网诞生以来，网络流量分类一直是热门的研究领域，传统的网络流量分类技术是基于有效载荷的网络流量分类，但当加密流量出现后，该方法很难实现对加密流量的分类且对资源消耗较大。针对加密流量分类，基于机器学习(ml)和基于深度学习(dl)的加密流量分类技术是目前主流的技术，但机器学习的方法高度依赖专家设计的特征，且使用人工提取的特征不能充分利用的原始网络信息，其模型的泛化能力有限。与机器学习相比，深度学习可以自动提取加密流量特征，不需要人工提取。然而，基于深度学习的分类器是在类别平衡的数据集上设计的，对于类别不平衡数据集会导致分类器忽略少数类，在真实的网络环境下存在着严重的加密流量类别不平衡问题，这会导致基于深度学习的方案性能下降。因此，如何解决加密流量数据集中类别不平衡问题越来越受到研究人员的关注。

2、目前最常用于解决加密流量类别不平衡的技术是通过对数据集进行欠采样和过采样。欠采样是通过减少多数流量样本的数量，过采样是增加少数流量样本的数量，以实现数据集的再平衡。传统的欠采样技术包括随机删除样本方法、聚类方法等。传统的过采样技术包括合成少数类样本的过采样技术(smote)、随机过采样(ros)、基于合成样本的插值方法等。smote通过简单复制少数类样本来平衡数据集，适合小型的数据集。基于合成样本的插值方法能够在特征空间中扩展少数类样本，有助于分类器学习到更多的特征信息。然而，欠采样和过采样方法会导致分类器出现过拟合问题，且在处理多类别不平衡问题的能力有限，并且复制的少数类样本会引入噪声。另一种解决加密流量类别不平衡的技术是通过生成对抗网络(gan)以缓解过拟合并且处理多类别不平衡问题。在gan中包含生成器g(generator)和判别器d(discriminator)，生成器用于生成类似真实训练数据的样本，判别器用于判定生成的样本是否是真实的数据样本，整个训练过程，是二者的对抗博弈过程。gan广泛应用于计算机视觉领域，用于图像的生成。与其他数据增强策略相比，gan擅长无监督学习，生成的样本更加清晰更加真实也更多样。通过生成对抗网络(gan)生成加密流量样本，实现加密流量数据集再平衡。然而，gan存在训练过程不稳定、容易导致模式崩溃等问题。

技术实现思路

1、为此，本发明提供一种基于wsagan的类别不平衡加密流量数据增强方法及系统，解决加密流量类别不平衡问题，通过生成流量样本来弥补少数类的样本缺失，确保每个类样本数的均衡，以缓解数据集类别不平衡导致分类器过多关注多数类而忽略少数类的问题。

2、按照本发明所提供的设计方案，一方面，提供一种基于wsagan的类别不平衡加密流量数据增强方法，包含：

3、获取标注有类别标签的加密流量样本数据集，所述加密流量样本数据集包含：标签类别不平衡的真实加密流量样本数据；

4、使用真实加密流量样本数据对生成对抗网络进行迭代训练，获得生成对抗网络模型，其中，生成对抗网络中，在生成器和鉴别器中利用自注意力机制捕捉输入数据序列中的距离依赖关系并动态生成融合特征向量，生成器基于随机噪声向量和真实加密流量样本数据生成伪加密流量数据，鉴别器衡量真实加密流量数据和伪加密流量数据之间差异，基于差异并利用反向传播算法更新生成器参数，并通过迭代训练过程使鉴别器衡量的生成器重新生成的伪加密流量数据和真实加密流量数据差异满足预设条件；

5、使用生成对抗网络模型生成扩充加密流量样本数据，基于扩充加密流量样本数据与真实加密流量样本数据组建增强加密流量样本数据集。

6、作为本发明基于wsagan的类别不平衡加密流量数据增强方法，进一步地，所述生成器包含用于接收随机噪声向量和真实加密流量样本数据的输入层、用于对输入数据的特征维度进行归一化处理的反卷积层、用于利用权重矩阵并基于自注意力机制对数据特征进行融合的第一自注意力层和基于反卷积层和tanh激活函数生成并输出伪加密流量数据的输出层。

7、作为本发明基于wsagan的类别不平衡加密流量数据增强方法，进一步地，所述鉴别器包括利用卷积操作提取输入数据特征的卷积层和用于利用权重矩阵并基于自注意力机制对数据特征进行融合的第二自注意力层，并利用wasserstein距离衡量真实加密流量数据和伪加密流量数据之间特征空间分布差异。

8、作为本发明基于wsagan的类别不平衡加密流量数据增强方法，进一步地，所述自注意力机制，包含：使用权重矩阵将输入数据的特征投影到查询向量、键向量和值向量上；针对每个特征点位，计算该特征点位查询向量和键向量的点积，得到对应注意力分数；使用softmax对所有注意力分数进行归一化处理，得到对应注意力权重；利用注意力权重与值向量相乘得到输入数据最终的特征向量。

9、作为本发明基于wsagan的类别不平衡加密流量数据增强方法，进一步地，使用真实加密流量样本数据对生成对抗网络进行迭代训练的损失函数包含：

10、其中，lg为生成器损失，ld为鉴别器损失，pr为真实加密流量样本数据特征空间分布，pz为伪加密流量样本数据特征空间分布，y为自注意力机制生成的融合特征向量，e为期望，fw()为鉴别器激活函数。

11、作为本发明基于wsagan的类别不平衡加密流量数据增强方法，进一步地，获取标注有类别标签的加密流量样本数据集，还包含：

12、对加密流量样本数据进行预处理并转换为网络输入数据的灰度图像，所述预处理包括删除报文头部并过滤数据包、统一数据包长度和灰度图像转换。

13、又一方面，本发明还提供一种基于深度学习的加密流量分类检测方法，包含：

14、利用上述的数据增强方法对样本数据进行扩充，得到增强加密流量样本数据集；

15、基于增强加密流量样本数据集训练深度学习网络，并得到加密流量分类检测模型；

16、将目标加密流量数据作为加密流量分类检测模型的输入，利用加密流量分类检测模型对目标加密流量数据进行分类检测并输出。

17、再一方面，本发明还提供一种基于wsagan的类别不平衡加密流量数据增强系统，包含：数据获取模块、模型训练模块和数据增强模块，其中，

18、数据获取模块，用于获取标注有类别标签的加密流量样本数据集，所述加密流量样本数据集包含：标签类别不平衡的真实加密流量样本数据；

19、模型训练模块，用于使用真实加密流量样本数据对生成对抗网络进行迭代训练，获得生成对抗网络模型，其中，生成对抗网络中，在生成器和鉴别器中利用自注意力机制捕捉输入数据序列中的距离依赖关系并动态生成融合特征向量，生成器基于随机噪声向量和真实加密流量样本数据生成伪加密流量数据，鉴别器衡量真实加密流量数据和伪加密流量数据之间差异，基于差异并利用反向传播算法更新生成器参数，并通过迭代训练过程使鉴别器衡量的生成器重新生成的伪加密流量数据和真实加密流量数据差异满足预设条件；

20、数据增强模块，用于使用生成对抗网络模型生成扩充加密流量样本数据，基于扩充加密流量样本数据与真实加密流量样本数据组建增强加密流量样本数据集。

21、本发明的有益效果：

22、本发明通过生成流量样本来弥补少数类的样本缺失，确保每个类别的样本数相同，解决加密流量数据集中类别不平衡的问题。该模型在wgan的基础上引入自注意力机制，处理长距离、多层次的依赖关系和平衡计算效率，并且给予重要特征更大的关注，生成质量更高的流量样本，满足加密流量分类检测中深度学习模型训练鲁棒性，使其更好适应不均衡真实网络环境，具有较好的应用前景。