一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种面向样本不均衡的网络流量数据增强方法

2022-07-22 21:44:16 来源:中国专利 TAG:

技术特征:
1.一种面向样本不均衡的网络流量数据增强方法,其特征在于,包括以下步骤:s1、对原始网络流量数据集进行聚类,根据聚类结果簇中流量数据的数量,将聚类结果簇划分为少数样本集合和多数样本集合;s2、计算每个少数类样本集合中所有少数类样本之间的欧几里得距离,得到的欧氏距离矩阵,根据欧氏距离矩阵,获取每个少数类样本集合中每个少数类样本到其他少数类样本的距离占比,并进行归一化得到每个少数类样本间的稀疏因子;s3、计算每个少数类样本集合中所有少数类样本到多数类样本集合中所有多数类样本的欧几里得距离,得到欧氏距离矩阵,根据欧氏距离矩阵得到少数类样本到多数类样本的距离占比,并进行归一化得到少数类样本与多数类样本间的差异度;s4、根据每个少数类样本集合中少数类样本间的稀疏因子和少数类样本与多数类样本间的差异度,为少数类样本赋予初始权重,并基于smote合成新样本并生成新的数据集。2.根据权利要求1所述的面向样本不均衡的网络流量数据增强方法,其特征在于,步骤s1具体包括:s11、将原始网络流量数据集通过k-means聚类算法进行聚类,得到一定数量的聚类结果簇;s12、针对任一聚类结果簇c
k
,当簇内所包含的样本数量小于等于阈值θ时,标记为少数类样本集合c
k,min
;当簇内所包含的样本数量大于阈值θ时,标记为多数类样本集合c
k,maj
。3.根据权利要求1所述的面向样本不均衡的网络流量数据增强方法,其特征在于,步骤s2具体包括:s21、对于每一个少数类样本集合c
k,min
,计算所有少数类样本之间的欧几里得距离,得到欧氏距离矩阵到欧氏距离矩阵式中,n为少数类样本集合c
k,min
中的样本数量;s22、根据欧氏距离矩阵获取少数类样本集合c
k,min
中每个少数类样本x
i
到其他少数类样本的距离占比其中,步骤s22具体包括:s221、计算少数类样本集合c
k,min
中任一少数类样本x
i
到所有其他少数类样本的距离之和,即对欧氏距离矩阵中的每一行元素进行求和,用表示;s222、计算少数类样本集合c
k,min
中所有少数类样本之间的距离之和,即对欧氏距离矩阵的上三角元素进行求和,用表示;s223、计算少数类样本集合c
k,min
中任一少数类样本x
i
到所有其他少数类样本的距离之和占所有少数类样本间距离之和的比例即计算欧氏距离矩阵中第i行元素之和除以欧氏距离矩阵的上三角元素之和;
s23、当的标准差不为0时,采用z-score的方式对进行标准化,得到标准化分数标准化的过程中采用3σ准则进行噪声清洗,将用于计算稀疏因子的数据范围锁定在算稀疏因子的数据范围锁定在随后对进行归一化计算,即计算在少数类样本标准化分数之和中的占比,得到少数类样本x
i
的稀疏因子sparsity
i
;当的标准差为0时,直接对进行归一化计算,得到少数类样本x
i
的稀疏因子;计算公式如下:的稀疏因子;计算公式如下:s24、重复s21-s23,得到所有少数类样本集合中所有少数类样本的稀疏因子。4.根据权利要求1所述的面向样本不均衡的网络流量数据增强方法,其特征在于,步骤s3具体包括:s31、对于某一少数类样本集合c
k,min
,首先计算所有少数类样本到所有多数类样本集合c
k,maj
中所有多数类样本的欧几里得距离,得到欧氏距离矩阵中所有多数类样本的欧几里得距离,得到欧氏距离矩阵式中,n为少数类样本集合c
k,min
中的样本数量,m为所有多数类样本集合c
k,maj
中所有多数类样本的数量;s32、获取少数类样本集合c
k,min
中少数类样本x
i
到多数类样本的距离占比得到少数类样本与多数类样本间的差异度;其中,步骤s32具体包括:s321、计算少数类样本集合c
k,min
中任一少数类样本x
i
到多数类样本集合c
k,maj
中所有多数类样本的距离之和,即,对欧氏距离矩阵中的每一行元素进行求和,用表示;s322、计算少数类样本集合c
k,min
中所有少数类样本到多数类样本集合c
k,maj
中所有多数类样本的距离之和,即,欧氏距离矩阵中的所有元素之和,用表示;s323、计算少数类样本集合c
k,min
中任一少数类样本x
i
到多数类样本集合c
k,maj
中所有多数类样本的距离之和占所有少数类样本到所有多数类样本的距离之和的比例即,计算欧氏距离矩阵中第i行元素之和除以欧氏距离矩阵中所有元素之和;
s33、当的标准差不为0时,采用z-score的方式对进行标准化,得到标准化分数标准化的过程中采用3σ准则进行噪声清洗,将用于计算稀疏因子的数据范围锁定在算稀疏因子的数据范围锁定在随后对进行归一化计算,即,计算在少数类样本标准化分数之和中的占比,得到少数类样本x
i
与多数类样本间的差异度diversity
i
;当的标准差为0时,对进行归一化计算,得到少数类样本x
i
与多数类样本间的差异度diversity
i
;计算公式如下:;计算公式如下:s34、重复s31-s33,得到所有少数类样本集合中所有少数类样本的差异度。5.根据权利要求1所述的面向样本不均衡的网络流量数据增强方法,其特征在于,步骤s4具体包括:s41、根据任一少数类样本集合c
k,min
中少数类样本的稀疏因子和差异度,使用sigmoid函数进行归一化后为少数类样本赋予初始权重,让周围稀疏和处于边界处的样本获得更高的权重weight
i
;s42、在已赋值权重的样本中进行随机抽取,基于smote算法合成新样本,采用三角重心采样对少数类样本集合c
k,min
进行样本合成;s43、重复s41-s42,直到所有少数类样本集合完成样本合成后,得到数据增强后的数据集。

技术总结
本发明涉及流量数据增强领域,针对网络流量数据难于获取且大部分数据往往彼此间差异性很小,因而时常出现数据类别严重不平衡的难题,提出了一种面向样本不均衡的网络流量数据增强方法。本发明对网络流量数据集进行聚类后划分少数类样本集合和多数类样本集合,通过计算聚类后数据中少数类样本的稀疏度和差异度,为少数类样本赋予初始权重后,基于SMOTE合成新样本并生成新的数据集。通过本发明提出的过采样数据增强方法,可以更有效地选择出数据集中分布稀疏处样本和边界处样本,提升生成数据的质量。本发明提供的方法为类别不平衡数据集提供了快速、有效的数据增强方案,适用于输入为网络流量数据集的分类模型执行前的数据增强过程。强过程。强过程。


技术研发人员:霍永华 黄伟 焦利彬 冀云刚 杨杨 王颖 郭义豪
受保护的技术使用者:北京邮电大学
技术研发日:2022.03.30
技术公布日:2022/7/21
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献