一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于权重的不平衡数据分类过采样方法及系统与流程

2022-02-21 09:11:12 来源:中国专利 TAG:

技术特征:
1.一种基于权重的不平衡数据分类过采样方法,其特征在于,包括以下步骤:s1、获取待处理不平衡数据样本集,对待处理不平衡数据样本集进行分类,得到少数类样本集和多数类样本集;s2、根据待处理不平衡数据样本自带的分类标签构造若干棵完全随机树,得到完全随机森林;根据每棵完全随机树分别对每个少数类样本进行初步判定,判定该少数类样本是否为噪声样本;s3、根据每个少数类样本在每棵完全随机树中的初步判定结果,计算每个少数类样本在完全随机森林中的权重;s4、根据每个少数类样本在完全随机森林中的权重判断每个少数类样本是否为噪声样本,并从少数类样本集中过滤掉所有噪声样本,得到去噪声少数类样本集;s5、根据不同过采样算法的策略从去噪声少数类样本集中筛选种子样本,对种子样本进行插值处理生成新样本;s6、将种子样本、新样本、多数类样本集、去噪声少数类样本集进行汇总,得到采样后的平衡数据集。2.根据权利要求1所述的一种基于权重的不平衡数据分类过采样方法,其特征在于,完全随机森林包括了n
tree
棵完全随机树,其中,完全随机树的棵树根据所有待处理不平衡数据样本的数据维度和样本数量来确定,n
tree
=log2(dn)其中,n表示待处理不平衡数据样本集中所有样本的个数,d表示待处理不平衡数据样本集中所有样本的特征个数。3.根据权利要求2所述的一种基于权重的不平衡数据分类过采样方法,其特征在于,步骤s2的具体过程为:s21、构造完全随机树的根节点,每棵完全随机树的根节点包括所有少数类样本和多数类样本,从每棵树的根节点开始将所有少数类样本和多数类样本随机生成两个子节点;s22、对于生成的两个子节点,重新确定两个子节点的标签类型,并分别判断两个子节点中包含的样本是否属于同一类;根节点的标签类型为多数类样本的标签类型,生成的子节点的标签类型为该子节点中包含的样本占比更多的那类样本对应的标签类型;s23、若子节点中包含的样本类型不属于同一类,则继续将该子节点作为父节点重复步骤s22随机生成两个新的子节点,直到新生成的子节点中包含的样本属于同一类,则只包含同一类样本的子节点为叶子节点,构造出完全随机树;s24、根据构造出的完全随机树,对于每个少数类样本,判断每棵树中每个少数类样本所在叶子节点的标签类型与该叶子节点对应的父节点的标签类型是否一致;s25、在每棵完全随机树中,若少数类样本所在的叶子节点的标签类型与其对应的父节点的标签类型不一致,则当前这棵树将该叶子节点中包含的少数类样本初步判断为噪声样本。4.根据权利要求2所述的一种基于权重的不平衡数据分类过采样方法,其特征在于,s3中计算每个少数类样本在完全随机森林中的权重的过程为:s31、利用待处理不平衡数据样本集训练n
tree
棵完全随机树,对于每棵完全随机树,判断每个少数类样本所在叶子节点和该叶子节点对应的父节点的标签类型是否相同;若不相
同,则初步判断该少数类样本为噪声样本;s32、在完全随机森林中,对于每个少数类样本,判断是否存在n
chaos
颗树将该少数类样本初步判断为噪声样本,若存在则该少数类样本的权重为0,否则该少数类样本的权重为则少数类样本的权重weight用公式表示如下:5.根据权利要求4所述的一种基于权重的不平衡数据分类过采样方法,其特征在于,步骤s4中,若少数类样本的权重为0,则判断这个少数类样本为噪声样本,从少数类样本集中过滤掉所有被判断为噪声样本的少数类样本。6.根据权利要求1所述的一种基于权重的不平衡数据分类过采样方法,其特征在于,s5中,生成新样本的具体过程为:s51、将筛选出的种子样本汇总得到种子样本数据集,从种子样本数据集中分辨出安全样本和危险样本;具体过程为:用去噪声少数类样本集训练knn模型,对于任意一个种子样本s,求出这个种子样本s在所有少数类样本中的近邻点,从种子样本s的k个近邻点中随机选取一个近邻样本n,在s和n中,令权重大的样本为安全样本ss,权重小的样本为危险样本ds,s52、根据安全样本和危险样本的权重确定插值位置syn,得到新样本的具体位置,生成新样本,插值位置syn的确定:syn=ss (ds-ss)*(weight
ds
*α)/weight
ds
weight
ss
,其中,ss表示安全样本,weight
ss
表示安全样本的权重,ds表示危险样本,weight
ds
表示危险样本的权重,α表示随机参数,取值范围为:0<α<1。7.一种基于权重的不平衡数据分类过采样系统,其特征在于,包括数据分类采集模块、完全随机森林构造模块、权重计算模块、噪声过滤模块、种子样本筛选模块,新样本生成模块,数据整理模块;其中,数据分类采集模块用于对获取的待处理不平衡数据样本集进行分类,得到少数类样本集和多数类样本集;完全随机森林构造模块用于根据待处理不平衡数据样本自带的分类标签构造若干棵完全随机树,得到完全随机森林;并根据每棵完全随机树分别对每个少数类样本进行初步判定,判定该少数类样本是否为噪声样本;权重计算模块用于根据每个少数类样本在每棵完全随机树中的初步判定结果,计算每个少数类样本在完全随机森林中的权重;噪声过滤模块用于根据权重筛选出噪声样本,并从少数类样本集中过滤掉所有噪声样本,得到去噪声少数类样本集;种子样本筛选模块用于根据不同过采样算法的策略从去噪声少数类样本集中筛选种子样本;新样本生成模块用于对种子样本进行插值处理生成新样本;数据整理模块用于将得种子样本、新样本、多数类样本集、去噪声少数类样本集进行收
集汇总,得到采样后的平衡数据集。8.根据权利要求7所述的一种基于权重的不平衡数据分类过采样系统,其特征在于,完全随机森林包括了n
tree
棵完全随机树,其中,完全随机树的棵树根据所有待处理不平衡数据样本的数据维度和样本数量来确定,n
tree
=log2(dn)其中,n表示待处理不平衡数据样本集中所有样本的个数,d表示待处理不平衡数据样本集中所有样本的特征个数。9.根据权利要求7所述的一种基于权重的不平衡数据分类过采样系统,其特征在于,在所述权重计算模块中,利用待处理不平衡数据样本集训练n
tree
棵完全随机树,对于每棵完全随机树,判断每个少数类样本所在叶子节点和该叶子节点对应的父节点的标签类型是否相同;若不相同,则初步判断该少数类样本为噪声样本;在完全随机森林中,对于每个少数类样本,判断是否存在n
chaos
颗树将该少数类样本初步判断为噪声样本,若存在则该少数类样本的权重为0,否则该少数类样本的权重为10.根据权利要求9所述的一种基于权重的不平衡数据分类过采样系统,其特征在于,噪声过滤模块中,将权重为0的少数类样本判断为噪声样本,从少数类样本集中过滤掉所有被判断为噪声样本的少数类样本。

技术总结
本发明公开了一种基于权重的不平衡数据分类过采样方法及系统,根据待处理不平衡数据样本自带的分类标签构造若干棵完全随机树,得到完全随机森林;根据每个少数类样本在每棵完全随机树中的初步判定结果,计算每个少数类样本在完全随机森林中的权重;并判断每个少数类样本是否为噪声样本,并从少数类样本集中过滤掉所有噪声样本,根据不同过采样算法的策略从去噪声少数类样本集中筛选种子样本,对种子样本进行插值处理生成新样本;将种子样本、新样本、多数类样本集、去噪声少数类样本集进行汇总,得到采样后的平衡数据集,通过构建完全随机树计算少数类的权重,不用考虑调参问题,自适应各种情况,减少了噪声样本的产生,提高采样精度。样精度。样精度。


技术研发人员:王国胤 周豪 张勇 付京成
受保护的技术使用者:重庆邮电大学
技术研发日:2021.10.26
技术公布日:2022/1/25
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献