技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于粒子群算法的数据处理方法、装置、电子设备及介质与流程  >  正文

基于粒子群算法的数据处理方法、装置、电子设备及介质与流程

  • 国知局
  • 2024-07-31 22:43:50

本发明涉及网络,尤其涉及一种基于粒子群算法的数据处理方法、装置、电子设备及介质。

背景技术:

1、随着网络技术的快速发展,各种网络数据的数量爆发式增长,为了从海量数据中挖掘到有用的信息,往往需要对数据进行分类,这通常依赖于分类器实现。

2、而对分类器的训练效果的优劣往往依赖于训练数据集的质量,目前,由于数据采集、存储过程中往往存在损耗,因而用于训练的训练数据集大部分存在缺失,其有效性较差,导致对分类器的训练效果也较差。因此,如何对这种存在缺失的数据集进行有效处理以提高其有效性成为了亟需解决的问题。

技术实现思路

1、本发明提供一种基于粒子群算法的数据处理方法、装置、电子设备及介质,以至少解决如何提高数据的有效性的问题。本发明的技术方案如下:

2、根据本发明实施例的第一方面,提供了一种基于粒子群算法的数据处理方法,包括:

3、获取待处理的初始网络数据集,所述初始网络数据集中存在待填补特征,所述待填补特征为存在数据缺失的数据特征;

4、对所述待填补特征对应的数据以及所述初始网络数据集包含的数据特征进行编码,以生成多个待更新粒子;

5、针对任一所述待更新粒子,基于所述待更新粒子从所述初始网络数据集包含的数据特征中选择目标特征,得到所述待更新粒子对应的数据子集;

6、针对任一所述待更新粒子,基于所述待更新粒子对所述待更新粒子对应的数据子集进行数据填补,得到所述待更新粒子对应的填补后数据集;

7、基于任一所述待更新粒子对应的填补后数据集,为所述待更新粒子生成适应度评估值;

8、基于所述多个待更新粒子各自对应的适应度评估值,从所述多个待更新粒子中选取最优粒子;

9、针对所述多个待更新粒子,基于所述多个待更新粒子各自对应的适应度评估值,对所述多个待更新粒子分别进行更新,得到所述多个待更新粒子各自对应的更新后粒子;

10、将各所述更新后粒子作为新的待更新粒子,并迭代执行上述生成适应度评估值、选取最优粒子以及对待更新粒子进行更新的操作,并在满足更新结束条件时,将当前的最优粒子确定为目标粒子;

11、将基于所述目标粒子得到的填补后数据集,确定为最终的目标数据集。

12、根据本发明实施例的第二方面,提供了一种基于粒子群算法的数据处理装置,包括:

13、第一获取模块,用于获取待处理的初始网络数据集,所述初始网络数据集中存在待填补特征,所述待填补特征为存在数据缺失的数据特征;

14、编码模块,用于对所述待填补特征对应的数据以及所述初始网络数据集包含的数据特征进行编码,以生成多个待更新粒子;

15、特征选择模块,用于针对任一所述待更新粒子,基于所述待更新粒子从所述初始网络数据集包含的数据特征中选择目标特征,得到所述待更新粒子对应的数据子集;

16、数据填补模块,用于针对任一所述待更新粒子,基于所述待更新粒子对所述待更新粒子对应的数据子集进行数据填补,得到所述待更新粒子对应的填补后数据集;

17、评估模块,用于基于任一所述待更新粒子对应的填补后数据集,为所述待更新粒子生成适应度评估值;

18、最优选择模块,用于基于所述多个待更新粒子各自对应的适应度评估值,从所述多个待更新粒子中选取最优粒子;

19、更新模块,用于针对所述多个待更新粒子,基于所述多个待更新粒子各自对应的适应度评估值,对所述多个待更新粒子分别进行更新,得到所述多个待更新粒子各自对应的更新后粒子;

20、迭代执行模块,用于将各所述更新后粒子作为新的待更新粒子,并迭代执行上述生成适应度评估值、选取最优粒子以及对待更新粒子进行更新的操作,并在满足更新结束条件时,将当前的最优粒子确定为目标粒子;

21、确定模块,用于将基于所述目标粒子得到的填补后数据集,确定为最终的目标数据集。

22、根据本发明实施例的第三方面,提供了一种电子设备,包括:

23、处理器;

24、用于存储所述处理器可执行指令的存储器;

25、其中,所述处理器被配置为执行所述指令,以实现如第一方面所述的方法。

26、根据本发明实施例的第四方面,提供了一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备执行如第一方面所述的方法。

27、根据本发明实施例的第五方面,提供了一种计算机程序产品,所述计算机程序产品包括可读性程序指令,所述可读性程序指令由电子设备的处理器执行时,使得所述电子设备执行如第一方面所述的方法。

28、本发明的实施例提供的技术方案至少带来以下有益效果:在本发明实施例中,通过获取待处理的初始网络数据集,所述初始网络数据集中存在待填补特征,所述待填补特征为存在数据缺失的数据特征;对所述待填补特征对应的数据以及所述初始网络数据集包含的数据特征进行编码,以生成多个待更新粒子;针对任一所述待更新粒子,基于所述待更新粒子从所述初始网络数据集包含的数据特征中选择目标特征,得到所述待更新粒子对应的数据子集;针对任一所述待更新粒子,基于所述待更新粒子对所述待更新粒子对应的数据子集进行数据填补,得到所述待更新粒子对应的填补后数据集;基于任一所述待更新粒子对应的填补后数据集,为所述待更新粒子生成适应度评估值;基于所述多个待更新粒子各自对应的适应度评估值,从所述多个待更新粒子中选取最优粒子;针对所述多个待更新粒子,基于所述多个待更新粒子各自对应的适应度评估值,对所述多个待更新粒子分别进行更新,得到所述多个待更新粒子各自对应的更新后粒子;将各所述更新后粒子作为新的待更新粒子,并迭代执行上述生成适应度评估值、选取最优粒子以及对待更新粒子进行更新的操作,并在满足更新结束条件时,将当前的最优粒子确定为目标粒子;将基于所述目标粒子得到的填补后数据集,确定为最终的目标数据集。这样,本发明实施例的数据处理方法,相较于传统的采用随机值进行数据填补的方式,不同粒子可以对应产生不同的填补后数据集,不同粒子相当于不同的数据处理方式,通过粒子群算法对不同粒子进行演化,从而可以实现对数据处理方式的演化,可以在一定程度上保证数据处理的有效性,进一步保证了采用填补后的数据集训练分类器的效果,进而提高了数据挖掘的挖掘效果。

29、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。

技术特征:

1.一种基于粒子群算法的数据处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述待填补特征包括离散型待填补特征以及连续型待填补特征;所述对所述待填补特征对应的数据以及所述初始网络数据集包含的数据特征进行编码,以生成多个待更新粒子,包括:

3.根据权利要求2所述的方法,其特征在于,所述基于所述待更新粒子对所述待更新粒子对应的数据子集进行数据填补,包括:

4.根据权利要求2所述的方法,其特征在于,所述基于所述待更新粒子从所述初始网络数据集包含的数据特征中选择目标特征,包括:

5.根据权利要求1所述的方法,其特征在于,所述基于所述多个待更新粒子各自对应的适应度评估值,从所述多个待更新粒子中选取最优粒子之后,所述方法还包括:

6.根据权利要求5所述的方法,其特征在于,所述对所述待填补特征对应的数据以及所述初始网络数据集包含的数据特征进行编码,以生成多个待更新粒子之后,所述方法还包括:基于所述多个待更新粒子构建粒子档案;

7.根据权利要求1所述的方法,其特征在于,所述基于所述待更新粒子从所述初始网络数据集包含的数据特征中选择目标特征,得到所述待更新粒子对应的数据子集之后,所述方法还包括:将所述数据子集划分为训练子集与测试子集,并将所述训练子集作为新的数据子集;

8.一种基于粒子群算法的数据处理装置,其特征在于,所述装置包括:

9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器进行时实现如权利要求1-7中任一所述的方法。

技术总结本发明关于一种基于粒子群算法的数据处理方法、装置、电子设备及介质,涉及网络技术领域,该方法通过获取待处理的初始网络数据集;对待填补特征对应的数据以及初始网络数据集包含的数据特征进行编码,以生成多个待更新粒子;针对任一待更新粒子,为待更新粒子生成适应度评估值;对多个待更新粒子分别进行更新,得到多个待更新粒子各自对应的更新后粒子;将各更新后粒子作为新的待更新粒子,并迭代执行上述生成适应度评估值、选取最优粒子以及对待更新粒子进行更新的操作,并在满足更新结束条件时,将当前的最优粒子确定为目标粒子;将基于目标粒子得到的填补后数据集,确定为最终的目标数据集。保证数据处理的有效性。技术研发人员:刘艺,郑奇斌,李庚松,杨国利,李翔,史殿习,刁兴春受保护的技术使用者:北京大数据先进技术研究院技术研发日:技术公布日:2024/7/29

本文地址:https://www.jishuxx.com/zhuanli/20240730/194338.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。