一种基于大数据分析的数据清洗方法、系统及设备与流程
- 国知局
- 2024-11-06 15:07:09
本发明涉及数据分析处理,具体涉及一种基于大数据分析的数据清洗方法、系统及设备。
背景技术:
1、大数据分析的目的是要从大量杂乱无章的数据中提取有价值的信息和洞察。为了确保分析结果的准确性和可靠性,数据清洗是必不可少的步骤。由于环境数据与公共健康紧密相关,污染物的监测和分析有助于预防和控制疾病。因此,对环境数据进行爬取、分析和预测格外重要,但是爬取到的环境数据中可能存在错误、异常、格式不一致等原因导致爬取到的数据中存在缺失。
2、由于通常获取的数据存在大量的错误、重复、不完整等数据,通过对数据进行清洗能有效提高数据的质量,确保数据的一致性,清洗后的数据更加适合用于建立和优化分析模型,可以提高模型的预测准确性和可靠性。而数据的缺失会导致数据集中存在nan异常值,导致对这些数据的分析和建模不准确、或者出现程序错误无法继续运行。因此,对数据进行插值补全是清洗的重要环节。
3、现有技术中存在的问题在于,由于传感器可能由于设备的干扰以及电子噪声等影响导致监测的数据不准确和属性值的缺失,导致通常爬取的数据不完整。影响对环境数据的连续性以及建模和预测。但是在实际操作中会出现以下问题,knn插值时需要长根据各个数据点之间是独立的,但是环境数据的变化在时间上具有相关性,从而导致对数据点的权重判断不准确,并且若数据中存在大量的缺失属性,会导致数据的精度下降,缺失的距离计算差异不明显,数据点的代表性不准确,影响数据点的权重判断。
技术实现思路
1、为了解决环境数据清洗过程中,由于数据点的权重判断不准确,影响环境数据插值精度的技术问题,本发明的目的在于提供一种基于大数据分析的数据清洗方法、系统及设备,所采用的技术方案具体如下:
2、第一方面本发明提供一种基于大数据分析的数据清洗方法,所述方法包括:首先,获取环境数据,所述环境数据包括多个数据点,每个数据点包括多个属性,每个属性对应有属性值,根据所述属性值的异常情况,对所述环境数据进行预处理,得到预处理后的环境数据;然后,通过对所述预处理后的环境数据中每个数据点在邻域内的数据分析,确定所有数据点的权重;将所述数据点的权重作为数据插值的权重,对预处理后的环境数据进行插值补全,得到数据清洗后的环境数据。
3、本发明首先对环境数据进行预处理,再通过对环境数据里面每个数据点的每个属性进行多角度分析,从而确定每个数据点的权重,最后根据新得到的数据点权重作为数据插值的权重,对环境数据进行插值补全。通过对数据点的权重调整提高插值数据的准确性,使得对于环境数据的插值更精确。
4、进一步的,根据所述属性值的异常情况,对所述环境数据进行预处理,具体为:对每个数据点的每个属性的属性值一一进行判断,若所述属性值为异常值,则将所述异常值对应的属性值设置为空值。
5、进一步的,所述方法包括:所述数据点的权重根据数据点的参考价值和数据点的重要性进行确定;通过对所述预处理后的环境数据中每个数据点在时序邻域内的数据分析,确定所述数据点的初始参考价值;通过对所述预处理后的环境数据中每个数据点在属性邻域内的数据分析,修正所述初始参考价值,确定所述数据点的参考价值;通过对所述预处理后的环境数据中每个数据点在空间邻域内的数据分析,确定所述数据点的重要性。
6、进一步的,通过对所述预处理后的环境数据中每个数据点在时序邻域内的数据分析,确定所述数据点的初始参考价值,具体包括:在时序上,对第i个数据点构建时序邻域,分析时序邻域内各个数据点第j个属性的属性值缺失情况,得到第i个数据点第j个属性的初始参考价值,其中i和j为自然数。
7、进一步的,通过对所述预处理后的环境数据中每个数据点在属性邻域内的数据分析,修正所述初始参考价值,得到所有数据点的参考价值,具体包括:对第i个数据点的所有属性构建属性邻域,根据属性邻域内第j个属性与其他属性的相关性,对所述第i个数据点第j个属性的初始参考价值进行修正,得到第i个数据点第j个属性的参考价值;根据所述第i个数据点第j个属性的参考价值和第i个数据点属性整体缺失情况,得到第i个数据点的参考价值;遍历所有数据点,得所述数据点的参考价值。
8、进一步的,通过对所述预处理后的环境数据中每个数据点在空间邻域内的数据分析,确定所述数据点的重要性,具体包括:空间上,对第y个数据点构建空间邻域,对数据点存在缺失的空间邻域进行分析,分析空间邻域内完整数据点和缺失数据点之间的空间位置关系,再结合第y个数据点的参考价值,得到第y个数据点的重要性,y为自然数;遍历所有数据点,得到所述数据点的重要性。
9、进一步的,所述数据点的权重根据数据点的参考价值和数据点的重要性进行确定,具体包括:对于完整数据点,将所述完整数据点的参考价值作为所述数据点的权重;对于不完整数据点,将所述不完整数据点的重要性作为所述数据点的权重。
10、进一步的,将所述数据点的权重作为数据插值的权重,采用knn算法对预处理后的环境数据进行插值补全,得到数据清洗后的环境数据。
11、第二方面,本发明提供一种基于大数据分析的数据清洗系统,包括:数据采集模块:用于获取环境数据,所述环境数据包括多个数据点,每个数据点包括多个属性,每个属性对应有属性值,根据所述属性值的异常情况,对所述环境数据进行预处理,得到预处理后的环境数据;特征分析模块:用于对所述预处理后的环境数据进行分析后,得到所述数据点的权重;其中,所述数据点的权重根据数据点的参考价值和数据点的重要性进行确定;通过对所述预处理后的环境数据中每个数据点在时序邻域内的数据分析,确定所述数据点的初始参考价值;通过对所述预处理后的环境数据中每个数据点在属性邻域内的数据分析,修正所述初始参考价值,确定所述数据点的参考价值;通过对所述预处理后的环境数据中每个数据点在空间邻域内的数据分析,确定所述数据点的重要性;数据补全模块:用于将所述数据点的权重作为数据插值的权重,采用knn算法对预处理后的环境数据进行插值补全,得到数据清洗后的环境数据。
12、第三方面,本发明提供一种电子设备,所述电子设备包括处理器和存储器,所述处理器调用所述存储器中的计算机执行指令,执行第一方面的一种基于大数据分析的数据清洗方法。
13、本发明具有如下有益效果:
14、本发明通过分析数据点之间的相关性和重要性,具体通过数据点的属性值来体现数据点之间的相关性和重要性,进行得到数据点的参考价值和数据点的重要性,再据此确定数据点的权重对环境数据进行插值,使得对于环境数据的插值更精确。
15、本发明通过考虑环境数据的时序特征确定了其参考价值,通过数据点属性之间的相关性对参考价值进行修正,通过缺失数据点与完整数据点在邻域内的分布情况确定数据点的重要性,将不完整数据点的重要性和完整数据点的参考价值作为权重采用knn算法对环境数据进行插值补全。通过对数据点的权重调整提高插值数据的准确性。
16、本发明通过对环境数据进行清洗、插值,确保环境数据的完整性和连续性。
本文地址:https://www.jishuxx.com/zhuanli/20241106/325413.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。