一种排水管网数据清洗方法、装置、存储设备及介质与流程
- 国知局
- 2024-10-09 14:47:22
本发明涉及数据处理,具体为一种排水管网数据清洗方法、装置、存储设备及介质。
背景技术:
1、在排水管网数据采集和记录过程中,可能会受到各种因素的影响,例如传感器误差、设备故障、数据输入错误等,导致数据中存在缺失值、异常值或不一致的情况。这些问题会影响到数据的准确性、完整性和可信度,进而影响到对排水管网运行状态的分析、监测和管理。
2、现有技术如公告号为:cn110727668b的发明专利,为数据清洗方法及装置,涉及数据处理技术领域,其中包括:获取多个待清洗数据;根据所述多个待清洗数据的属性信息,将所述多个待清洗数据划分为至少一个类别的待清洗数据;分别从每个类别的待清洗数据中抽取部分中间数据;使用存储的多个预设数据清洗规则分别对每个类别的中间数据进行清洗,根据清洗结果确定每个类别的待清洗数据对应的数据清洗规则;使用所述每个类别的待清洗数据对应的数据清洗规则,对所述多个待清洗数据中该类别的待清洗数据进行清洗。
3、现有技术如公告号为:cn110209658b的发明专利,为数据清洗方法和装置。该方法的一具体实施方式包括:获取待清洗的训练样本集合;提取训练样本集合中的训练样本的特征数据;对所得到的特征数据进行聚类处理,以确定训练样本集合中孤立的训练样本;基于所确定出的孤立的训练样本,对训练样本集合进行清洗,得到清洗后的训练样本集合。
4、结合上述方案发现,当前在数据处理方法中,缺乏对排水管网数据进行多数据融合关联性分析,不同类型的排水管网数据可能被单独处理,导致各自的信息相对孤立,难以发现它们之间的关联性和潜在的相互影响,并且少有针对排水管网数据进行分批处理,可能会导致算法运行速度缓慢,延长数据处理的时间,并会影响数据处理的质量和准确性。
技术实现思路
1、针对现有技术的不足,本发明提供了一种排水管网数据清洗方法、装置、存储设备及介质,能够有效解决上述背景技术中涉及的问题。
2、为实现以上目的,本发明通过以下技术方案予以实现:一种排水管网数据清洗方法,包括s1、将排水管网区域进行划分,得到各管网子区域,并采集各管网子区域的排水管网数据。
3、s2、对各管网子区域的排水管网数据进行预处理,得到各管网子区域的排水管网数据的处理方式,若排水管网数据的处理方式为分批处理,则将各管网子区域的排水管网数据进行分批处理后执行步骤s3,若排水管网数据的处理方式为非分批处理,则直接执行步骤s3。
4、s3、对各管网子区域的排水管网数据进行异常值检测分析,得到各管网子区域的排水管网数据异常指征系数,并筛分各排水管网异常数据进行标记和清洗。
5、s4、将各管网子区域的排水管网数据进行多数据融合关联性分析,并校验各管网子区域的排水管网数据的数据质量。
6、进一步地,所述得到各管网子区域的排水管网数据的处理方式,具体分析过程为:对各管网子区域的排水管网数据进行预处理,统计各管网子区域的排水管网数据的数据量,并与排水管网数据库中存储的数据量阈值进行比对,若某管网子区域的排水管网数据的数据量高于或等于数据量阈值,则将该管网子区域的排水管网数据的处理方式记为分批处理,若某管网子区域的排水管网数据的数据量低于于数据量阈值,则将该管网子区域的排水管网数据的处理方式记为非分批处理,由此遍历得到各管网子区域的排水管网数据的处理方式。
7、进一步地,所述得到各管网子区域的排水管网数据异常指征系数,具体分析过程为:统计各管网子区域的排水管网数据,包括液位、温度和电导率,由此进行异常值检测分析,分别得到各管网子区域的液位的z-score值、温度的z-score值和电导率的z-score值,经处理得到各管网子区域的排水管网数据异常指征系数。
8、进一步地,所述筛分各排水管网异常数据进行标记和清洗,具体过程为:根据各管网子区域的排水管网数据异常指征系数,并与排水管网数据库中存储的数据异常指征阈值进行比对,若某管网子区域的排水管网数据异常指征系数高于或等于数据异常指征阈值,则将该管网子区域的排水管网数据标记为排水管网异常数据,由此遍历分析各管网子区域的排水管网数据异常指征系数,并依次筛分得到各排水管网异常数据进行标记和清洗。
9、进一步地,所述将各管网子区域的排水管网数据进行多数据融合关联性分析,具体分析过程为:将各管网子区域的排水管网数据进行多数据融合关联性分析,包括液位、温度和电导率之间的融合关联性分析,绘制液位、温度与电导率之间的散点图,记为数据融合散点图,并使用pearson相关系数方法,分别评估液位与温度之间的pearson相关系数,记为第一pearson相关系数,液位与电导率之间的pearson相关系数,记为第二pearson相关系数,温度与电导率之间的pearson相关系数,记为第三pearson相关系数,由此判断各管网子区域的液位、温度与电导率之间的线性相关性。
10、将数据融合散点图中添加一条拟合的回归线,由此依次将第一pearson相关系数、第二pearson相关系数以及第三pearson相关系数与回归线的斜率进行比较,提取与回归线的斜率之间差值最小的pearson相关系数,记为数据融合散点图的pearson相关系数,由此统计各管网子区域的数据融合散点图的pearson相关系数。
11、进一步地,所述校验各管网子区域的排水管网数据的数据质量,具体分析过程为:将各管网子区域的数据融合散点图的pearson相关系数与排水管网数据库中存储的pearson相关系数参照区间进行比对,若某管网子区域的数据融合散点图的pearson相关系数超出pearson相关系数参照区间,则将该管网子区域的排水管网数据的数据质量标记为异常,由此遍历校验得到各管网子区域的排水管网数据的数据质量。
12、进一步地,所述各管网子区域的排水管网数据异常指征系数,具体分析条件为:
13、
14、式中,μi表示第i个管网子区域的排水管网数据异常指征系数,表示第i个管网子区域的液位和电导率之间的z-score的偏差值,表示第i个管网子区域的液位和温度之间的z-score的偏差值,表示第i个管网子区域的温度和电导率之间的z-score的偏差值,i表示各管网子区域的编号,i=1,2,3,...,n,n表示管网子区域的总数。
15、本发明第二方面提供一种用于排水管网数据清洗方法的装置,包括:液位传感器,用于测量排水管网中液体的液位。
16、温度传感器,用于测量排水管网中液体的温度。
17、电导率传感器,用于测量排水管网中液体的电导率。
18、数据传输设备,用于负责将传感器收集到的数据传输到数据处理设备。
19、数据存储设备,用于存储从传感器和数据传输设备收集到的数据。
20、数据处理设备,用于执行数据清洗、数据处理和数据分析任务。
21、本发明第三方面提供一种存储设备,所述存储设备包括处理器,以及与处理器连接的内存和网络接口;所述网络接口与服务器中的非易失性存储器连接;所述处理器在运行时通过所述网络接口从所述非易失性存储器中调取计算机程序,并通过所述内存运行所述计算机程序,以执行上述的方法。
22、本发明第四方面提供一种存储介质,所述计算机程序被处理器执行时,实现如上述所述的方法。
23、本发明具有以下有益效果:
24、(1)本发明提供的一种排水管网数据清洗方法、装置、存储设备及介质,首先通过对各管网子区域的排水管网区域进行划分并采集数据,然后根据各管网子区域的数据量进行分析,确定各管网子区域的数据处理方式,根据数据量不同采取不同的处理方式,使得数据清洗过程更加高效,节省时间和计算资源。最后,对各管网子区域的排水管网数据进行多数据融合关联性分析,并校验数据质量,通过多数据融合关联性分析,可以全面了解各子区域数据之间的关系和特征,为后续的数据处理提供更全面的依据。
25、(2)本发明通过得到各管网子区域的排水管网数据的处理方式,可以更加有效地利用计算资源,对于数据量较大的管网子区域,采取分批处理的方式可以减轻计算负担,提高数据处理的效率和速度,降低数据处理的时间成本,加快数据清洗的速度,从而及时发现和处理异常值,保障数据质量,有助于保证数据处理的稳定性和可靠性。
26、(3)本发明通过对各管网子区域的排水管网数据进行异常值检测分析,评估了各管网子区域的液位、温度和电导率的z-score值,并统计偏差值,得到异常指征系数,能够准确识别出各管网子区域的异常数据,有助于保障数据的质量,帮助实现对整个排水管网的异常数据处理,为后续数据质量分析提供了便利。
27、(4)本发明通过将各管网子区域的排水管网数据进行多数据融合关联性分析,并校验各管网子区域的数据质量,有助于发现排水管网数据之间的关联性和潜在的相互影响,为异常数据的识别提供更科学的依据,保障了排水管网数据的质量,提高数据的可信度和可靠性。
28、当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
本文地址:https://www.jishuxx.com/zhuanli/20241009/306513.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表