一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于数据相关性的数据质量稽核系统及方法与流程

2022-04-30 16:21:29 来源:中国专利 TAG:


1.本发明涉及通信技术领域,特别涉及一种对通信数据质量进行评估的基于数据相关性的数据质量稽核系统及方法。


背景技术:

2.据统计,数据科学家和数据分析员每天有30%的时间浪费在了辨别数据是否是“坏数据”上,在数据质量不高的环境下,做数据分析可谓是战战兢兢。可见数据质量问题已经严重影响了组织业务的正常运营。通过科学的数据质量管理,持续地提升数据质量,已经成为组织内刻不容缓的优先任务。
3.当我们谈到数据质量的时候,我们必须要有一个数据质量评估的标准,有了这个标准,我们才能知道如何评估数据的质量,才能把数据质量量化,并知道改进方向,并且考核改进后的效果。目前业内认可的数据质量的标准有:
4.1)准确性:描述数据是否与其对应的客观实体的特征相一致。
5.2)完整性:描述数据是否存在缺失记录或缺失字段。
6.3)一致性:描述同一实体的同一属性的值在不同的系统是否一致
7.4)有效性:描述数据是否满足用户定义的条件或在一定的域值范围内。
8.5)唯一性:描述数据是否存在重复记录。
9.6)实时性:描述数据的产生和供应是否及时。
10.7)稳定性:描述数据的波动是否是稳定的,是否在其有效范围内。
11.以上定义了数据质量标准通用的一些规则,针对的都是数据的单一指标,而有的数据质量问题需要对数据中多个指标进行相关性分析,才能洞察数据质量是否有问题。


技术实现要素:

12.现有技术中,对移动通信数据质量进行评估时,仅仅基于单一指标,但是有的数据质量问题需要对数据中多个指标进行相关性分析,才能确定数据质量是否有问题。
13.针对上述问题,提出一种对通信数据质量进行评估的基于数据相关性的数据质量稽核系统及方法,通过对通信数据进行多维度抽样,并通过自定义稽核规则对所述抽样数据的指标进行稽核;利用相关性分析模块对抽样数据多个相关的指标进行相关性分析,判断该相关性是否达到规定阈值,从多维指标相关性出发,衡量数据质量,解决了现有稽核规则中的无法准确确定数据质量的问题。
14.第一方面,一种基于数据相关性的数据质量稽核系统,用于对通信数据质量进行评估,包括:
15.数据抽样模块;
16.稽核规则模块;
17.相关性分析模块;
18.所述数据抽象模块用于对通信数据进行多维度抽样,获取抽样数据;
19.所述稽核规则模块用于根据需求自定义稽核规则对所述抽样数据的指标进行稽核;
20.所述相关性分析模块用于对所述抽样数据多个相关的指标进行相关性分析,判断该相关性是否达到规定阈值。
21.结合本发明所述的基于数据相关性的数据质量稽核系统,第一种可能的实施方式中,所述相关性分析模块包括:
22.自定义单元;
23.调校单元;
24.所述自定义单元用于根据需求选择多个要进行相关性分析的指标;
25.所述调校单元用于对多个要进行相关性分析的指标的参数进行配置。
26.结合本发明第一种可能的实施方式,第二种可能的实施方式中,所述稽核系统还包括:
27.注册模块;
28.算法管理模块;
29.所述注册模块用于将用户自定义的稽核规则注册到所述稽核系统中,用以进行再次数据质量稽核;
30.所述算法管理模块用于将指标的相关性分析算法更新到算法库中。
31.结合本发明第二种可能的实施方式,第三种可能的实施方式中,所述相关性分析模块还包括:
32.关联单元;
33.所述关联单元用于获取指标数据之间的关联指数。
34.结合本发明第三种可能的实施方式,第四种可能的实施方式中,所述稽核系统还包括:
35.评估模块;
36.所述评估模块用于对稽核规则的实用性、版本进行管理。
37.第二方面,一种基于数据相关性的数据质量稽核方法,包括:
38.步骤10、通信数据进行多维度抽样,获取抽样数据;
39.步骤20、根据需求自定义稽核规则对所述抽样数据的指标进行基础的数据稽核;
40.步骤30、对所述抽样数据多个相关的指标进行相关性分析,获取所述多个相关的指标的相关性指数。
41.结合第二方面所述的基于数据相关性的数据质量稽核方法,第一种可能的实施方式中,所述步骤10包括:
42.步骤11、对通信业务数据进行时序抽样;
43.步骤12、对通信业务数据进行随机、等距、分层抽样。
44.结合第二方面第一种可能的实施方式,第二种可能的实施方式中,所述步骤200包括:
45.步骤21、获取所述稽核系统稽核规则;
46.步骤22、根据相关性分析需求,对所述系统稽核规则进行自定义修正,获取自定义稽核规则;
47.步骤23、将所述自定义稽核规则注册到系统中,以便再次利用该稽核规则进行通信数据质量评估。
48.结合第二方面第二种可能的实施方式,第三种可能的实施方式中,所述步骤30包括:
49.步骤31、判断相关性指数是否达到预期阈值;
50.步骤32、若所述相关性指数未达到预期阈值,则对评估的通信业务指标进行深度稽核;
51.步骤33、将基于自定义稽核规则的相关性分析算法更新到算法库中。
52.结合第二方面第三种可能的实施方式,第四种可能的实施方式中,所述方法还包括:
53.步骤40、对所述稽核规则的实用性进行评分管理;
54.步骤50、对所述稽核规则的使用方式及版本进行评分管理。
55.实施本发明所述的基于数据相关性的数据质量稽核系统及方法,通过对通信数据进行多维度抽样,并通过自定义稽核规则对所述抽样数据的指标进行稽核;利用相关性分析模块对抽样数据多个相关的指标进行相关性分析,判断该相关性是否达到规定阈值,从多维指标相关性出发,衡量数据质量,解决了现有稽核规则中的无法准确确定数据质量的问题。
附图说明
56.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
57.图1是本发明中基于数据相关性的数据质量稽核系统第一实施例示意图;
58.图2是本发明中基于数据相关性的数据质量稽核系统第二实施例示意图;
59.图3是本发明中基于数据相关性的数据质量稽核方法第一实施例示意图;
60.图4是本发明中基于数据相关性的数据质量稽核方法第二实施例示意图;
61.图5是本发明中基于数据相关性的数据质量稽核方法第三实施例示意图;
62.图6是本发明中基于数据相关性的数据质量稽核方法第四实施例示意图;
63.图7是本发明中基于数据相关性的数据质量稽核方法第五实施例示意图;
64.附图中各数字所指代的部位名称为:100——数据抽样模块、200——稽核规则模块、300——相关性分析模块、400——注册模块、500——算法管理模块、310——自定义单元、320——调校单元、330——关联单元。
具体实施方式
65.下面将结合发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的其他实施例,都属于本发明保护的范围。
66.除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
67.现有技术中,对移动通信数据质量进行评估时,仅仅基于单一指标,但是有的数据质量问题需要对数据中多个指标进行相关性分析,才能确定数据质量是否有问题。
68.针对上述问题,提出一种对通信数据质量进行评估的基于数据相关性的数据质量稽核系统及方法。
69.第一方面,一种基于数据相关性的数据质量稽核系统,如图1,图1是本发明中基于数据相关性的数据质量稽核系统第一实施例示意图,用于对通信数据质量进行评估,包括数据抽样模块100、稽核规则模块200、相关性分析模块300;数据抽象模块用于对通信数据进行多维度抽样,获取抽样数据;稽核规则模块200用于根据需求自定义稽核规则对抽样数据的指标进行稽核;相关性分析模块300用于对抽样数据多个相关的指标进行相关性分析,判断该相关性是否达到规定阈值。
70.在进行数据质量分析的过程中,衡量一个指标的数据质量时,很多场景只需从统计维度上去衡量,此时如果执行全量计算,无疑耗费较多计算资源以及使得指标评估过程过长。因此,本技术提出在进行统计指标质量评估时,在抽样前对数据进行多维度有效抽样,抽样算法包括随机抽样,等距抽样,分层抽样。
71.选择理论上存在相关性的指标,例如参考信号接收功率、信噪比、上行吞吐量、下行吞吐量、弱覆盖率、过覆盖率等,可以选择这些指标中的相关的指标组合进行相关性指数分析,通过相关性算法,对指标的相关性进行分析,若不如预期,达不到规定阈值指数,则需审查数据。相关性算法可以从算法库中调取,调取线性相关系数,皮尔森相关系数,jaccard相似系数,欧几里得距离,曼哈顿距离等相关性分析的算法。
72.通过对通信数据进行多维度抽样,并通过自定义稽核规则对抽样数据的指标进行稽核;利用相关性分析模块300对抽样数据多个相关的指标进行相关性分析,判断该相关性是否达到规定阈值,从多维指标相关性出发,衡量数据质量,解决了现有稽核规则中的无法准确确定数据质量的问题。
73.优选地,如图2,图2是本发明中基于数据相关性的数据质量稽核系统第二实施例示意图,相关性分析模块300包括自定义单元310、调校单元320;自定义单元310用于根据需求选择多个要进行相关性分析的指标;调校单元320用于对多个要进行相关性分析的指标的参数进行配置。
74.过对通信业务数据进行多维度抽样,并完成对抽样数据进行基础的数据稽核,稽核完成后利用自定义单元310自定义相关性分析指标,通过调校单元320调校好参数完成指标间相关性分析,形成稳定的相关性分析算法,最后更新到质量稽核规则库中。
75.优选地,稽核系统还包括注册模块400、算法管理模块500;注册模块400用于将用户自定义的稽核规则注册到稽核系统中,用以进行再次数据质量稽核;算法管理模块500用于将指标的相关性分析算法更新到算法库中。
76.稽核规则中对单一的指标的空值,值域,总量,中位数,均值,最大值,最小值等进行稽核,也可以由用户自定义稽核规则,选择其中的参数组合进行稽核,形成新的稽核规
则,还可以通过注册单元将新的稽核规则注册到系统中后,便可以在多类稽核算法中使用,能够适应更多的稽核场景。
77.优选地,相关性分析模块300还包括关联单元330;关联单元330用于获取指标数据之间的关联指数。通过关联指数挖掘数据之间的内在联系。
78.优选地,稽核系统还包括评估模块;评估模块用于对稽核规则的实用性、版本进行管理。
79.数据质量管理稽核规则中同一规则可在多种业务场景的数据中使用,将规则有效的管理,利用评估模块对规则评分,评估哪类规则实用性最强;同时对规则进行版本管理,可插拔式的使用哪个版本,也可组合式使用。
80.第二方面,如图3,图3是本发明中基于数据相关性的数据质量稽核方法第一实施例示意图,一种基于数据相关性的数据质量稽核方法,包括:步骤10、通信数据进行多维度抽样,获取抽样数据;步骤20、根据需求自定义稽核规则对抽样数据的指标进行基础的数据稽核;步骤30、对抽样数据多个相关的指标进行相关性分析,获取多个相关的指标的相关性指数。
81.优选地,如图4,图4是本发明中基于数据相关性的数据质量稽核方法第二实施例示意图,步骤10包括步骤11、对通信业务数据进行时序抽样;步骤12、对通信业务数据进行随机、等距、分层抽样。
82.优选地,如图5,图5是本发明中基于数据相关性的数据质量稽核方法第三实施例示意图,步骤20包括步骤21、获取稽核系统稽核规则;步骤22、根据相关性分析需求,对系统稽核规则进行自定义修正,获取自定义稽核规则;步骤23、将自定义稽核规则注册到系统中,以便再次利用该稽核规则进行通信数据质量评估。
83.优选地,如图6,图6是本发明中基于数据相关性的数据质量稽核方法第四实施例示意图,步骤30包括:步骤31、判断相关性指数是否达到预期阈值;步骤32、若相关性指数未达到预期阈值,则对评估的通信业务指标进行深度稽核;步骤33、将基于自定义稽核规则的相关性分析算法更新到算法库中。
84.优选地,如图7,图7是本发明中基于数据相关性的数据质量稽核方法第五实施例示意图;方法还包括步骤40、对稽核规则的实用性进行评分管理;步骤50、对稽核规则的使用方式及版本进行评分管理。
85.实施本发明的基于数据相关性的数据质量稽核系统及方法,通过对通信数据进行多维度抽样,并通过自定义稽核规则对抽样数据的指标进行稽核;利用相关性分析模块300对抽样数据多个相关的指标进行相关性分析,判断该相关性是否达到规定阈值,从多维指标相关性出发,衡量数据质量,解决了现有稽核规则中的无法准确确定数据质量的问题。
86.以上仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献