数据质检方法、装置、存储介质及电子设备与流程
- 国知局
- 2024-12-06 12:10:43
本公开涉及数据质检,具体地,涉及一种数据质检方法、装置、存储介质及电子设备。
背景技术:
1、数据质检是指通过对数据进行评估、验证和校验,来确保数据的准确性、完整性、一致性和可靠性的过程。数据质检的目的是发现和纠正数据中的错误、缺陷和不一致之处,以提高数据的质量和可信度。例如,数据质检可以包括对两个数据表进行关联检查。相关技术中可以使用计算速度较快的longset算法进行数据表之间的关联检查。
技术实现思路
1、本公开的目的是提供一种数据质检方法、装置、存储介质及电子设备。
2、第一方面,提供一种数据质检方法,所述方法包括:
3、确定第一数据表中待质检数据的目标字段;
4、根据所述目标字段对所述第一数据表和第二数据表分别进行数据分组,得到所述第一数据表对应的多组第一数据和所述第二数据表对应的多组第二数据,所述第二数据表用于对所述第一数据表进行质检,并且所述第二数据表中包括所述目标字段;
5、针对所述多组第一数据中的每组第一数据,根据所述多组第二数据中与所述第一数据对应的目标数据对所述第一数据中的所述待质检数据进行数据质检。
6、可选地,所述根据所述目标字段对所述第一数据表和第二数据表分别进行数据分组包括:
7、针对目标数据表中的每条数据,获取该条数据中所述目标字段的字段值,所述目标数据表包括所述第一数据表或者所述第二数据表;
8、根据所述目标字段的字段值和预设分组数,确定该条数据所在的目标分组。
9、可选地,所述根据所述目标字段的字段值和预设分组数,确定该条数据所在的目标分组包括:
10、对所述字段值和所述预设分组数进行取余运算;
11、根据取余运算结果确定该条数据所在的目标分组。
12、可选地,所述针对所述多组第一数据中的每组第一数据,根据所述多组第二数据中与所述第一数据对应的目标数据对所述第一数据中的所述待质检数据进行数据质检包括:
13、针对所述多组第一数据中的每组第一数据,将所述多组第二数据中与所述第一数据满足同一分组条件的数据作为所述目标数据;
14、将所述第一数据中所述目标字段的字段值作为所述待质检数据;
15、根据所述目标数据对所述待质检数据进行数据质检。
16、可选地,所述待质检数据包括多条数据,所述根据所述目标数据对所述待质检数据进行数据质检包括:
17、将所述目标数据存储至预设长元素集合longset中,其中,预设longset中包括多个数据存储容器;
18、针对所述待质检数据中多条数据中的每条数据,获取该条数据中所述目标字段的字段值;
19、根据所述字段值从所述预设longset中确定至少一个第一容器;
20、在确定所述至少一个第一容器中存储有所述字段值的情况下,确定该条数据质检通过。
21、可选地,所述目标数据包括多条数据;所述将所述目标数据存储至预设长元素集合longset中包括:
22、针对所述目标数据中多条数据的每条数据,获取该条数据中所述目标字段的字段值,并按照预设取余算法对所述字段值进行取余运算;
23、根据余数结果确定该条数据对应的至少一个第二容器;
24、对所述至少一个第二容器进行加锁后,将所述目标字段的字段值存储至所述至少一个第二容器,所述至少一个第二容器中的每个第二容器中按照从小到大的顺序对数据进行有序存储。
25、可选地,所述将所述目标字段的字段值存储至所述至少一个第二容器包括:
26、获取所述至少一个第二容器中每个第二容器当前存储数据的最大值;
27、根据所述目标字段的字段值和每个所述第二容器当前存储数据的最大值,从所述至少一个第二容器中确定存储容器,所述存储容器为当前存储数据的最大值大于所述目标字段的字段值且当前存储数据的最大值与所述目标字段的字段值差值最小的第二容器;
28、将所述目标字段的字段值放入所述存储容器。
29、可选地,所述在确定所述至少一个第一容器中存储有所述字段值的情况下,确定该条数据质检通过包括:
30、获取所述至少一个第一容器中每个第一容器分别存储数据的最大值;
31、根据所述字段值和每个第一容器分别存储数据的最大值,从所述至少一个第一容器中确定目标容器,所述目标容器中存储数据的最大值大于或者等于所述字段值;
32、在确定所述目标容器中存储有所述字段值的情况下,确定该条数据质检通过。
33、可选地,所述方法还包括:
34、获取预设并发度,所述预设并发度用于控制并发执行数据质检的线程数量;
35、所述针对所述多组第一数据中的每组第一数据,根据所述多组第二数据中与所述第一数据对应的目标数据对所述第一数据中的所述待质检数据进行数据质检包括:
36、根据所述预设并发度开启多个并行执行的数据质检线程,并确定并行执行数据质检的目标组数;
37、针对所述多组第一数据中每目标组数的第一数据,通过所述多个并行执行的数据质检线程,根据所述目标组数的第二数据对所述目标组数的第一数据,并行执行数据质检。
38、可选地,所述针对所述多组第一数据中每目标组数的第一数据,通过所述多个并行执行的数据质检线程,根据所述目标组数的第二数据对所述目标组数的第一数据,并行执行数据质检包括:
39、针对所述多组第一数据中每目标组数的第一数据,从所述多组第二数据中确定与所述目标组数的第一数据对应的目标组数的第二数据;
40、针对每个所述数据质检线程,从所述目标组数的第一数据中确定与所述数据质检线程对应的目标质检数据;
41、根据所述目标组数的第二数据中与所述数据质检线程对应的第二数据对所述目标质检数据进行数据质检。
42、第二方面,提供一种数据质检装置,所述装置包括:
43、确定模块,用于确定第一数据表中待质检数据的目标字段;
44、分组模块,用于根据所述目标字段对所述第一数据表和第二数据表分别进行数据分组,得到所述第一数据表对应的多组第一数据和所述第二数据表对应的多组第二数据,所述第二数据表用于对所述第一数据表进行质检,并且所述第二数据表中包括所述目标字段;
45、数据质检模块,用于针对所述多组第一数据中的每组第一数据,根据所述多组第二数据中与所述第一数据对应的目标数据对所述第一数据中的所述待质检数据进行数据质检。
46、第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本公开第一方面所述方法的步骤。
47、第四方面,提供一种电子设备,包括:
48、存储器,其上存储有计算机程序;
49、处理器,用于执行所述存储器中的所述计算机程序,以实现本公开第一方面所述方法的步骤。
50、通过上述技术方案,确定第一数据表中待质检数据的目标字段;根据所述目标字段对所述第一数据表和第二数据表分别进行数据分组,得到所述第一数据表对应的多组第一数据和所述第二数据表对应的多组第二数据,所述第二数据表用于对所述第一数据表进行质检,并且所述第二数据表中包括所述目标字段;针对所述多组第一数据中的每组第一数据,根据所述多组第二数据中与所述第一数据对应的目标数据对所述第一数据中的所述待质检数据进行数据质检,这样,通过对第一数据表和第二数据表分别进行数据分组,将数据质检分组进行,从而可以避免随着数据量的增大内存使用也增大的问题。
51、本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
本文地址:https://www.jishuxx.com/zhuanli/20241204/339793.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
上一篇
图像识别方法和装置与流程
下一篇
返回列表