数据校验方法、装置、分布式系统及存储介质与流程
- 国知局
- 2024-12-26 16:07:05
本申请涉及大数据,具体涉及针对大数据的数据处理,尤其涉及一种数据校验方法、装置、分布式系统及存储介质。
背景技术:
1、为了满足用户对数据搜索及分析的需求,在诸如电商等业务场景中,通常会将一数据库中的数据存储至另一数据库以便于数据搜索及分析。然而由于数据库之间的链接关系复杂、存储链路较长等诸多原因,导致多个数据库中出现数据不一致的情况。为此,需要采用数据校验方案对多个数据库的数据进行校验。然而,在相关的数据校验方案中,为了确保数据校验的准确性,通常直接对数据进行全量对比,然而,这种校验方式的校验效率低下,从而造成系统的过高负载。此外,如若随机抽取数据进行对比,当数据出现抽样不均时,将导致校验准确性低下。
技术实现思路
1、本申请提供一种数据校验方法、装置、分布式系统及存储介质,以解决在确保校验准确性的同时,如何提高校验效率的技术问题。
2、本申请实施例第一方面提供一种数据校验方法,应用于分布式系统,所述分布式系统包括第一设备集群及第二设备集群,所述方法包括:所述第一设备集群接收所述第二设备集群的所有工作节点上报的节点指标信息;所述第一设备集群根据所述节点指标信息,从所述第二设备集群的所有工作节点中筛选出目标节点;所述第一设备集群向所述目标节点发送数据校验请求;所述目标节点根据所述数据校验请求生成数据获取策略,所述数据校验请求包括源数据库及目标数据库的库标识;所述目标节点基于所述数据获取策略,从所述源数据库中获取源表数据,并基于所述源表数据从所述目标数据库中获取目标表数据;所述目标节点基于所述源表数据与所述目标表数据的比较,生成校验结果。
3、本申请实施例第二方面提供一种数据校验方法,应用于分布式系统中第二设备集群的工作节点,所述分布式系统还包括第一设备集群,所述方法包括:响应于从所述第一设备集群接收到的数据校验请求,生成数据获取策略,所述数据校验请求包括源数据库及目标数据库的库标识;基于所述数据获取策略,从所述源数据库中获取源表数据,并基于所述源表数据从所述目标数据库中获取目标表数据;基于所述源表数据与所述目标表数据的比较,生成校验结果。
4、根据本申请实施例,所述基于所述源表数据与所述目标表数据的比较,生成校验结果包括:若所述源表数据的数据格式与所述目标表数据的数据格式相同,则将所述源表数据与所述目标表数据进行对比;若所述目标表数据中存在与所述源表数据不同的差异数据,确定当前比较轮次确定所述源表数据与所述目标表数据的当前比较轮次;根据所述当前比较轮次及所述差异数据确定所述校验结果。
5、根据本申请实施例,所述根据所述当前比较轮次及所述差异数据确定所述校验结果包括:若所述当前比较轮次小于预设次数阈值,根据所述差异数据的数据主键,从所述目标数据库中获取第一对比数据,并根据所述第一对比数据的数据外键,从所述源数据库中获取第二对比数据;若所述第一对比数据与所述第二对比数据相同,将所述校验结果确定为第一预设结果,所述第一预设结果指示所述源表数据与所述目标表数据一致。
6、根据本申请实施例,所述根据所述当前比较轮次及所述差异数据确定所述校验结果还包括:若所述当前比较轮次大于或者等于所述预设次数阈值,则将所述校验结果确定为第二预设结果,所述第二预设结果指示所述目标表数据与所述源表数据存在不一致的数据。
7、根据本申请实施例,所述方法还包括:若所述校验结果为所述第二预设结果,则根据所述差异数据生成所述校验结果的预警信息;发送所述预警信息至指定用户。
8、根据本申请实施例,所述响应于从所述第一设备集群接收到的数据校验请求,生成数据获取策略包括:根据所述数据校验请求的请求类型,从所述源数据库中读取数据,并确定读取到的数据的数据量;根据所述数据量及预设数量阈值确定校验方式;若所述校验方式为预设方式,则根据所述源数据库中的配置表信息及所述配置表信息的抽样条件,生成所述数据获取策略。
9、本申请实施例第三方面提供一种数据校验装置,运行于分布式系统中第二设备集群的工作节点,所述分布式系统还包括第一设备集群,所述装置包括:生成单元,用于响应于从所述第一设备集群接收到的数据校验请求,生成数据获取策略,所述数据校验请求包括源数据库及目标数据库的库标识;获取单元,用于基于所述数据获取策略,从所述源数据库中获取源表数据,并基于所述源表数据从所述目标数据库中获取目标表数据;所述生成单元,还用于基于所述源表数据与所述目标表数据的比较,生成校验结果。
10、本申请实施例第四方面提供一种分布式系统,所述分布式系统包括:第一设备集群及第二设备集群,所述第二设备集群包括工作节点;所述工作节点包括:存储器,存储计算机可读指令;及处理器,执行所述存储器中存储的计算机可读指令以实现所述数据校验方法。
11、本申请实施例第五方面提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可读指令,所述计算机可读指令被工作节点中的处理器执行以实现所述数据校验方法。
12、本申请实施例中第一设备集群根据第二设备集群的所有工作节点上报的节点指标信息,筛选出目标节点,由于目标节点为第二设备集群中负载最低的节点,因此,通过第一设备集群向目标节点发送数据校验请求,进而通过目标节点对数据校验请求的处理,能够节省数据校验请求的等待时间,从而提高校验结果的生成效率。另外,本申请实施例通过生成的数据获取策略,能够获取到合理的源表数据进行数据对比,由于无需对源数据库中的全量数据进行对比,因此能够确保校验结果的生成效率,从而能够避免过高负载对系统的影响,同时,通过数据获取策略对源表数据的获取,能够避免出现数据抽样不均的问题,从而能够提高校验准确性。此外,通过源表数据,能够准确的获取到目标表数据进行数据对比,从而能够确保数据校验的准确性。
技术特征:1.一种数据校验方法,应用于分布式系统,其特征在于,所述分布式系统包括第一设备集群及第二设备集群,所述方法包括:
2.一种数据校验方法,其特征在于,应用于分布式系统中第二设备集群的工作节点,所述分布式系统还包括第一设备集群,所述方法包括:
3.根据权利要求2所述的数据校验方法,其特征在于,所述基于所述源表数据与所述目标表数据的比较,生成校验结果包括:
4.根据权利要求3所述的数据校验方法,其特征在于,所述根据所述当前比较轮次及所述差异数据确定所述校验结果包括:
5.根据权利要求4所述的数据校验方法,其特征在于,所述根据所述当前比较轮次及所述差异数据确定所述校验结果还包括:
6.根据权利要求5所述的数据校验方法,其特征在于,所述方法还包括:
7.根据权利要求2所述的数据校验方法,其特征在于,所述响应于从所述第一设备集群接收到的数据校验请求,生成数据获取策略包括:
8.一种数据校验装置,其特征在于,运行于分布式系统中第二设备集群的工作节点,所述分布式系统还包括第一设备集群,所述装置包括:
9.一种分布式系统,其特征在于,包括:第一设备集群及第二设备集群,所述第二设备集群包括工作节点;
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机可读指令,所述计算机可读指令被工作节点中的处理器执行以实现如权利要求2至7中任一项所述的数据校验方法。
技术总结本申请涉及大数据技术领域,提供一种数据校验方法、装置、分布式系统及存储介质。该方法响应于从第一设备集群接收到的数据校验请求,生成数据获取策略,数据校验请求包括源数据库及目标数据库的库标识,基于数据获取策略,从源数据库中获取源表数据,并基于源表数据从目标数据库中获取目标表数据,基于源表数据与目标表数据的比较,生成校验结果。上述方法能够提高校验效率以及准确性。技术研发人员:方俊炜受保护的技术使用者:广州商研网络科技有限公司技术研发日:技术公布日:2024/12/12本文地址:https://www.jishuxx.com/zhuanli/20241216/348204.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。