自感知数据转换与质控的数据采集实现系统、方法及介质与流程
- 国知局
- 2024-07-31 23:03:15
本发明属于大数据处理,具体涉及一种自感知数据转换与质控的数据采集实现系统、方法及介质。
背景技术:
1、随着it技术的高速发展,基于大数据分析辅助决策已经成为非常重要的技术领域,而在此领域中数据标准化与数据质量控制已经是一个影响分析准确性的关键问题。
2、值转换映射关系维护是数据标准归一的一个重要技术特色,它需要在采集前为各业务系统的业务表中字段分别维护映射关系,这一特性可以实现异构数据源中业务字段值标准化转换。但与此同时,在维护映射关系时在一些问题,例如在多个业务表中都存在相同字段要进行值标准化转换时,需要重复配置相应规则工作量大且易出错;在现有的映射规则中,要对相关字段的映射规则进行修改时,其工作量大且不易维护。
3、另外,现有数据采集方法都没有对数据质量进行前置质量控制,所以会将质量不达标的数据提交到中心库中。
4、因此针对数据采集中对所数据高一致性与高质量的要求,则需要建立易操作且数据质控前置的采集方案。
技术实现思路
1、本发明解决的技术问题:提供一种实现依据元数据字段名自动感知的数据标准化值转换与数据质量控制的自感知数据转换与质控的数据采集实现系统、方法及介质。
2、技术方案:为了解决上述技术问题,本发明采用的技术方案如下:
3、一种自感知数据转换与质控的数据采集实现方法,通过元数据标准表、元数据标准业务字典库与元数据标准质控库,建立基于元数据字段的自动感知分析数据链,根据此分析数据链,并利用通用工具集中程序自动匹配数据值转换与数据质控相关规则,实现依据元数据字段名自动感知的数据标准化值转换与数据质量控制,具体包括以下步骤:
4、步骤1:数据值转换与数据质控初始查看与设置;
5、步骤2:制定数据采集计划;
6、步骤3:数据采集计划执行;具体实现过程如下:
7、步骤301,数据采集器轮循待执行计划列表,检测到可执行计划;
8、步骤302,为检测自动创建本计划执行单元,为本计划构建执行引擎实例与状态机,同时生成唯一计划执行批次标识,并将此计划移到执行中计划列表;
9、步骤303,当前计划的执行引擎装载计划,解析各项任务取数脚本,解析结果集字段与元数据字段的映射关系,同时构建各任务的状态机与取数执行线程;
10、步骤304,执行引擎启动,按任务列表启动取数执行线程,改变任务执行状态;
11、步骤305,某任务取数执行线程先取数并将取数结果列转成元数据字段英文名,改变任务执行状态;
12、步骤306,根据转换后的列名,自动匹配相应的规则进行标准化值转换,改变任务执行状态;
13、步骤307,在数据值标准化后,将数据输入数据缓存区,改变任务执行状态;
14、步骤308,启动质控引擎,改变任务执行状态;
15、步骤309,质控引擎根据列名自动匹配相应的质控规则,对结果集所有记录逐条逐字段进行质控,并输出质控结果,改变任务执行状态;
16、步骤310,待计划中所有任务执行完成,汇总分析质控达标率及质控报告;
17、步骤311,判断当前批次数据质控合规率是否达标,若达标上传数据到中心库中;
18、数据质控合规率计算方法的计算方法为:
19、;
20、式中,p(q)表示质控合规率,s(q)表示质控合规总数,s(a)表示质控总数;
21、其中,质控总数的计算方法为:
22、;
23、式中,t(ai)表示某元数据表的质控总数;
24、;
25、式中,f(ai)表示某源数据字段的质控点数,m表示当前元数表主数据表的记录数;
26、s(q)的获取方法为:
27、s(q)=直接从质控结果集中汇总所得。
28、进一步地,步骤1:数据值转换与数据质控初始查看与设置,具体实现过程如下:
29、步骤101,查看系统内置模型的元数据表目录、元数据字段表;
30、步骤102,查看系统内置的元数据字段标准值转换规则;
31、步骤103,查看系统内置的元数据字段质控规则;
32、步骤104,根据实际情况调整元数据字段是否进行值转换;
33、步骤105,根据实际情况调整元数据字段是否进行数据质控。
34、进一步地,步骤2:制定数据采集计划;具体实现过程如下:
35、步骤201,新建数据采集计划,在此设定所属模型、数据采集类型、执行时间;
36、步骤202,在数据采集计划中,添加取数任务。
37、一种自感知数据转换与质控的数据采集实现系统,用于上述自感知数据转换与质控的数据采集实现方法,其特征在于,包括:
38、业务系统数据库,作为待采集的业务系统数据库;
39、数据采集器,实现数据的采集、标准化转换和质量校验,以达到设定的合规率;
40、中心数据库,作为数据采集器数据上传的目标库,是供平台应用使用的中心数据库;
41、数据采集器包括标准数据集和通用工具集,标准数据集包括标准元数据定义库、元数据标准业务字典库及元数据标准质控库;所述通用工具集包括自动感知数据质控引擎、数据采集计划配置工具、数据采集执行引擎、自动感知值转换器与主数据管理工具。
42、所述标准元数据定义库,用来定义所需采集范围、数据标准及分析模型的基础信息;
43、所述元数据标准业务字典库,是适用各行业标准业务字典项值;
44、所述元数据标准质控库,用来描述质控主题与质控规则关系;
45、所述自动感知数据质控引擎,实现根据元数据英文字段名和模型自动适配数据质控规则,进行数据质量分析,并将结果与结论输出到记录表中;
46、所述数据采集计划配置工具,实现对数据采集器的执行计划的设置;
47、所述数据采集执行引擎,实现对计划中各任务进行判断、调度和执行;
48、所述自动感知值转换器,实现根据元数据标准表、元数据字段表与元数据标准业务字典库建立起基于元数据字段的自动感知分析数据链,程序自动匹配相的值转换规则进行值转换。
49、进一步地,所述数据采集器的执行流程为:
50、步骤801,启动本数据采集器;
51、步骤802,从库中获得取数计划,并将这些计划加载到待执行计划列表中去;
52、步骤803,数据采集器定时轮循待执行计划列表,逐项读取待执行计划的信息;
53、步骤804,从读取的计划信息中的定义信息,校验计划启动条件是否满足,若不满足执行步骤803进行下个计划的判定,若满足启动条件则进入步骤805;
54、步骤805,创建一个计划执行单元为后面当前计划执行引擎做配置,此执行单元要读取计划详细信息构建计划对象实例,要读取计划的所有任务事项构建任务列表,要创建本次执行的唯一标识,要为当前计划对象实例创建计划执行引擎对象实例,要为当前计划对象实例创建计划执行状态机实例;
55、步骤806,启动当前计划对象实例的计划执行引擎对象实例;
56、步骤807,将本计划从待执行计划列表中移到正在执行计划列表中去,并且根据本计划对应的任务列表构建任务队列;
57、步骤808,轮循任务队列,为每个任务构建执行线程与状态机,并启动任务执行线程,在线程中,程序调用自动感知值转换器完成标准值转换,同时程序也调用自动感知质控引擎完成数据质控;
58、步骤809,判断任务列表是否都执行完成,若不是则跳转到步骤808进行下一个任务的操作;
59、步骤810,判断当前是否是单次计划,若是则结束;否则跳至步骤811;
60、步骤811,将当前计划移至待执行计列表中去,再跳转到步骤803,等待下一轮执行。
61、进一步地,所述自动感知值转换器的执行流程为:
62、步骤901,进入自动感知值转换器;
63、步骤902,解析当前任务中取数脚本;
64、步骤903,执行取数脚本从业务系统表中拉取数据到数据缓存区中;
65、步骤904,获取当前任务对应的元数据表记录集;
66、步骤905,获取当前任务对应的元数据字段表记录集;
67、步骤906,获取当前任务对应的元数据标准业务字典表记录集;
68、步骤907,逐行遍历数据缓存区中记录集;
69、步骤908,读记录集的行;
70、步骤909,逐字段遍历行记录;
71、步骤910,读行中字段;
72、步骤911,根据元数据表与元数据字段表中描述判断是否要进行值转换,若为否跳转到步骤913,若为是则进入步骤912执行;
73、步骤912,根据当前字段对应的元数据字段名、系统厂商、业务系统名、业务表名的值自动适配转换规则,将此字段值转换成标准值输出;
74、步骤913,判断行中字段是否遍历完成,若为否跳转到步骤910继续下一字段操作,若为是则进入步骤914执行;
75、步骤914,判断记录集中行是否遍历完成,若为否跳转到步骤908继续下一行操作,若为是则结束。
76、进一步地,所述自动感知质控引擎执行流程为:
77、步骤1001,进入自动感知质控引擎;
78、步骤1002,从缓存区中拉取当前任务中标准化后的数据集;
79、步骤1003,获取当前任务对应的元数据表记录集;
80、步骤1004,获取当前任务对应的元数据字段表记录集;
81、步骤1005,获取当前任务对应的元数据标准业务字典表记录集;
82、步骤1006,逐行遍历数据缓存区中记录集;
83、步骤1007,读记录集的行;
84、步骤1008,逐字段遍历行记录;
85、步骤1009,读行中字段;
86、步骤1010,根据元数据表与元数据字段表中描述判断是否要进行数据质控,若为否跳转到步骤1016,若为是则进入步骤1011执行;
87、步骤1011,获得此元数据字段的所有质控点的质控规则记录集;
88、步骤1012,逐行遍历质控规则记录集;
89、步骤1013,读取质控规则记录集记录集行;
90、步骤1014,加载质控规则脚本至质控分析器中,然后解析对应的质控脚本,并执行,最终给出质控结果,若质控不合规,要将质控结果与结论输出到质控记录表中;
91、步骤1015,判断当前字段的质控规则是否全部执行,若为否跳转到步骤1013继续下一质控规则的执行,若为是则跳转到步骤1016执行;
92、步骤1016,判断当前记录集的行字段是否全部遍历完成,若为否跳转到步骤1009继续下一字段的操作,若为是则跳转到步骤1017执行;
93、步骤1017,判断当前记录集的行是否全部遍历完成,若为否跳转到步骤1007继续下一行段的操作,若为是则本任务质控结束。
94、一种计算机可读存储介质,所述计算机可读存储介质上存储有数据采集程序,该数据采集程序被处理器执行时实现上述的数据采集系统和方法。
95、有益效果:与现有技术相比,本发明具有以下优点:
96、本发明的自感知数据转换与质控的数据采集实现系统、方法及介质,通过本发明所提供的元数据标准表、元数据标准业务字典库与元数据标准质控库建立起基于元数据字段的自动感知分析数据链,根据此分析数据链本发明所提供通用工具(或服务)集中程序会自动匹配数据值转换与数据质控相关规则,从而实现依据元数据字段名自动感知的数据标准化值转换与数据质量控制,随着本系统收录的标准规则库记录增加,用户配置工作就会越少,这极大减少用户规则配置工作,同时实现上传到中心平台的数据标准化归一化程度更高,数据质量也会更高。本发明可应用于各类结构数据采集,具有广泛的应用前景。
本文地址:https://www.jishuxx.com/zhuanli/20240730/195805.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表