一种数据治理任务编配调度方法及装置与流程
- 国知局
- 2024-07-31 22:57:14
本发明涉及计算机技术数据治理领域,具体提供一种数据治理任务编配调度方法及装置。
背景技术:
1、数据集成工具方法是通过数据集工具定义执行策略,使任务定时执行,该技术可实现任务的调度执行,但对任务故障的容错较低,难以设置条件判断、循环等执行逻辑。
2、数据治理是对数据的采集、存储、清洗、加工、转换、交换、销毁的活动,各活动之间无法统一调度,无法依据业务场景将各类型活动串联或并联执行。
3、具体的说是解决现有数据湖仓建设过程中,无法实现离线存量数据与在线实时数据统一处理,处理任务与数据质量检测任务混编调度与监控,效率低下的问题。
技术实现思路
1、本发明是针对上述现有技术的不足,提供一种实用性强的数据治理任务编配调度方法。
2、本发明进一步的技术任务是提供一种设计合理,安全适用的数据治理任务编配调度装置。
3、本发明解决其技术问题所采用的技术方案是:
4、一种数据治理任务编配调度方法,具有如下步骤:
5、s1、数据源管理模块是指数据治理各业务数据源统一接入管理,进行数据集成、质量检测及数据处理和数据应用,统一数据源管理;
6、s2、流程绘制画布是基于前端组件antv x6结合各治理任务类型,以可视化编排的形式,从业务的角度出发编排绘制活动节点的有向无环dag图;
7、s3、任务编排引擎用于后端任务顺序编排及参数传递,并基于节点执行结果及任务参数调度后续节点,并提供多重校验逻辑;
8、s4、分布式任务统一调度中心用于编排后总任务与各子任务的智能调度;
9、s5、任务管理是对编排任务的管理及维护;
10、s6、任务监控模块是对编排任务执行情况的监控,对治理任务运行情况的监控和处理数据量的统计分析。
11、进一步的,在步骤s1中,统一数据源管理时,包含数据源和文件源,所述数据源包括关系型数据库、mpp架构数据库、列式存储数据库和数据湖仓类数据源;
12、文件源则作为对象存储,支持minio和ftp的形式。
13、进一步的,在步骤s2中,流程画布依据颜色及节点样式区分治理活动的任务类型,选择治理活动,展示各子任务的详细信息及预设的调度策略,监听dag图内变化,自动切换边的头尾节点与位置,实现以流程图块的形式进行拖拽,生成复杂混编流程。
14、进一步的,在步骤s3中,审核通过后将任务编排的流程图保存,依据流程画布绘制的任务流程图的逻辑关系有向边,任务编排引擎将各治理活动前后编排在一起,包含边两端的串并行依赖关系及条件判断、间隔执行、嵌套循环、异常分支;
15、前一个任务执行结束后,基于spring openfeigh调用feign接口依据任务类型回传任务执行结果及治理数据参数,同时进行日志解析,实现统一任务可视化监控与日志分析,呈现各节点任务执行结果。
16、进一步的,针对常规数据治理流程,首先将数据从各业务系统汇聚过来,使用数据集成任务类型,以库表、接口、文件及数据填报的形式将数据汇聚过来,编排任务1可配置增量、全量抽取模式,设置插入更新标识;
17、然后汇聚后的数据以串行逻辑进行数据质量检测,将编排任务1中设置的抽取模式、更新标识及执行后的数据范围以参数的形式传递进来,通知质量检测编排任务2;
18、然后依据if条件分支逻辑块,编排任务3将编排任务2符合规则的有效数据入库至数据资源中心,将不符合规则的数据应用transference脚本进行数据处理、清洗、转换后入库至数据资源中心,完成数据治理的各活动的执行与流转。
19、进一步的,针对历史数据较大且种类繁杂,表数量较多的情况,首先将业务库整库数据汇聚过来,此时使用数据集成整库迁移类型,编排任务1配置整库迁移,将整个业务库数据全量的抽取过来;
20、然后将抽取后的数据依据数据表配置多个并行质量检测任务,将编排任务1中整库的表信息以参数的形式传递过来,获取数据信息,使用foreach分支遍历表数组,分发成多个质量检测任务,此处每个表模型均异步并行,实例化编排任务2-n;
21、然后分别对编排任务2-n依据if条件分支逻辑块,有效数据编制集成任务入数据资源库,问题数据编制处理任务进行清洗处理后入库至数据资源中心,完成数据治理。
22、进一步的,针对特定业务场景建设,将原始数据重新整合成数据主题库的情况,依据特定场景将多个库多个表的数据进行加工整合;
23、此时使用批式数据处理类型,编排任务1配置离线存量数据处理脚本,将存量的数据使用database join组件跨库整合;
24、将存量离线数据处理完成后,编排在线实时数据流处理任务2,将实时数据融合,实现存量的批数据与增量的流数据统一整合治理,完成主题数据仓库建设。
25、进一步的,任务编排引擎将画布绘制的流程逻辑连接全部活动任务,对于批数据处理的活动,任务按统一定时策略调度执行,执行完成当前批次数据,将本活动状态标记为执行完成,将数据标识传递给下一节点,此时如下一节点的所有前置任务均已完成,则当前节点标记为就绪状态;
26、对于流数据处理的活动,以数据流向触发任务执行,捕获到数据流,即进入下一步处理组件,将本条数据按需进行加工处理,处理完成后自动流入下一活动节点,如此以订阅式嵌套循环执行每一个数据流。
27、进一步的,在步骤s6中,任务监控模块是对编排任务执行情况的监控,用于对治理任务运行情况的监控和处理数据量的统计分析,并依据执行结果调度后续任务,通过分析任务执行结果确认后续数据的治理活动,通知调度中心进行活动调度。
28、一种数据治理任务编配调度装置,包括:至少一个存储器和至少一个处理器;
29、所述至少一个存储器,用于存储机器可读程序;
30、所述至少一个处理器,用于调用所述机器可读程序,执行一种数据治理任务编配调度方法。
31、本发明的一种数据治理任务编配调度方法及装置和现有技术相比,具有以下突出的有益效果:
32、本发明提供可视化绘制dag图来构建数据治理任务,基于任务编排引擎,实现离线存量数据与在线实时数据的统一处理,达到批流融合,实现全量、增量数据的跨云多源的实时同步与治理。解决大数据、高并发的业务场景下多个数据治理任务统一运行调度的问题,保证了不同量级数据规模的处理效率与稳定,提升数据价值,帮助人们精准分析,智能化提取。
33、作为微服务独立运行,支持分布式部署集群,可灵活扩展执行器节点,提高大数据治理的效率。
技术特征:1.一种数据治理任务编配调度方法,其特征在于,具有如下步骤:
2.根据权利要求1所述的一种数据治理任务编配调度方法,其特征在于,在步骤s1中,统一数据源管理时,包含数据源和文件源,所述数据源包括关系型数据库、mpp架构数据库、列式存储数据库和数据湖仓类数据源;
3.根据权利要求1所述的一种数据治理任务编配调度方法,其特征在于,在步骤s2中,流程画布依据颜色及节点样式区分治理活动的任务类型,选择治理活动,展示各子任务的详细信息及预设的调度策略,监听dag图内变化,自动切换边的头尾节点与位置,实现以流程图块的形式进行拖拽,生成复杂混编流程。
4.根据权利要求1所述的一种数据治理任务编配调度方法,其特征在于,在步骤s3中,审核通过后将任务编排的流程图保存,依据流程画布绘制的任务流程图的逻辑关系有向边,任务编排引擎将各治理活动前后编排在一起,包含边两端的串并行依赖关系及条件判断、间隔执行、嵌套循环、异常分支;
5.根据权利要求1所述的一种数据治理任务编配调度方法,其特征在于,针对常规数据治理流程,首先将数据从各业务系统汇聚过来,使用数据集成任务类型,以库表、接口、文件及数据填报的形式将数据汇聚过来,编排任务1可配置增量、全量抽取模式,设置插入更新标识;
6.根据权利要求1所述的一种数据治理任务编配调度方法,其特征在于,针对历史数据较大且种类繁杂,表数量较多的情况,首先将业务库整库数据汇聚过来,此时使用数据集成整库迁移类型,编排任务1配置整库迁移,将整个业务库数据全量的抽取过来;
7.根据权利要求1所述的一种数据治理任务编配调度方法,其特征在于,针对特定业务场景建设,将原始数据重新整合成数据主题库的情况,依据特定场景将多个库多个表的数据进行加工整合;
8.根据权利要求1所述的一种数据治理任务编配调度方法,其特征在于,任务编排引擎将画布绘制的流程逻辑连接全部活动任务,对于批数据处理的活动,任务按统一定时策略调度执行,执行完成当前批次数据,将本活动状态标记为执行完成,将数据标识传递给下一节点,此时如下一节点的所有前置任务均已完成,则当前节点标记为就绪状态;
9.根据权利要求1所述的一种数据治理任务编配调度方法,其特征在于,在步骤s6中,任务监控模块是对编排任务执行情况的监控,用于对治理任务运行情况的监控和处理数据量的统计分析,并依据执行结果调度后续任务,通过分析任务执行结果确认后续数据的治理活动,通知调度中心进行活动调度。
10.一种数据治理任务编配调度装置,其特征在于,包括:至少一个存储器和至少一个处理器;
技术总结本发明涉及计算机技术数据治理领域,具体提供了一种数据治理任务编配调度方法及装置,具有如下步骤:S1、数据源管理模块是指数据治理各业务数据源统一接入管理,统一数据源管理;S2、流程绘制画布是基于前端组件AntV X6结合各治理任务类型,编排绘制活动节点的有向无环DAG图;S3、任务编排引擎用于后端任务顺序编排及参数传递,并基于节点执行结果及任务参数调度后续节点;S4、分布式任务统一调度中心用于编排后总任务与各子任务的智能调度;S5、任务管理是对编排任务的管理及维护;S6、任务监控模块是对编排任务执行情况的监控统计分析。与现有技术相比,本发明能够支持分布式部署集群,可灵活扩展执行器节点,提高大数据治理的效率。技术研发人员:司衍芹,张连超,陈晏鹏,周双,陈绪光受保护的技术使用者:浪潮软件股份有限公司技术研发日:技术公布日:2024/7/29本文地址:https://www.jishuxx.com/zhuanli/20240730/195468.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表