技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种数据治理任务编配调度方法及装置与流程  >  正文

一种数据治理任务编配调度方法及装置与流程

  • 国知局
  • 2024-07-31 22:57:14

本发明涉及计算机技术数据治理领域,具体提供一种数据治理任务编配调度方法及装置。

背景技术:

1、数据集成工具方法是通过数据集工具定义执行策略,使任务定时执行,该技术可实现任务的调度执行,但对任务故障的容错较低,难以设置条件判断、循环等执行逻辑。

2、数据治理是对数据的采集、存储、清洗、加工、转换、交换、销毁的活动,各活动之间无法统一调度,无法依据业务场景将各类型活动串联或并联执行。

3、具体的说是解决现有数据湖仓建设过程中,无法实现离线存量数据与在线实时数据统一处理,处理任务与数据质量检测任务混编调度与监控,效率低下的问题。

技术实现思路

1、本发明是针对上述现有技术的不足,提供一种实用性强的数据治理任务编配调度方法。

2、本发明进一步的技术任务是提供一种设计合理,安全适用的数据治理任务编配调度装置。

3、本发明解决其技术问题所采用的技术方案是:

4、一种数据治理任务编配调度方法,具有如下步骤:

5、s1、数据源管理模块是指数据治理各业务数据源统一接入管理,进行数据集成、质量检测及数据处理和数据应用,统一数据源管理;

6、s2、流程绘制画布是基于前端组件antv x6结合各治理任务类型,以可视化编排的形式,从业务的角度出发编排绘制活动节点的有向无环dag图;

7、s3、任务编排引擎用于后端任务顺序编排及参数传递,并基于节点执行结果及任务参数调度后续节点,并提供多重校验逻辑;

8、s4、分布式任务统一调度中心用于编排后总任务与各子任务的智能调度;

9、s5、任务管理是对编排任务的管理及维护;

10、s6、任务监控模块是对编排任务执行情况的监控,对治理任务运行情况的监控和处理数据量的统计分析。

11、进一步的,在步骤s1中,统一数据源管理时,包含数据源和文件源,所述数据源包括关系型数据库、mpp架构数据库、列式存储数据库和数据湖仓类数据源;

12、文件源则作为对象存储,支持minio和ftp的形式。

13、进一步的,在步骤s2中,流程画布依据颜色及节点样式区分治理活动的任务类型,选择治理活动,展示各子任务的详细信息及预设的调度策略,监听dag图内变化,自动切换边的头尾节点与位置,实现以流程图块的形式进行拖拽,生成复杂混编流程。

14、进一步的,在步骤s3中,审核通过后将任务编排的流程图保存,依据流程画布绘制的任务流程图的逻辑关系有向边,任务编排引擎将各治理活动前后编排在一起,包含边两端的串并行依赖关系及条件判断、间隔执行、嵌套循环、异常分支;

15、前一个任务执行结束后,基于spring openfeigh调用feign接口依据任务类型回传任务执行结果及治理数据参数,同时进行日志解析,实现统一任务可视化监控与日志分析,呈现各节点任务执行结果。

16、进一步的,针对常规数据治理流程,首先将数据从各业务系统汇聚过来,使用数据集成任务类型,以库表、接口、文件及数据填报的形式将数据汇聚过来,编排任务1可配置增量、全量抽取模式,设置插入更新标识;

17、然后汇聚后的数据以串行逻辑进行数据质量检测,将编排任务1中设置的抽取模式、更新标识及执行后的数据范围以参数的形式传递进来,通知质量检测编排任务2;

18、然后依据if条件分支逻辑块,编排任务3将编排任务2符合规则的有效数据入库至数据资源中心,将不符合规则的数据应用transference脚本进行数据处理、清洗、转换后入库至数据资源中心,完成数据治理的各活动的执行与流转。

19、进一步的,针对历史数据较大且种类繁杂,表数量较多的情况,首先将业务库整库数据汇聚过来,此时使用数据集成整库迁移类型,编排任务1配置整库迁移,将整个业务库数据全量的抽取过来;

20、然后将抽取后的数据依据数据表配置多个并行质量检测任务,将编排任务1中整库的表信息以参数的形式传递过来,获取数据信息,使用foreach分支遍历表数组,分发成多个质量检测任务,此处每个表模型均异步并行,实例化编排任务2-n;

21、然后分别对编排任务2-n依据if条件分支逻辑块,有效数据编制集成任务入数据资源库,问题数据编制处理任务进行清洗处理后入库至数据资源中心,完成数据治理。

22、进一步的,针对特定业务场景建设,将原始数据重新整合成数据主题库的情况,依据特定场景将多个库多个表的数据进行加工整合;

23、此时使用批式数据处理类型,编排任务1配置离线存量数据处理脚本,将存量的数据使用database join组件跨库整合;

24、将存量离线数据处理完成后,编排在线实时数据流处理任务2,将实时数据融合,实现存量的批数据与增量的流数据统一整合治理,完成主题数据仓库建设。

25、进一步的,任务编排引擎将画布绘制的流程逻辑连接全部活动任务,对于批数据处理的活动,任务按统一定时策略调度执行,执行完成当前批次数据,将本活动状态标记为执行完成,将数据标识传递给下一节点,此时如下一节点的所有前置任务均已完成,则当前节点标记为就绪状态;

26、对于流数据处理的活动,以数据流向触发任务执行,捕获到数据流,即进入下一步处理组件,将本条数据按需进行加工处理,处理完成后自动流入下一活动节点,如此以订阅式嵌套循环执行每一个数据流。

27、进一步的,在步骤s6中,任务监控模块是对编排任务执行情况的监控,用于对治理任务运行情况的监控和处理数据量的统计分析,并依据执行结果调度后续任务,通过分析任务执行结果确认后续数据的治理活动,通知调度中心进行活动调度。

28、一种数据治理任务编配调度装置,包括:至少一个存储器和至少一个处理器;

29、所述至少一个存储器,用于存储机器可读程序;

30、所述至少一个处理器,用于调用所述机器可读程序,执行一种数据治理任务编配调度方法。

31、本发明的一种数据治理任务编配调度方法及装置和现有技术相比,具有以下突出的有益效果:

32、本发明提供可视化绘制dag图来构建数据治理任务,基于任务编排引擎,实现离线存量数据与在线实时数据的统一处理,达到批流融合,实现全量、增量数据的跨云多源的实时同步与治理。解决大数据、高并发的业务场景下多个数据治理任务统一运行调度的问题,保证了不同量级数据规模的处理效率与稳定,提升数据价值,帮助人们精准分析,智能化提取。

33、作为微服务独立运行,支持分布式部署集群,可灵活扩展执行器节点,提高大数据治理的效率。

技术特征:

1.一种数据治理任务编配调度方法,其特征在于,具有如下步骤:

2.根据权利要求1所述的一种数据治理任务编配调度方法,其特征在于,在步骤s1中,统一数据源管理时,包含数据源和文件源,所述数据源包括关系型数据库、mpp架构数据库、列式存储数据库和数据湖仓类数据源;

3.根据权利要求1所述的一种数据治理任务编配调度方法,其特征在于,在步骤s2中,流程画布依据颜色及节点样式区分治理活动的任务类型,选择治理活动,展示各子任务的详细信息及预设的调度策略,监听dag图内变化,自动切换边的头尾节点与位置,实现以流程图块的形式进行拖拽,生成复杂混编流程。

4.根据权利要求1所述的一种数据治理任务编配调度方法,其特征在于,在步骤s3中,审核通过后将任务编排的流程图保存,依据流程画布绘制的任务流程图的逻辑关系有向边,任务编排引擎将各治理活动前后编排在一起,包含边两端的串并行依赖关系及条件判断、间隔执行、嵌套循环、异常分支;

5.根据权利要求1所述的一种数据治理任务编配调度方法,其特征在于,针对常规数据治理流程,首先将数据从各业务系统汇聚过来,使用数据集成任务类型,以库表、接口、文件及数据填报的形式将数据汇聚过来,编排任务1可配置增量、全量抽取模式,设置插入更新标识;

6.根据权利要求1所述的一种数据治理任务编配调度方法,其特征在于,针对历史数据较大且种类繁杂,表数量较多的情况,首先将业务库整库数据汇聚过来,此时使用数据集成整库迁移类型,编排任务1配置整库迁移,将整个业务库数据全量的抽取过来;

7.根据权利要求1所述的一种数据治理任务编配调度方法,其特征在于,针对特定业务场景建设,将原始数据重新整合成数据主题库的情况,依据特定场景将多个库多个表的数据进行加工整合;

8.根据权利要求1所述的一种数据治理任务编配调度方法,其特征在于,任务编排引擎将画布绘制的流程逻辑连接全部活动任务,对于批数据处理的活动,任务按统一定时策略调度执行,执行完成当前批次数据,将本活动状态标记为执行完成,将数据标识传递给下一节点,此时如下一节点的所有前置任务均已完成,则当前节点标记为就绪状态;

9.根据权利要求1所述的一种数据治理任务编配调度方法,其特征在于,在步骤s6中,任务监控模块是对编排任务执行情况的监控,用于对治理任务运行情况的监控和处理数据量的统计分析,并依据执行结果调度后续任务,通过分析任务执行结果确认后续数据的治理活动,通知调度中心进行活动调度。

10.一种数据治理任务编配调度装置,其特征在于,包括:至少一个存储器和至少一个处理器;

技术总结本发明涉及计算机技术数据治理领域,具体提供了一种数据治理任务编配调度方法及装置,具有如下步骤:S1、数据源管理模块是指数据治理各业务数据源统一接入管理,统一数据源管理;S2、流程绘制画布是基于前端组件AntV X6结合各治理任务类型,编排绘制活动节点的有向无环DAG图;S3、任务编排引擎用于后端任务顺序编排及参数传递,并基于节点执行结果及任务参数调度后续节点;S4、分布式任务统一调度中心用于编排后总任务与各子任务的智能调度;S5、任务管理是对编排任务的管理及维护;S6、任务监控模块是对编排任务执行情况的监控统计分析。与现有技术相比,本发明能够支持分布式部署集群,可灵活扩展执行器节点,提高大数据治理的效率。技术研发人员:司衍芹,张连超,陈晏鹏,周双,陈绪光受保护的技术使用者:浪潮软件股份有限公司技术研发日:技术公布日:2024/7/29

本文地址:https://www.jishuxx.com/zhuanli/20240730/195468.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。