一种基于医疗数据血缘关系的智能作业调度方法及装置与流程
- 国知局
- 2024-12-26 14:52:41
本发明属于医疗信息领域,具体涉及一种基于医疗数据血缘关系的智能作业调度方法及装置。
背景技术:
1、本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
2、在构建医疗数据仓库时,需要创建ods、dwd、di m、dws、ads等层的数据表,通过sql或其它数据同步作业完成数据处理及写入。这些作业往往具有严格的先后执行顺序,必须保证上游数据表的数据处理并写入完成,才能开始下游数据表的数据作业。
3、传统的调度方式是由人工指定定时任务来触发数据作业,通过先后的触发时间来实现作业有序调度。本发明人发现:传统调度方式存在以下问题:
4、1、每个作业的执行时间不固定,当上游作业运行时长大于上下游作业触发时间的间隔时,会导致上游数据表的数据未完成计算,就开始了下游数据表的计算,最终导致主题或指标计算错误。
5、2、数据仓库中通常具有大量的数据表,所以需要编排更多的数据作业,当数据作业数目越多,如几百个任务时,运维人员就难以去通过控制触发时间来实现有序执行。
6、3、大量的作业还会产生大量的血缘关系,仅靠人工是难以梳理与维护的。即使使用具备工作流调度的大数据调度平台,人工维护成百上千的节点关系也是非常困难。
7、4、当作业失败时,缺乏恢复或重跑机制,下游作业依然会按时执行,导致最终指标计算错误。需要人工介入处理保证依次有序执行。
技术实现思路
1、本发明为了解决上述问题,提出了一种基于医疗数据血缘关系的智能作业调度方法及装置,本发明能够自动识别医疗数据的血缘关系生成有向无环图dag,并基于dag自动进行作业调度,严格保证了数据作业有序执行,具备异常恢复与重新执行能力,无需人工参与大量的作业调度工作。
2、根据一些实施例,本发明采用如下技术方案:
3、一种基于医疗数据血缘关系的智能作业调度方法,包括以下步骤:
4、获取全部数仓作业的配置信息,提取元数据和结构化查询语言;
5、根据结构化查询语言解析生成表级血缘关系,汇集所有的血缘关系生成有向无环数据链路图;
6、根据有向无环数据链路图与用户指定的作业组内的作业信息重新生成只需要执行的作业的有向无环数据链路图,并转换且优化为执行计划;
7、根据执行计划与作业的执行状态和策略配置,进行最优动态调度,生成作业指令;
8、依照作业指令对结构化查询语言进行执行,完成数据处理。
9、作为可选择的实施方式,根据结构化查询语言解析生成表级血缘关系的过程包括:对结构化查询语言的相关语句解析出当前数据表的数据的来源,形成单表血缘分析;对所有的结构化查询语言进行解析得到血缘关系,将所有血缘关系合并为一个完整的数据链路关系。
10、作为可选择的实施方式,根据有向无环数据链路图与用户指定的作业组内的作业信息重新生成只需要执行的作业的有向无环数据链路图的过程包括:通过用户指定的作业组,重新计算所有的前驱节点,重新推理出只包含当前节点与前驱节点的有向无环图,根据有向无环图生成执行计划,再按照用户配置的行为策略进行执行计划优化。
11、作为可选择的实施方式,所述策略配置包括作业并行度、是否自动重试、重试次数和/或是否跳过异常作业。
12、作为可选择的实施方式,当作业完成后自动调度执行其后继作业,如果作业失败,则根据配置的策略跳过作业或者终止调度。
13、一种基于医疗数据血缘关系的智能作业调度装置,包括:
14、作业配置采集模块,被配置为获取全部数仓作业的配置信息,提取元数据和结构化查询语言;
15、血缘关系分析模块,被配置为根据结构化查询语言解析生成表级血缘关系,汇集所有的血缘关系生成有向无环数据链路图;
16、执行计划优化模块,被配置为根据有向无环数据链路图与用户指定的作业组内的作业信息重新生成只需要执行的作业的有向无环数据链路图,并转换且优化为执行计划;
17、作业调度模块,被配置为根据执行计划与作业的执行状态和策略配置,进行最优动态调度,生成作业指令;
18、作业执行模块,被配置为依照作业指令对结构化查询语言进行执行,完成数据处理。
19、作为可选择的实施方式,所述血缘关系分析模块,被配置为对结构化查询语言的相关语句解析出当前数据表的数据的来源,形成单表血缘分析;对所有的结构化查询语言进行解析得到血缘关系,将所有血缘关系合并为一个完整的数据链路关系。
20、作为可选择的实施方式,所述执行计划优化模块,被配置为通过用户指定的作业组,重新计算所有的前驱节点,重新推理出只包含当前节点与前驱节点的有向无环图,根据有向无环图生成执行计划,再按照用户配置的行为策略进行执行计划优化。
21、一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成上述方法中的步骤。
22、一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述方法中的步骤。
23、与现有技术相比,本发明的有益效果为:
24、1.本发明实现了智能资源调度,用户只需要把需要进行调度的作业加入作业组,并配置调度策略,装置则可以自动解析出其上游作业并根据资源使用情况动态调度作业执行。
25、2.本发明实现了异常智能恢复,装置自动维护上万节点,并且严格保证了作业有序执行,并实现了异常恢复及链路重跑。
26、3.本发明将大数据作业完全进行托管执行,省去了专职人员负责开发与维护的成本,达到降本增效的效果。
27、为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
技术特征:1.一种基于医疗数据血缘关系的智能作业调度方法,其特征是,包括以下步骤:
2.如权利要求1所述的一种基于医疗数据血缘关系的智能作业调度方法,其特征是,根据结构化查询语言解析生成表级血缘关系的过程包括:对结构化查询语言的相关语句解析出当前数据表的数据的来源,形成单表血缘分析;对所有的结构化查询语言进行解析得到血缘关系,将所有血缘关系合并为一个完整的数据链路关系。
3.如权利要求1所述的一种基于医疗数据血缘关系的智能作业调度方法,其特征是,根据有向无环数据链路图与用户指定的作业组内的作业信息重新生成只需要执行的作业的有向无环数据链路图的过程包括:通过用户指定的作业组,重新计算所有的前驱节点,重新推理出只包含当前节点与前驱节点的有向无环图,根据有向无环图生成执行计划,再按照用户配置的行为策略进行执行计划优化。
4.如权利要求1所述的一种基于医疗数据血缘关系的智能作业调度方法,其特征是,所述策略配置包括作业并行度、是否自动重试、重试次数和/或是否跳过异常作业。
5.如权利要求1所述的一种基于医疗数据血缘关系的智能作业调度方法,其特征是,当作业完成后自动调度执行其后继作业,如果作业失败,则根据配置的策略跳过作业或者终止调度。
6.一种基于医疗数据血缘关系的智能作业调度装置,其特征是,包括:
7.如权利要求6所述的一种基于医疗数据血缘关系的智能作业调度装置,其特征是,所述血缘关系分析模块,被配置为对结构化查询语言的相关语句解析出当前数据表的数据的来源,形成单表血缘分析;对所有的结构化查询语言进行解析得到血缘关系,将所有血缘关系合并为一个完整的数据链路关系。
8.如权利要求6所述的一种基于医疗数据血缘关系的智能作业调度装置,其特征是,所述执行计划优化模块,被配置为通过用户指定的作业组,重新计算所有的前驱节点,重新推理出只包含当前节点与前驱节点的有向无环图,根据有向无环图生成执行计划,再按照用户配置的行为策略进行执行计划优化。
9.一种计算机可读存储介质,其特征是,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-5中任一项所述的方法中的步骤。
10.一种电子设备,其特征是,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1-5中任一项所述的方法中的步骤。
技术总结本发明提供了一种基于医疗数据血缘关系的智能作业调度方法及装置,获取全部数仓作业的配置信息,提取元数据和结构化查询语言;根据结构化查询语言解析生成表级血缘关系,汇集所有的血缘关系生成有向无环数据链路图;根据有向无环数据链路图与用户指定的作业组内的作业信息重新生成只需要执行的作业的有向无环数据链路图,并转换且优化为执行计划;根据执行计划与作业的执行状态和策略配置,进行最优动态调度,生成作业指令;依照作业指令对结构化查询语言进行执行,完成数据处理。本发明能够自动识别医疗数据的血缘关系生成有向无环图,自动进行作业调度,保证了数据作业有序执行,具备异常恢复与重新执行能力,无需人工参与大量的作业调度工作。技术研发人员:郑永清,史玉良,徐喆,张世栋,张晓东,赵静,亓文凯受保护的技术使用者:山大地纬软件股份有限公司技术研发日:技术公布日:2024/12/23本文地址:https://www.jishuxx.com/zhuanli/20241226/343736.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。