数据混洗控制方法、装置、设备和存储介质与流程
- 国知局
- 2024-12-06 12:13:17
本公开涉及计算机,尤其涉及一种基于大数据任务分析引擎的数据混洗控制方法、装置、设备和存储介质。
背景技术:
1、大数据分析引擎在处理数据的过程中存在数据混洗(shuffle)阶段。数据混洗阶段是对大数据分析引擎执行数据处理任务生成的中间数据进行重分区、排序与合并等处理来生成数据混洗结果,并将数据混洗结果存储至本地磁盘(数据写入过程),以供下游来读取这些数据混洗结果进行进一步地数据处理(数据读取过程)。
2、上述数据写入过程会因为任务调度问题而造成数据写入量不均衡的问题,如物理机磁盘严重倾斜的问题。这样会导致任务执行时间延长、资源利用率低下。在较为严重的情况下,甚至会出现直接将某些物理机的磁盘打满,进而引发任务失败,甚至影响大数据分析系统的稳定性。
技术实现思路
1、为了解决上述技术问题,本公开实施例提供了一种数据混洗控制方法、装置、设备和存储介质。
2、第一方面,本公开实施例提供了一种基于大数据任务分析引擎的数据混洗控制方法,该方法包括:
3、响应于数据混洗任务的任务结束事件,获取所述任务结束事件的事件信息;所述数据混洗任务用于对大数据分析引擎执行数据处理任务中产生的中间数据进行数据混洗,所述数据混洗结果供下游处理;所述任务结束事件的事件信息用于记录数据混洗任务对应的执行器上的当前写入数据量;
4、从所述任务结束事件的事件信息中提取所述当前写入数据量;
5、基于所述当前写入数据量和所述执行器对应的历史写入数据量总量,确定所述执行器对应的累积写入数据量总量;
6、若所述累积写入数据量总量超过所述执行器的数据量阈值,则将所述执行器标记为停止调度状态,以停止向所述执行器继续分配所述数据混洗任务。
7、第二方面,本公开实施例还提供了一种基于大数据任务分析引擎的数据混洗控制装置,该装置包括:
8、事件信息获取模块,用于响应于数据混洗任务的任务结束事件,获取所述任务结束事件的事件信息;所述数据混洗任务用于对大数据分析引擎执行数据处理任务中产生的中间数据进行数据混洗,所述数据混洗结果供下游处理;所述任务结束事件的事件信息用于记录数据混洗任务对应的执行器上的当前写入数据量;
9、当前写入数据量提取模块,用于从所述任务结束事件的事件信息中提取所述当前写入数据量;
10、累积写入数据量总量确定模块,用于基于所述当前写入数据量和所述执行器对应的历史写入数据量总量,确定所述执行器对应的累积写入数据量总量;
11、数据量控制模块,用于若所述累积写入数据量总量超过所述执行器的数据量阈值,则将所述执行器标记为停止调度状态,以停止向所述执行器继续分配所述数据混洗任务。
12、第三方面,本公开实施例还提供了一种电子设备,该电子设备包括:
13、处理器;
14、存储器,用于存储可执行指令;
15、其中,处理器用于从存储器中读取可执行指令,并执行可执行指令以实现本公开任意实施例所说明的基于大数据任务分析引擎的数据混洗控制方法。
16、第四方面,本公开实施例还提供了一种计算机可读存储介质,该存储介质存储有计算机程序,当计算机程序被处理器执行时,使得处理器实现本公开任意实施例所说明的基于大数据任务分析引擎的数据混洗控制方法。
17、第五方面,本公开实施例还提供了一种计算机程序产品,所述计算机程序产品用于执行本公开任意实施例所说明的基于大数据任务分析引擎的数据混洗控制方法。
18、本公开实施例的数据混洗控制方法、装置、设备和存储介质,能够响应于数据混洗任务的任务结束事件,获取任务结束事件的事件信息;数据混洗任务用于对数据处理任务产生的中间数据进行数据混洗;从任务结束事件的事件信息中提取当前写入数据量;基于当前写入数据量和数据混洗任务对应的执行器对应的历史写入数据量总量,确定执行器对应的累积写入数据量总量;若累积写入数据量总量超过执行器的数据量阈值,则将执行器标记为停止调度状态,停止向执行器继续分配数据混洗任务;实现了实时监测系统中的任一个执行器的累积写入数据量,并通过累积写入数据量和执行器的数据量阈值之间的比较结果来控制是否继续向该执行器调度数据混洗任务,从而可以将系统中的各个执行器的写入数据量总量均控制在其适配的合理值范围内,大大提升系统中的各执行器对应的磁盘容量的均匀程度,尽可能地避免系统中某些物理机磁盘打满而导致的节点故障的问题,进而提升任务执行成功率和执行效率,提升系统的资源利用率和稳定性。
19、需要说明的是,本公开实施例所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
技术特征:1.一种基于大数据任务分析引擎的数据混洗控制方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
6.根据权利要求1所述的方法,其特征在于,所述从所述任务结束事件的事件信息中提取所述当前写入数据量,包括:
7.根据权利要求1所述的方法,其特征在于,所述从所述事件信息中提取目标对象对应的当前写入数据量,包括:
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
9.一种基于大数据任务分析引擎的数据混洗控制装置,其特征在于,包括:
10.一种电子设备,其特征在于,包括:
11.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,当所述计算机程序被处理器执行时,使得处理器实现上述权利要求1-8中任一项所述的基于大数据任务分析引擎的数据混洗控制方法。
技术总结本公开实施例涉及一种数据混洗控制方法、装置、设备和存储介质。该方法包括:响应于数据混洗任务的任务结束事件,获取任务结束事件的事件信息;数据混洗任务用于对数据处理任务产生的中间数据进行数据混洗;从任务结束事件的事件信息中提取当前写入数据量;基于当前写入数据量和数据混洗任务对应的执行器对应的历史写入数据量总量,确定执行器对应的累积写入数据量总量;若累积写入数据量总量超过执行器的数据量阈值,则将执行器标记为停止调度状态,停止向执行器继续分配数据混洗任务。如此,可将执行器的写入数据量总量控制在合理值范围内,大大提升系统中的各磁盘容量的均匀程度,进而提升系统的资源利用率和稳定性。技术研发人员:魏中佳,宋军,辛朝晖,张亚东,师锐受保护的技术使用者:北京火山引擎科技有限公司技术研发日:技术公布日:2024/12/2本文地址:https://www.jishuxx.com/zhuanli/20241204/340036.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。