流式数据处理方法、设备及存储介质与流程
- 国知局
- 2024-12-06 12:16:05
本公开实施例涉及计算机与网络通信,尤其涉及一种流式数据处理方法、设备及存储介质。
背景技术:
1、在基于数据流进行分布式计算的场景中,通常会将数据流进行分块,再将分块分配给分布式计算系统中的各计算节点,由各计算节点消费分块中的数据进行数据处理。
2、然而现有技术中通常会存在各计算节点对数据消费不均衡,影响数据消费吞吐量和资源利用率。
技术实现思路
1、本公开实施例提供一种流式数据处理方法、设备及存储介质,以有效解决各计算节点数据消费不均衡问题,提高数据消费吞吐量和资源利用率。
2、第一方面,本公开实施例提供一种流式数据处理方法,包括:
3、从流处理引擎的数据流中分配给第一计算节点的数据中获取第一待处理数据;
4、确定所述第一计算节点的数据消费滞后状况,所述数据消费滞后状况用于表征所述数据流中分配给所述第一计算节点的数据的堆积状况;
5、根据所述数据消费滞后状况,确定第一计算节点执行本地数据处理和数据混洗处理的比例,根据所述比例确定所述第一待处理数据的目标处理方式,所述目标处理方式包括本地数据处理或者数据混洗处理;
6、若确定所述目标处理方式为本地数据处理,则对所述第一待处理数据进行处理;或者
7、若确定所述目标处理方式为数据混洗处理,则将所述第一待处理数据通过数据混洗分发至分布式计算系统中的任一第二计算节点进行处理。
8、第二方面,本公开实施例提供一种流式数据处理设备,包括:
9、数据获取单元,用于从流处理引擎的数据流中分配给第一计算节点的数据中获取第一待处理数据;
10、决策单元,用于确定所述第一计算节点的数据消费滞后状况,所述数据消费滞后状况用于表征所述数据流中分配给所述第一计算节点的数据的堆积状况;根据所述数据消费滞后状况,确定第一计算节点执行本地数据处理和数据混洗处理的比例,根据所述比例确定所述第一待处理数据的目标处理方式,所述目标处理方式包括本地数据处理或者数据混洗处理;
11、本地处理单元,用于若确定所述目标处理方式为本地数据处理,则对所述第一待处理数据进行处理;或者
12、数据混洗单元,用于若确定所述目标处理方式为数据混洗处理,则将所述第一待处理数据通过数据混洗分发至分布式计算系统中的任一第二计算节点进行处理。
13、第三方面,本公开实施例提供一种电子设备,包括:至少一个处理器和存储器;
14、所述存储器存储计算机执行指令;
15、所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的设计所述的流式数据处理方法。
16、第四方面,本公开实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面以及第一方面各种可能的设计所述的流式数据处理方法。
17、第五方面,本公开实施例提供一种计算机程序产品,包括计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面以及第一方面各种可能的设计所述的流式数据处理方法。
18、本公开实施例提供的流式数据处理方法、设备及存储介质,通过从流处理引擎的数据流中分配给第一计算节点的数据中获取第一待处理数据;确定所述第一计算节点的数据消费滞后状况,所述数据消费滞后状况用于表征所述数据流中分配给所述第一计算节点的数据的堆积状况;根据所述数据消费滞后状况,确定第一计算节点执行本地数据处理和数据混洗处理的比例,根据所述比例确定所述第一待处理数据的目标处理方式,所述目标处理方式包括本地数据处理或者数据混洗处理;若确定所述目标处理方式为本地数据处理,则对所述第一待处理数据进行处理;或者,若确定所述目标处理方式为数据混洗处理,则将所述第一待处理数据通过数据混洗分发至分布式计算系统中的任一第二计算节点进行处理。本公开实施例通过对第一计算节点获取的第一待处理数据确定本地数据处理还是进行数据混洗,从而充分利用各计算节点资源进行数据处理,有效解决各计算节点数据消费不均衡问题,达到全局均匀消费,提高数据消费吞吐量和资源利用率。
技术特征:1.一种流式数据处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述从流处理引擎的数据流中分配给第一计算节点的数据中获取第一待处理数据,包括:
3.根据权利要求2所述的方法,其特征在于,所述根据所述至少一个目标分区的数据滞后量,确定所述第一计算节点的数据消费滞后状况,包括:
4.根据权利要求2所述的方法,其特征在于,所述确定所述第一计算节点的数据消费滞后状况,包括:
5.根据权利要求3或4所述的方法,其特征在于,所述根据所述数据消费滞后状况,确定第一计算节点执行本地数据处理和数据混洗处理的比例,包括:
6.根据权利要求1-4任一项所述的方法,其特征在于,所述将所述第一待处理数据通过数据混洗分发至分布式计算系统中的任一第二计算节点进行处理,包括:
7.根据权利要求1-4任一项所述的方法,其特征在于,所述将所述第一待处理数据通过数据混洗分发至分布式计算系统中的任一第二计算节点进行处理后,还包括:
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
10.一种流式数据处理设备,其特征在于,包括:
11.一种电子设备,其特征在于,包括:至少一个处理器和存储器;
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1-9任一项所述的方法。
13.一种计算机程序产品,其特征在于,包括计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1-9任一项所述的方法。
技术总结本公开实施例提供一种流式数据处理方法、设备及存储介质,通过从流处理引擎的数据流中分配给第一计算节点的数据中获取第一待处理数据;确定第一计算节点的数据消费滞后状况,进而确定第一计算节点执行本地数据处理和数据混洗处理的比例,根据比例确定第一待处理数据的目标处理方式;若确定目标处理方式为本地数据处理,则对第一待处理数据进行处理;若确定目标处理方式为数据混洗处理,则将第一待处理数据通过数据混洗分发至分布式计算系统中任一第二计算节点进行处理。通过对第一计算节点获取的第一待处理数据确定本地数据处理还是进行数据混洗,充分利用各计算节点资源,解决各计算节点数据消费不均衡问题,提高数据消费吞吐量和资源利用率。技术研发人员:郭洋,单既喜,毛洪玥,程航,宋军,师锐受保护的技术使用者:北京火山引擎科技有限公司技术研发日:技术公布日:2024/12/2本文地址:https://www.jishuxx.com/zhuanli/20241204/340335.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。