数据去重计数方法、装置、设备及存储介质与流程
- 国知局
- 2024-12-06 12:15:37
本申请涉及数据处理与分析,尤其涉及数据去重计数方法、装置、设备及存储介质。
背景技术:
1、随着大数据和云计算技术的飞速发展,实时数据处理已成为现代业务系统不可或缺的一部分。在实时数据分析中,准确计算诸如pv(page view,页面浏览量)和uv(uniquevisitor,独立访客数)等关键指标变得尤为重要,这些指标不仅是衡量网站或产品活跃度的关键,也是指导业务决策的重要依据。
2、现有的数据处理无法满足对实时性有高度要求的应用场景,尤其是在去重计数这一关键环节上,实时数据的去重计数存在选型困难的问题。
3、因此,如何根据具体业务场景和需求,灵活选择和组合不同的解决方案,是目前亟需解决的一个问题。
技术实现思路
1、本申请的主要目的在于提供一种数据去重计数方法、装置、设备及存储介质,旨在解决实时数据的去重计数选型困难的技术问题。
2、为实现上述目的,本申请提出一种数据去重计数方法,所述的方法包括:
3、读取配置策略,所述配置策略包括窗口范围配置和聚合规则配置,所述窗口范围配置用于选择窗口类型和配置分组字段,所述聚合规则配置用于设定针对目标字段的去重计数策略;
4、根据所述窗口范围配置对原始数据流进行分组,得到至少一个待处理数据集,所述待处理数据集包括所述目标字段;
5、根据所述聚合规则配置对所述待处理数据集进行去重计数,得到目标去重计数结果。
6、在一实施例中,所述根据所述窗口范围配置对原始数据流进行分组,得到至少一个待处理数据集的步骤,包括:
7、根据所述窗口范围配置,将原始数据流分为对应于所选择窗口类型的子数据集;
8、根据分组字段将所述子数据集分类,得到至少一个待处理数据集。
9、在一实施例中,所述聚合规则包括去重计数规则,所述根据所述聚合规则配置对所述待处理数据集进行去重计数,得到目标去重计数结果的步骤,包括:
10、当所述聚合规则设定为所述去重计数规则,且当所述目标字段为单字段时,根据单字段去重计数策略对所述目标字段进行去重计数,得到目标去重计数结果;
11、当所述聚合规则设定为所述去重计数规则,且当所述目标字段为多字段时,将所述多字段拆分为单字段,返回所述根据单字段去重计数策略对所述目标字段进行去重计数的步骤。
12、在一实施例中,所述聚合规则包括预设聚合规则,所述待处理数据集包括所述目标字段,所述根据所述聚合规则配置对所述待处理数据集进行去重计数,得到目标去重计数结果的步骤,包括:
13、当所述聚合规则设定为所述去重计数规则和预设聚合规则,且配置取值个数时,对所述目标字段进行数据分区,得到分区字段;
14、对所述分区字段进行数据编号,得到编号字段,并通过位图计数对所述编号字段进行去重计数,得到中间去重计数结果;
15、根据预设聚合规则对所述中间去重计数结果进行去重计数,得到目标去重计数结果。
16、在一实施例中,所述聚合规则包括预设聚合规则,所述待处理数据集包括所述目标字段,所述根据所述聚合规则配置对所述待处理数据集进行去重计数,得到目标去重计数结果的步骤,还包括:
17、当所述聚合规则设定为所述去重计数规则和预设聚合规则,且未配置取值个数时,对所述目标字段进行数据拆分,得到第一目标数据和第二目标数据;
18、根据所述去重计数规则对所述第一目标数据进行去重计数,得到第一去重计数结果;
19、根据所述预设聚合规则对所述第二目标数据进行去重计数,得到第二去重计数结果;
20、将所述第一去重计数结果和第二去重计数结果进行数据关联,得到目标去重计数结果。
21、在一实施例中,所述根据所述聚合规则配置对所述待处理数据集进行去重计数,得到目标去重计数结果的步骤,包括:
22、初始化与去重计数相关的状态数据,并设置临时变量,用于暂存和管理所述状态数据;
23、根据所述聚合规则配置对所述待处理数据集进行去重计数时,访问所述临时变量以进行数据处理;
24、将所述临时变量的当前值写入实际的状态存储后端,并将状态数据和各去重计数结果进行存储,以确保在应用异常重启后能够恢复到上一次处理的状态。
25、在一实施例中,在所述应用异常重启后,为了恢复到上一次处理的状态,所述方法包括:
26、从所述状态存储后端读取存储的所述状态数据和各去重计数结果;
27、初始化与去重计数相关的计算节点,并将读取的所述状态数据和各去重计数结果加载到对应的临时变量中;
28、基于恢复后的状态数据继续进行去重计数处理,以确保数据处理的连续性和正确性。
29、此外,为实现上述目的,本申请还提出一种数据去重计数装置,所述数据去重计数装置包括:
30、策略配置模块,用于读取配置策略,所述配置策略包括窗口范围配置和聚合规则配置,所述窗口范围配置用于选择窗口类型和配置分组字段,所述聚合规则配置用于设定针对目标字段的去重计数策略;
31、数据划分模块,用于根据所述窗口范围配置对原始数据流进行分组,得到至少一个待处理数据集,所述待处理数据集包括所述目标字段;
32、去重计数模块,用于根据所述聚合规则配置对所述待处理数据集进行去重计数,得到目标去重计数结果。
33、此外,为实现上述目的,本申请还提出一种数据去重计数设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序配置为实现如上文所述的数据去重计数方法的步骤。
34、此外,为实现上述目的,本申请还提出一种存储介质,所述存储介质为计算机可读存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上文所述的数据去重计数方法的步骤。
35、本申请提出的一个或多个技术方案,至少具有以下技术效果:
36、读取配置策略,配置策略包括窗口范围配置和聚合规则配置,窗口范围配置用于选择窗口类型和配置分组字段,聚合规则配置用于设定针对目标字段的去重计数策略,根据窗口范围配置对原始数据流进行分组,得到至少一个待处理数据集,待处理数据集包括目标字段,根据聚合规则配置对待处理数据集进行去重计数,得到目标去重计数结果。通过窗口范围配置和聚合规则配置策略可自动匹配最合适的去重计数策略,实现了多种场景的实时数据去重计算,大幅降低实时数据去重计数的门槛,降低开发成本和资源成本,保证数据准确性与时效性,提高交付效率。
技术特征:1.一种数据去重计数方法,其特征在于,所述的方法包括:
2.如权利要求1所述的方法,其特征在于,所述根据所述窗口范围配置对原始数据流进行分组,得到至少一个待处理数据集的步骤,包括:
3.如权利要求1所述的方法,其特征在于,所述聚合规则包括去重计数规则,所述根据所述聚合规则配置对所述待处理数据集进行去重计数,得到目标去重计数结果的步骤,包括:
4.如权利要求1所述的方法,其特征在于,所述聚合规则包括预设聚合规则,所述待处理数据集包括所述目标字段,所述根据所述聚合规则配置对所述待处理数据集进行去重计数,得到目标去重计数结果的步骤,还包括:
5.如权利要求4所述的方法,其特征在于,所述聚合规则包括预设聚合规则,所述待处理数据集包括所述目标字段,所述根据所述聚合规则配置对所述待处理数据集进行去重计数,得到目标去重计数结果的步骤,还包括:
6.如权利要求1至5所述的任一项的方法,其特征在于,所述根据所述聚合规则配置对所述待处理数据集进行去重计数,得到目标去重计数结果的步骤,包括:
7.如权利要求6所述的方法,其特征在于,在所述应用异常重启后,为了恢复到上一次处理的状态,所述方法包括:
8.一种数据去重计数装置,其特征在于,所述装置包括:
9.一种数据去重计数设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序配置为实现如权利要求1至7中任一项所述的数据去重计数方法的步骤。
10.一种存储介质,其特征在于,所述存储介质为计算机可读存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的数据去重计数方法的步骤。
技术总结本申请公开了一种数据去重计数方法、装置、设备及存储介质,涉及数据处理与分析技术领域,该方法包括:读取配置策略,配置策略包括窗口范围配置和聚合规则配置,窗口范围配置用于选择窗口类型和配置分组字段,聚合规则配置用于设定针对目标字段的去重计数策略,根据窗口范围配置对原始数据流进行分组,得到至少一个待处理数据集,待处理数据集包括目标字段,根据聚合规则配置对待处理数据集进行去重计数,得到目标去重计数结果。通过窗口范围配置和聚合规则配置策略可自动匹配最合适的去重计数策略,实现了多种场景的实时数据去重计算,大幅降低实时数据去重计数的门槛,降低开发成本和资源成本,保证数据准确性与时效性,提高交付效率。技术研发人员:张琪,侯亚,周云淞受保护的技术使用者:招商银行股份有限公司技术研发日:技术公布日:2024/12/2本文地址:https://www.jishuxx.com/zhuanli/20241204/340287.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。