数据清理方法、装置、存储介质以及电子设备与流程
- 国知局
- 2024-07-31 22:42:39
本技术涉及计算机,尤其涉及一种数据清理方法、装置、存储介质以及电子设备。
背景技术:
1、在信息化时代,大数据已成为各个行业的关键资源之一,而大数据是一种规模大到在获取、存储、管理、分析等方面大大超出了传统数据库软件工具的处理范围之外的数据集合,为了更好地利用大数据,企业通常使用数据仓库(data warehouse,简称dw)对大数据进行管理。
2、随着大数据时代的持续演进,企业所产生的数据量呈指数级增长。但是,很多数据并未被充分利用,甚至从未被访问过,它们占用了大量的存储资源,而随着时间的推移,其价值会逐渐降低。因此,对于这些潜在的闲置数据进行回收和管理成为了大数据治理中一个重要的问题。
技术实现思路
1、本技术实施例提供了一种数据清理方法、装置、计算机存储介质以及电子设备。所述技术方案如下:
2、第一方面,本技术实施例提供了一种数据清理方法,所述方法包括:
3、获取针对数据仓库中目标数据表的数据表管理信息;
4、获取针对所述目标数据表中至少一种源数据的生命周期管理规则;
5、基于所述数据表管理信息和所述生命周期管理规则确定所述至少一种源数据对应的表分区数据清理命令;
6、基于所述表分区数据清理命令执行数据清理操作。
7、在一种可能的实施方式中,所述基于所述数据表管理信息和所述生命周期管理规则确定所述至少一种源数据对应的表分区数据清理命令,包括:
8、基于当前业务时间和所述生命周期管理规则确定所述至少一种源数据对应的数据保留业务时间;
9、基于所述数据保留业务时间和所述数据表管理信息确定所述至少一种源数据对应的表分区数据清理命令。
10、在一种可能的实施方式中,所述基于当前业务时间和所述生命周期管理规则确定所述至少一种源数据对应的数据保留业务时间,包括:
11、基于所述生命周期管理规则确定所述至少一种源数据的数据保留时长;
12、基于所述当前业务时间和所述数据保留时长进行业务时间推算处理得到所述至少一种源数据对应的数据保留业务时间。
13、在一种可能的实施方式中,所述基于所述数据保留业务时间和所述数据表管理信息确定所述至少一种源数据对应的表分区数据清理命令,包括:
14、基于所述数据保留业务时间确定所述至少一种源数据对应的时间分区字段信息;
15、基于所述时间分区字段信息和所述数据表管理信息确定所述至少一种源数据对应的数据清理分区字段信息;
16、基于所述数据清理分区字段信息生成所述至少一种源数据对应的表分区数据清理命令。
17、在一种可能的实施方式中,所述基于所述时间分区字段信息和所述数据表管理信息确定所述至少一种源数据对应的数据清理分区字段信息,包括:
18、基于所述数据表管理信息确定所述至少一种源数据对应的业务分区字段信息;
19、将所述业务分区字段信息和所述时间分区字段信息确定为数据清理分区字段信息。
20、在一种可能的实施方式中,所述基于所述表分区数据清理命令执行数据清理操作,包括:
21、获取所述表分区数据清理命令中的数据清理分区字段信息,基于所述数据清理分区字段信息在所述数据表管理信息中查询至少一种源数据的真实分区存储路径;
22、基于所述真实分区存储路径进行时间通配符转换处理,得到至少一种源数据对应的目标分区存储路径;
23、获取所述数据清理分区字段信息中的时间分区字段信息,基于所述目标分区存储路径和所述时间分区字段信息执行数据清理操作。
24、在一种可能的实施方式中,所述基于所述目标分区存储路径和所述时间分区字段信息执行数据清理操作,包括:
25、基于所述时间分区字段信息确定数据清理年度时间参数、数据清理月度时间参数、数据清理日度时间参数;
26、基于所述数据清理年度时间参数和所述目标分区存储路径生成至少一种源数据的年度数据清理命令;
27、基于所述数据清理月度时间参数和所述目标分区存储路径生成至少一种源数据的月度数据清理命令;
28、基于所述数据清理日度参数和所述目标分区存储路径生成至少一种源数据的日度数据清理命令;
29、基于所述年度数据清理命令、所述月度数据清理命令以及所述日度数据清理命令执行数据清理操作。
30、第二方面,本技术实施例提供了一种数据清理装置,所述装置包括:
31、信息获取模块,用于获取针对数据仓库中目标数据表的数据表管理信息;
32、规则获取模块,用于获取针对所述目标数据表中至少一种源数据的生命周期管理规则;
33、命令确定模块,用于基于所述数据表管理信息和所述生命周期管理规则确定所述至少一种源数据对应的表分区数据清理命令;
34、数据清理模块,用于基于所述表分区数据清理命令执行数据清理操作。
35、可选地,所述命令确定模块,包括:
36、时间确定单元,用于基于当前业务时间和所述生命周期管理规则确定所述至少一种源数据对应的数据保留业务时间;
37、命令生成单元,用于基于所述数据保留业务时间和所述数据表管理信息确定所述至少一种源数据对应的表分区数据清理命令。
38、可选地,所述时间确定单元,包括:
39、第一确定子单元,用于基于所述生命周期管理规则确定所述至少一种源数据的数据保留时长;
40、第二确定子单元,用于基于所述当前业务时间和所述数据保留时长进行业务时间推算处理得到所述至少一种源数据对应的数据保留业务时间。
41、可选地,所述命令生命单元,包括:
42、第一信息确定单元,用于基于所述数据保留业务时间确定所述至少一种源数据对应的时间分区字段信息;
43、第二信息确定单元,用于基于所述时间分区字段信息和所述数据表管理信息确定所述至少一种源数据对应的数据清理分区字段信息;
44、第三信息生成单元,用于基于所述数据清理分区字段信息生成所述至少一种源数据对应的表分区数据清理命令。
45、可选地,所述第二信息确定单元,包括:
46、第一信息确定子单元,用于基于所述数据表管理信息确定所述至少一种源数据对应的业务分区字段信息;
47、第二信息确定子单元,用于将所述业务分区字段信息和所述时间分区字段信息确定为数据清理分区字段信息。
48、可选地,所述数据清理模块,包括
49、第一清理单元,用于获取所述表分区数据清理命令中的数据清理分区字段信息,基于所述数据清理分区字段信息在所述数据表管理信息中查询至少一种源数据的真实分区存储路径;
50、第二清理单元,用于基于所述真实分区存储路径进行时间通配符转换处理,得到至少一种源数据对应的目标分区存储路径;
51、第三清理单元,用于获取所述数据清理分区字段信息中的时间分区字段信息,基于所述目标分区存储路径和所述时间分区字段信息执行数据清理操作。
52、可选地,所述第三清理单元,包括:
53、第一清理子单元,用于基于所述时间分区字段信息确定数据清理年度时间参数、数据清理月度时间参数、数据清理日度时间参数;
54、第二清理子单元,用于基于所述数据清理年度时间参数和所述目标分区存储路径生成至少一种源数据的年度数据清理命令;
55、第三清理子单元,用于基于所述数据清理月度时间参数和所述目标分区存储路径生成至少一种源数据的月度数据清理命令;
56、第四清理子单元,用于基于所述数据清理日度参数和所述目标分区存储路径生成至少一种源数据的日度数据清理命令;
57、第五清理子单元,用于基于所述年度数据清理命令、所述月度数据清理命令以及所述日度数据清理命令执行数据清理操作。
58、第三方面,本技术实施例提供了一种计算机存储介质,所述计算机存储介质有多条指令,所述指令适于由处理器加载并执行上述的方法。
59、第四方面,本技术实施例提供了一种电子设备,可包括:存储器和处理器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述存储器加载并执行上述的方法。
60、本技术实施例提供的技术方案带来的有益效果至少包括:
61、在本技术实施例中,获取针对数据仓库中目标数据表的数据表管理信息,获取针对所述目标数据表中至少一种源数据的生命周期管理规则,基于所述数据表管理信息和所述生命周期管理规则确定所述至少一种源数据对应的表分区数据清理命令,基于所述表分区数据清理命令执行数据清理操作。采用以上技术方案,对于数据表中存储的不同种类的源数据,可以按照每种源数据的生命周期管理规则对不同种类的源数据进行数据清理,实现了针对同一数据表中不同生命周期源数据的数据清理功能。
本文地址:https://www.jishuxx.com/zhuanli/20240730/194227.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表