一种用于数仓数据生命周期管理的方法、系统、设备及介质与流程
- 国知局
- 2024-10-15 10:22:11
本发明属于数据管理,涉及一种用于数仓数据生命周期管理的方法、系统、设备及介质。
背景技术:
1、在当前企业数据仓库(data warehouse)环境中,随着业务规模的不断扩大和数据量的急剧增加,数据生命周期管理成为了一个亟待解决的问题。数仓中累积的冗余数据和失效数据,由于缺乏有效的管理机制,不仅占据了大量宝贵的存储资源,降低了it资源的整体利用率,还严重影响了数据的准确性和可靠性,进而企业的对决策效率和业务发展构成威胁。
2、现有的数仓数据生命周期管理方法主要包括以下几种,但每种方法均存在其固有的局限性和挑战:
3、定期清理方式:该方式依赖于预设的时间规则进行数据清理,如“删除一年前的数据”。然而,这种方法忽视了数据的实际使用价值和业务需求,容易导致重要历史数据或需长期保存的数据被误删除,影响业务的连续性和数据的完整性。
4、基于数据访问频率的方式:此方法依据数据的访问频率来决定其生命周期,但现实中的数据访问模式往往复杂多变,且存在访问不规律的情况。这可能导致高价值但访问频率低的数据被错误地删除,或低价值但频繁访问的数据占用过多资源,无法有效优化存储结构。
5、基于数据价值的方式:该策略试图通过评估数据的价值和重要性来制定清理策略。然而,数据价值的评估往往受到主观判断的影响,难以做到客观公正。同时,全面的价值评估过程需要耗费大量的人力、物力和时间成本,增加了管理的复杂性和难度。
6、基于元数据管理的方式:通过维护和管理元数据来识别数据的生命周期,是一种更为精细化的管理手段。但元数据的管理本身就是一个复杂的过程,需要投入大量的资源和精力来确保元数据的准确性和完整性。此外,元数据的不完整或丢失也可能导致数据生命周期管理策略的失效。
7、鉴于上述问题,开发一种高效、智能的数仓数据生命周期管理方法显得尤为重要。
技术实现思路
1、本发明的目的在于解决现有技术中缺乏有效的数据生命周期管理策略的问题,提供一种用于数仓数据生命周期管理的方法、系统、设备及介质。
2、为达到上述目的,本发明采用以下技术方案予以实现:
3、一种用于数仓数据生命周期管理的方法,包括以下步骤:
4、定时获取hdfs镜像文件,将hdfs镜像文件解析为csv格式文件,并上传到hdfs中;
5、分析并提取表级信息,对上传的csv格式文件进行解析,获取每张表的表级信息,并将表级信息下发到数据生命周期管理系统;
6、查询hive元数据库,通过查询hive元数据库,获取数仓中所有表的名称、所属库、描述、创建时间、创建人信息;
7、扩展表信息,为数仓中的每张表添加维护人信息及标签;
8、数据库分类与生命周期策略配置,根据存储数据的重要性,对数仓中的数据库进行分类,并为每类数据库配置不同的生命周期策略;
9、定时检查与提醒,定时检查各数据库中的表是否到达其生命周期策略中设定的保留期限,在表到期前向相应的维护人员发送提醒信息,判断是否延期;对于到期的表,执行预定的到期处理操作;
10、延期处理,若收到延期请求,根据延期时间和原策略计算的到期时间中的较大值,重新计算表的到期时间,并更新系统记录,同时发送新的提醒信息。
11、所述分析并提取表级信息,具体为:
12、对存储在hdfs中的csv文件进行解析,通过执行sql查询,获取每张数据表的最近访问时间、数据量大小、块数量的表级信息;
13、其中,解析后的原始数据包含表中每个文件的文件大小、最近修改/访问时间的文件级信息,通过sql查询或数据处理逻辑,将这些文件级信息聚合为表级信息进行统计和分析,将数据粒度由文件级变为表级。
14、所述数据库分类具体为根据存储数据的重要性,对数仓中的数据库进行分类分级,区分正式表与临时表、核心库与非核心库。
15、所述生命周期策略配置具体为根据业务需求,为不同分类分级的数据库配置相应的生命周期策略,包括数据保留周期、到期处理方式,其中核心库表的数据保留周期设为3年,临时表的数据保留周期设为180天。
16、所述定时检查与提醒具体为:系统每天定时检查各数据库中的表是否到达其生命周期策略中设定的保留期限,通过比较表的最后访问时间与配置的有效期,判断是否小于当前日期来确定表是否到期;对于到期的表,系统执行预定的到期处理操作。
17、所述对于到期的表,执行预定的到期处理操作,具体为:
18、系统发起删除数据的审批流程,审批流程中的审批信息包括表的名称、所属数据库、到期时间、数据量,并指定数仓维护人员及数据维护人为审批人;
19、审批与确认,数仓维护人员及数据维护人收到审批请求后,对审批信息进行审核,并根据实际情况决定是否同意删除数据;若双方均同意,则审批通过;若有一方不同意或,则审批流程暂停或拒绝;
20、数据删除,在审批通过后,系统执行数据删除操作,或者根据审批结果中的指示进行相应处理。
21、一种用于数仓数据生命周期管理的系统,包括以下模块:
22、数据获取与解析模块,用于定时从hdfs获取镜像文件,将其解析为csv格式,并上传到hdfs的指定位置;
23、表级信息提取模块,用于解析csv文件,提取并下发每张表的表级信息到数据生命周期管理系统;
24、元数据库查询模块,用于查询hive元数据库,获取数仓中所有表的基础信息;
25、表信息扩展模块,用于在基础信息基础上,为数仓中的表添加维护人信息及标签;
26、数据库分类与策略配置模块,用于根据数据重要性等因素对数据库进行分类,并为每类数据库配置生命周期策略;
27、定时检查与到期处理模块,用于定时检查表的保留期限,发送提醒信息,并执行到期处理操作;
28、延期处理模块,用于处理延期请求,重新计算并更新表的到期时间,并发送新的提醒信息。
29、还包括权限管理模块,所述权限管理模块负责系统用户的权限分配和管理,确保不同用户只能访问和操作其被授权的数据和功能。
30、一种设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如前项任一项所述方法的步骤。
31、一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如前项任一项所述方法的步骤。
32、与现有技术相比,本发明具有以下有益效果:
33、本发明中的用于数仓数据生命周期管理的方法,通过自动化的定时任务,从hdfs镜像文件的获取、解析到表级信息的提取和上传,再到hive元数据库的查询、表信息的扩展、数据库的分类与生命周期策略配置,整个过程实现了高度的自动化,大幅提升了数据管理的效率。同时该方法通过为每张表添加维护人信息和标签,增强了数据的可见性和管理透明度,有助于业务团队更好地理解数据结构和用途。此外根据数据重要性进行分类并配置不同的生命周期策略,优化了资源利用,降低了运营成本。自动化的到期检查和提醒、延期处理等功能,不仅确保了数据的及时清理和更新,提高了数据安全性,还提升了业务团队对数据的响应速度和决策效率。本发明的方法在提升管理效率、增强数据可见性、优化资源利用、提高数据安全性及降低运营成本等方面均展现出显著的优势。
本文地址:https://www.jishuxx.com/zhuanli/20241014/317424.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表