一种Hive小文件治理方法与流程
- 国知局
- 2024-11-21 11:57:58
本发明涉及文件治理,特别是指一种hive小文件治理方法。
背景技术:
1、对于当前的小文件治理技术中,无法通过定期清理到性能评分再到策略优化的全面管理,使得人工干预过多,治理效率低;无法快速识别和响应问题;不能够有效地处理各种小文件异常情况,使得治理的稳定性差,导致小文件堆积造成性能下降。
2、中国专利申请公开号cn116069741a公开了一种文件处理方法,应用于文件存储系统,所述方法包括:获取所述文件存储系统的第一文件目录,所述第一文件目录包括n个文件的文件标识信息和文件大小信息,所述n个文件的每个文件的大小均小于或等于第一目标值,n为大于1的整数;采用回溯算法对所述n个文件的文件标识信息进行第一处理,其中,所述第一处理用于将所述n个文件的文件标识信息进行分堆,以得到m个堆,m为大于1的整数;其中,所述m个堆中,至少m-1个堆的每一个堆的全部文件标识信息对应的文件的总大小值满足如下条件:与所述第一目标值的差值小于或等于第一阈值,且小于或等于所述文件存储系统的最小存储单位对应的存储空间值。
3、由此可见,当前的小文件治理技术无法有效地处理各种小文件异常情况,使得治理的稳定性差,导致小文件堆积造成性能下降。
技术实现思路
1、为此,本发明的目的是提供一种hive小文件治理方法,用于克服当前的小文件治理技术无法有效地处理各种小文件异常情况,使得治理的稳定性差,导致小文件堆积造成性能下降的问题。
2、为实现上述目的,本发明提供一种hive小文件治理方法,包括:
3、设置初始清理周期,对产生的小文件进行定期清理,以获得定期清理结果;
4、实时监控小文件的产生情况,根据所述产生情况确定小文件是否存在异常;
5、基于小文件存在异常,确定小文件异常等级;
6、根据所述异常等级确定小文件治理策略,基于运行所述小文件治理策略以确定治理评分;
7、根据所述定期清理结果结合所述治理评分计算整体性能评分;
8、基于所述整体性能评分调整所述初始清理周期,或,优化所述治理策略。
9、进一步地,所述实时监控小文件的产生情况,根据所述产生情况确定小文件是否存在异常的过程包括:
10、实时监控小文件的实际产生数量、实际产生来源和实际产生频率;
11、判定所述实际产生数量、所述实际产生来源和所述实际产生频率中符合单一判定条件的项目个数;
12、根据所述项目个数确定所述小文件是否存在异常;
13、其中,所述产生情况包括:所述实际产生数量、所述实际产生来源和所述实际产生频率。
14、进一步地,所述判定所述实际产生数量、所述实际产生来源和所述实际产生频率中符合单一判定条件的项目个数的过程包括:
15、根据所述实际产生数量和预设的标准产生数量判定实际产生数量是否符合所述单一判定条件;
16、根据所述实际产生来源为:使用文件系统异常时,判定实际产生来源符合所述单一判定条件;
17、根据所述实际产生频率和预设的标准产生频率判定实际产生频率是否符合所述单一判定条件。
18、进一步地,所述判定所述实际产生数量、所述实际产生来源和所述实际产生频率中符合单一判定条件的项目个数的过程还包括:
19、基于第一差值绝对值大于预设的第一评价值且所述实际产生数量大于所述标准产生数量,则判定实际产生数量符合所述单一判定条件;
20、基于第二差值绝对值大于预设的第二评价值且所述实际产生频率大于所述标准产生频率,判定实际产生频率符合所述单一判定条件;
21、其中,所述第一差值绝对值为所述实际产生数量和所述标准产生数量间的差值绝对值;所述第二差值绝对值为所述实际产生频率和所述标准产生频率间的差值绝对值。
22、进一步地,所述根据所述项目个数确定所述小文件是否存在异常的过程包括:
23、基于所述实际产生数量、所述实际产生来源和所述实际产生频率中符合所述单一判定条件的项目个数为0时,判定所述小文件不存在异常;
24、基于所述实际产生数量、所述实际产生来源和所述实际产生频率中符合所述单一判定条件的项目个数大于等于1时,判定所述小文件存在异常。
25、进一步地,所述基于小文件存在异常,确定小文件异常等级的过程包括:
26、符合所述单一判定条件的项目个数为1时,则判定所述异常等级为一级;
27、符合所述单一判定条件的项目个数为2时,则判定所述异常等级为二级;
28、符合所述单一判定条件的项目个数为3时,则判定所述异常等级为三级。
29、进一步地,所述根据所述异常等级确定小文件治理策略的过程包括:
30、基于所述异常等级为一级,确定所述小文件治理策略为:合并小文件;
31、基于所述异常等级为二级,确定所述小文件治理策略为:合并小文件并优化分区设计;
32、基于所述异常等级为三级,确定所述小文件治理策略为:合并小文件、优化分区设计以及调整数据写入模式。
33、进一步地,所述合并小文件的过程包括:
34、根据数据处理需求结合所述实际产生数量和所述实际产生频率进行小文件合并,以得到若干合并文件;
35、将所述合并文件和合并文件对应的各小文件进行对比,以确定数据完整度和格式兼容度;
36、根据所述数据完整度和所述格式兼容度计算合并评分。
37、进一步地,所述基于运行所述小文件治理策略以确定治理评分的过程包括:
38、运行优化分区设计,获取分区评分;
39、运行调整数据写入模式,获取调整评分;
40、基于不同的所述异常等级,根据所述合并评分、所述分区评分和所述调整评分计算所述治理评分。
41、进一步地,所述根据所述定期清理结果结合所述治理评分计算整体性能评分的过程包括:
42、获取定期清理后的清理日志记录、清理后小文件数量差值和存储空间释放量;
43、根据所述清理日志记录、所述清理后小文件数量差值和所述存储空间释放量计算清理评分;
44、根据所述清理评分和所述治理评分计算所述整体性能评分。
45、与现有技术相比,本发明的有益效果在于,通过定期清理到性能评分再到策略优化的全面管理,减少了人工干预的需求,提高了效率;能够实时监控小文件的产生情况,并根据异常情况作出反应,能够快速识别和响应问题;能够根据异常等级确定治理策略,有效地处理各种小文件异常情况,提升治理的稳定性和可靠性;通过综合定期清理结果和治理评分,计算整体性能评分,并据此调整清理周期或优化治理策略,从而持续优化治理性能;定期清理和异常处理策略的优化,能够有效利用资源,避免小文件堆积和性能下降,保证治理过程的高效运行。
46、尤其,通过监控小文件的实际产生数量、来源和频率,能够详细了解小文件的生成情况,有助于精确识别问题;能够根据预设的判定条件统计符合条件的项目个数,可以快速简单地评估异常情况,提高了识别异常的效率;根据判定的项目个数确定小文件是否存在异常,可以快速地发现和定位问题,有利于及时处理异常;将实际产生数量、来源和频率作为综合考量因素,有助于从多个角度分析小文件是否正常,提高了检测的准确性和全面性;能够迅速响应并采取必要的措施,防止异常的进一步扩大,保证治理的稳定性和可靠性;能够高效地识别和应对小文件异常情况,提升了监控体系的有效性和响应能力。
47、尤其,通过计算实际产生数量和频率与预设标准的差值绝对值,能够精确地评估小文件产生的情况,包括数量和频率的偏差,有效识别异常情况;结合了实际产生数量、实际产生频率和产生来源的多个因素进行评估,能够从多个角度全面分析小文件是否存在异常,增强了评估的全面性和准确性;通过设定预设的评价值,可以将判定过程标准化,使异常判定过程更为规范和可靠,有助于减少误判和提高处理效率;根据不同的差值绝对值判定条件,能够快速地确定实际产生数量、频率和来源是否符合预期,从而迅速作出响应和调整治理策略,提高了实时响应能力;区分文件系统异常和其他异常原因(如插入操作异常、分区设计异常等),有助于更准确地定位问题根源,采取针对性的措施进行处理,提高了问题解决的效率和精确度;结合了精确的计算、多维度的评估和标准化的处理流程,能够高效地识别、分类和处理小文件异常情况,从而保障治理的稳定性和可靠性。
48、尤其,通过确定符合单一判定条件的项目个数,明确地判断小文件是否存在异常,使得判定过程简单明了且易于理解和执行;根据异常项目的个数来确定异常等级,使得异常处理具有层次性,能够根据不同的严重程度采取相应的治理策略,提高了处理的针对性和有效性;根据不同的异常等级,制定了详细的治理策略,如合并小文件、优化分区设计以及调整数据写入模式,使得治理过程具有明确的方向和步骤,提升了处理效率;从简单的合并小文件到优化分区设计及调整数据写入模式,覆盖了从文件管理到系统设计和操作模式的各个方面,提供了全面的解决方案,有助于从根本上解决问题;根据异常等级的不同,采取不同的治理策略,能够灵活应对各种异常情况,避免了一刀切的处理方式,增加了治理的适应性和灵活性;通过逐级增加治理措施,可以逐步优化治理性能,而不必一次性进行大规模调整,能够高效、灵活地识别和处理小文件异常,提高了治理的稳定性和性能。
49、尤其,通过结合数据处理需求和实际访问频率进行小文件合并,确保合并过程符合系统需求,提高了合并的实际效果;通过对比合并文件和原始小文件,确保数据的完整性和格式的兼容性,避免了数据丢失或格式不兼容的问题,增强了治理的可靠性;通过计算数据完整度和格式兼容度的乘积,提供了一个客观的合并评分指标,便于评估合并效果,为进一步优化提供了依据;根据数据处理需求设置合并阈值,例如文件大小达到10mb或访问频率达到50次/min时进行合并,能够根据实际情况动态调整合并策略,提高治理的灵活性和适应性;通过合并小文件,减少文件碎片,提高文件访问速度,优化治理性能;数据完整度的检查和验证确保所有数据都被正确地复制和存储,避免数据丢失或损坏,提高数据安全性;格式兼容度的检查确保合并后的文件能够被目标系统或应用程序正确识别和使用,避免因格式不兼容导致的故障;确保了合并过程的有效性、可靠性和灵活性,有助于提升治理的整体性能和稳定性。
50、尤其,通过对分区设计和数据写入模式的运行效果进行评估,得到了分区评分和调整评分,使得治理评分具有了可量化的指标,便于评估治理效果;将合并评分、分区评分和调整评分结合起来计算治理评分,综合考虑了不同治理措施的效果,使得评估更加全面和客观;根据不同的异常等级,综合考虑了合并效果、分区效果和数据写入模式的效果,制定了针对性的治理策略,有利于解决不同级别的异常问题;通过对分区后查询速度、小文件数量、数据写入效率和数据一致度等指标的监控,能够实时了解治理的运行情况,及时调整治理策略,提高了治理的实时性和灵活性;通过计算治理评分,可以直观地反映出治理措施的效果,便于管理人员进行监控和调整,提高了管理的效率和精确性。
51、尤其,通过获取定期清理后的清理日志记录、清理后小文件数量差值和存储空间释放量,结合清理评分,再根据治理评分和清理评分计算整体性能评分,实现了对治理整体性能的综合评估;清理评分考虑了清理日志记录、清理后小文件数量差值和存储空间释放量等多个指标,能够全面评估定期清理的效果,确保存储空间得到有效释放,整体性能评分综合考虑了治理评分和清理评分,反映了治理措施和定期清理对治理性能的综合贡献,提供了治理性能改进的综合指标;清理评分和整体性能评分的计算使得清理效果和治理效果可以被量化和可视化地表达出来,定期执行整体性能评分的过程有助于周期性地评估治理的改进情况,为持续改进提供数据支持和决策依据,增强了治理的稳定性和效率。
52、尤其,通过整体性能评分和预设标准性能评分的差值,动态调整初始清理周期或优化治理策略,使得能够根据实际情况不断优化和调整,提高治理效果,使用第三差值绝对值来量化评估治理性能的差距,提供了一个明确的量化标准,便于判定治理性能是否合格,增强了评估的客观性和科学性;能够及时判定治理策略有效,从而保持现有策略;当评分不合格时,则能精准确定需要调整清理周期或优化治理策略,提高治理的精准度和有效性;能够灵活地调整清理周期或优化治理策略,从而更好地应对治理性能的变化,保持治理的高效运行;通过周期性的性能评估和动态调整策略,形成了持续改进的机制,确保能够不断优化和提升性能,保持长期稳定和高效;能够在性能合格时预防性地维持当前治理策略,还能在性能不合格时进行纠正,双重机制保障了治理效果。
本文地址:https://www.jishuxx.com/zhuanli/20241120/333612.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表