技术新讯 > 计算推算,计数设备的制造及其应用技术 > 维度树的数据单元格集中获取与填充系统及操作方法与流程 > 正文

维度树的数据单元格集中获取与填充系统及操作方法与流程

国知局
2024-10-09 16:37:22

本发明涉及单元格数据处理，具体为维度树的数据单元格集中获取与填充系统及操作方法。

背景技术：

1、数据单元格填充通常指的是在表格（如excel、google sheets等）或数据库（如mysql、mongodb等）的特定位置（即单元格）中输入或更新数据。这些数据可以是文本、数字、日期、时间等，具体取决于单元格的用途和所在数据结构的要求。

2、如公开号cn110598194b公开了一种非满格表格内容提取方法、装置及终端设备。所述方法包括：获取原始表格，所述原始表格为非满格表格；对所述原始表格进行读取，得到满格表格，并确定出属于同一个合并单元格的各单元格；依次从所述满格表格中获取各个单元格的数据，判定数据不为空的单元格是属于标题单元格，还是属于内容单元格，并将标题单元格和内容单元格进行标记；若所述合并单元格中包括标题单元格，则将属于所述合并单元格的各单元格均用所述标题单元格的数据进行填充。通过该发明实施例，将非满格表格规整化处理为满格表格，实现了将每个单元格的数据准确读取出来，并且标记了标题单元格和内容单元格。

3、而入上述技术所示，现有技术还只是简单的对单元格数据进行提取和填充操作，在实际使用过程中，尤其是应对如基于维度树的复杂数据单元格的数据处理中还存在以下问题：

4、性能瓶颈：在处理大规模数据集时，数据的集中获取和填充可能会消耗大量的计算资源和时间，不合理的分配资源会影响系统性能；

5、数据一致性：在分布式系统中，多个节点可能同时尝试更新同一个数据单元格，这可能导致数据不一致的问题。此外，如果数据在传输过程中发生错误或丢失，也可能影响数据的最终一致性；

6、复杂性：维度树的结构可能非常复杂，包含多个层级和不同类型的节点。这增加了数据单元格集中获取与填充的难度和复杂性，进而容易出现错误。

技术实现思路

1、针对现有技术的不足，本发明提供了维度树的数据单元格集中获取与填充系统及操作方法，解决了现有技术的问题。

2、为实现以上目的，本发明通过以下技术方案予以实现：维度树的数据单元格集中获取与填充系统，包括：

3、数据模型与架构，用于设计维度树的数据模型，明确每个单元格的存储结构和访问方式；并规划系统架构，设计缓存策略以加速对频繁访问单元格的读取，确定数据分片与分区方案以分配对维度树单元格的访问和更新任务；

4、数据预处理模块，用于对导入的数据源数据进行清洗和去除异常值操作；

5、并行查询与计算模块，利用多线程或多进程技术并行查询获取维度树单元格的数据，并结合增量聚合和数据压缩率算法降低计算量；

6、数据验证模块，在将数据填充到维度树单元格之前，使用校验和或哈希值验证数据的准确性和合法性；

7、数据填充模块，将验证后的数据填充到维度树相应的单元格中，填充过程中使用加权平均进行计算，并按照设定的更新策略的规则进行填充，在填充过程中，采用锁机制或事务处理来确保多个线程或进程在更新同一单元格时的数据一致性，对于非关键性单元格的更新，采用异步策略以提高系统的响应速度和吞吐量；

8、系统监控维护模块，通过监控系统的性能指标，以柔性调整维度树单元格数据的获取、处理和填充参数，维持系统性能指标处于安全阈值内。

9、本发明还公开了维度树的数据单元格集中获取与填充系统的操作方法，数据获取和填充前，首先进行以下设定步骤：

10、a1、明确项目的数据源ds及其特性，包括数据格式、大小和更新频率；

11、a2、确定目标填充位置tp在维度树中的具体位置及期望的格式fg；

12、a3、分析维度树的结构，识别出节点数量n和层级数l。

13、优选的，数据模型与架构的操作方法具体包括：

14、 b1、设计维度树的数据模型时，明确每个单元格celli,j的存储结构和访问方式，其中i代表行/层级，j代表列/属性；并设计节点存储信息，包括节点id和属性集a；

15、 b2、规划系统架构时，设计缓存策略用于加速对频繁访问单元格的读取，考虑缓存大小csize与预期的数据访问模式，缓存大小csize将影响缓存命中率hr，缓存命中率hr提高时会减少对原始数据源的访问次数，从而降低处理时间tp，缓存命中率hr计算公式为：；

16、其中，t0表示命中次数，t总表示总请求次数；

17、 b3、同时，确定数据分片数量dp与分区策略part，用于在并行处理时均衡分配对维度树单元格的访问和更新任务。

18、优选的，所述数据预处理模块的操作方法具体包括：

19、c1、导入数据源ds，提取维度树单元格相关的数据经过清洗后得到干净数据集dcs，清洗过程中使用阈值to来判定异常值并去除。

20、优选的，所述并行查询与计算模块的操作方法具体包括：

21、d1、利用多线程或多进程技术从数据源或缓存中并行查询获取维度树单元格的数据，并结合增量聚合ia技术进行计算优化和数据压缩技术进行压缩处理；

22、d2、在计算优化方面，采用增量聚合ia减少重复计算，增量聚合的计算依赖于前一状态的结果，即：

23、σnew= σold + δ；

24、其中σold表示在添加新数据或发生变更之前的聚合值；δ代表增量或变化量，即由于新数据的加入或现有数据的变更而导致的聚合值的变化量；σnew表示更新后的聚合值，通过将旧的聚合值σold与增量δ相加得到；

25、数据压缩率cr计算公式为：；其中，c前压缩前的原始数据大小，c后表示压缩后数据大小。

26、优选的，所述数据验证模块的操作方法具体包括：

27、e1、源数据验证：在将数据提交到维度树之前，验证源数据的校验和/哈希值，确保数据在传输或预处理过程中未被篡改；

28、e2、维度树内已有数据验证：如果维度树中已包含部分数据，对新数据的校验和/哈希值与已存储的数据的校验和/哈希值进行比较，检查是否有潜在的重复或冲突；

29、e3、跨单元格一致性检查：对于涉及多个单元格的复杂数据关系，实施额外的逻辑检查来确保数据一致性，包括验证不同维度之间的关联是否正确，以及计算汇总值是否与基础数据相匹配；

30、e4、记录与报告：发现数据不一致时，立即记录相关详情，包括不一致的数据点、时间戳、涉及的单元格，并生成详细报告；

31、e5、问题追溯：回溯数据的来源和处理过程，查找导致不一致的根本原因；

32、e6、数据修正：根据问题的性质，修正错误的数据或更新数据处理逻辑，确保未来的数据一致性；

33、e7、重新验证：对修正后的数据进行重新验证，确保所有问题已得到解决，数据的一致性和准确性得到恢复。

34、优选的，所述数据填充模块的操作方法具体包括：

35、f1、将验证后的数据填充到维度树相应的单元格中，填充过程中使用加权平均的计算方法，加权平均数的计算公式为：；其中wm是权重，xm是值，m表示第m个数据点；

36、f2、实现更新策略，依据不同的业务需求进行直接覆盖、增量更新或合并更新的策略；

37、f3、在填充过程中，采用锁机制或事务处理来确保多个线程或进程在更新同一单元格时的数据一致性；

38、f4、对于非关键性单元格的更新，采用异步策略以提高系统的响应速度和吞吐量；

39、f5、进行性能测试时，评估处理时间tprocess、吞吐量throughput指标。

40、优选的，数据填充步骤包括：

41、f3.1、定位目标位置tp：使用维度树的结构信息和目标填充位置tp的路径信息，在维度树中定位到具体的填充位置；

42、f3.2、数据格式化与填充：将预处理后的数据按照目标格式fg进行格式化，将格式化后的数据填充到目标位置tp；

43、f3.3、验证与反馈：

44、f3.3.1、验证数据是否成功填充到目标位置，并检查数据的完整性和准确性；

45、f3.3.2、根据需要，向系统管理员或用户反馈填充结果，包括成功信息、错误日志或警报通知。

46、优选的，所述系统监控维护模块的操作方法具体包括：

47、g1、监控系统性能指标，包括cpu使用率、内存使用率；

48、g2、根据监控数据调整缓存大小csize、线程数tthreads、分片数量dp的参数；

49、g3、编写自动化测试脚本以覆盖不同的数据处理场景，进行系统性能监控和参数调整测试。

50、优选的，所述调整缓存大小csize、线程数tthreads、分片数量dp的参数的步骤为：

51、g2.1、设定cpu使用率阈值为ycpu，内存使用率阈值为ymtu，并记录cpu使用率、内存使用率、吞吐量、缓存命中率指标；

52、g2.2、缓存大小csize调整：

53、如果缓存命中率csize低：增加缓存大小csize，以减少对后端存储的访问；

54、如果内存使用率接近或超过阈值：减少缓存大小csize；

55、g2.3、线程数tthreads调整：

56、如果cpu使用率低于阈值的一半：增加线程数tthreads，增加吞吐量；

57、如果cpu使用率接近或超过阈值：减少线程数tthreads；

58、g2.4、分片数量dp调整：

59、如果处理大数据集时系统响应慢：增加分片数量dp以分散处理压力；

60、如果系统资源的cpu、内存利用率不均衡：逐步调整分片数量dp，直至资源平衡使用；

61、g2.5、迭代调整与测试：

62、重复测试：每次调整参数后，重新运行性能测试，记录新的性能指标数据；

63、评估效果：对比调整前后的性能指标，评估调整是否有效；

64、持续监控：在参数调整后，持续监控系统状态，确保系统稳定运行在阈值范围内。

65、本发明提供了维度树的数据单元格集中获取与填充系统及操作方法。与现有技术相比具备以下有益效果：

66、1、该维度树的数据单元格集中获取与填充系统，通过精细设计的数据模型与架构，特别是缓存策略、数据分片与分区方案，显著提升了数据访问与更新的效率与可扩展性。其次，引入并行查询与计算模块，结合增量聚合与数据压缩技术，大幅降低了计算资源消耗，提升了处理速度。再者，数据验证模块的加入，确保了数据的准确性和合法性，增强了系统的可靠性。此外，数据填充模块中的加权平均计算与灵活的更新策略，结合锁机制或事务处理，有效保障了数据一致性，同时异步策略提升了非关键性单元格更新的效率。最后，系统监控维护模块的实时调整能力，保障了系统性能的稳定与优化，整体提升了系统的可用性、响应速度和吞吐量。

67、2、该维度树的数据单元格集中获取与填充系统的操作方法，通过详细分析数据源特性及目标填充位置，增强了系统的数据适配性和灵活性，使得系统能够更高效地处理不同类型的数据源和目标格式。其次，数据模型设计的细化，特别是单元格存储结构和访问方式的明确，以及节点存储信息的详细规划，为后续的数据处理提供了坚实的基础，提高了数据处理的准确性和效率。而在系统架构层面，引入缓存策略、数据分片与分区策略，显著提升了系统处理高频访问单元格的能力，降低了对原始数据源的依赖，同时通过并行处理实现了任务的均衡分配，提高了系统的整体性能和可扩展性。

68、3、该维度树的数据单元格集中获取与填充系统的操作方法，数据预处理通过精细的清洗过程，结合阈值判定异常值，有效提升了数据质量，为后续处理奠定了坚实基础。并行查询与计算模块则通过多线程/多进程技术结合增量聚合和数据压缩技术，显著降低了计算复杂度和存储需求。增量聚合减少了重复计算，提高了处理效率；数据压缩则进一步减少了数据占用空间，加快了数据传输和处理速度。这些改进共同提升了系统的整体性能和数据处理效率，为用户提供了更快、更准确的数据服务。

69、4、该维度树的数据单元格集中获取与填充系统的操作方法，通过源数据验证、维度树内已有数据验证、跨单元格一致性检查等多重验证手段，显著提高了数据的准确性和可靠性。记录与报告机制以及问题追溯能力，使得数据问题能够被及时发现并有效解决。数据修正与重新验证的闭环流程，确保了数据一致性和准确性的持续恢复，为用户提供了更高质量的数据保障。这些改进共同提升了数据处理的可信度和系统的整体性能。

70、5、该维度树的数据单元格集中获取与填充系统的操作方法，引入了加权平均计算方法和灵活的更新策略，提高了数据填充的准确性和灵活性。同时，通过锁机制或事务处理确保了数据一致性，避免了并发更新时的冲突问题。异步更新策略则优化了非关键性单元格的更新效率，提升了系统响应速度和吞吐量。性能测试的引入，使得系统性能调优有据可依，进一步提升了整体数据处理能力和用户体验。这些改进共同增强了数据填充模块的健壮性和高效性。

71、6、该维度树的数据单元格集中获取与填充系统的操作方法，通过实时监控性能指标，并基于预设阈值自动调整缓存、线程数和分片数量，显著提升了系统性能调优的效率和精准度。这种自动化调整机制不仅能快速响应性能瓶颈，还能在资源利用率和性能间找到最佳平衡点，减少人工干预，提高系统稳定性和可维护性。同时，引入自动化测试脚本确保调整的有效性，形成闭环优化流程，持续保障系统高效运行。