技术新讯 > 计算推算,计数设备的制造及其应用技术 > 构建异构数据仓库的实现方法与流程 > 正文

构建异构数据仓库的实现方法与流程

国知局
2024-11-06 14:45:04

本技术涉及数据处理，尤其涉及一种构建异构数据仓库的实现方法。

背景技术：

1、在当前信息化时代，企业与组织的数据环境日益复杂，数据来源多样化，涵盖了关系数据库、nosql数据库、文本文件、日志、api接口等多种数据源，形成了所谓的“异构数据”格局。这些数据源不仅在数据格式上存在差异(如结构化、半结构化、非结构化数据)，而且在数据模型、存储方式及访问协议上也各不相同，给数据集成与分析带来了严峻挑战。

2、传统的数据仓库建设方法往往侧重于处理单一或相似数据源，难以直接应用于异构数据环境。例如，简单的etl(extract,transform,load)过程通常需要为每种数据源定制独立的数据抽取、转换逻辑，这不仅开发周期长、维护成本高，而且难以应对数据源的动态变化。此外，随着数据量的爆炸性增长，传统方法在处理大规模数据时效率低下，特别是对于实时或近实时数据分析需求响应不足。

3、特别是在处理动态业务交易数据时，由于业务逻辑复杂多变，传统静态数据模型难以灵活适应，导致更新滞后，数据时效性差，影响了决策支持系统的准确性和有效性。

技术实现思路

1、本技术的目的在于提出一种构建异构数据仓库的实现方法，用于解决或者缓解现有技术中存在的技术问题。

2、本技术实施例提供的技术方案如下：

3、一种构建异构数据仓库的实现方法，其包括：

4、步骤1、对异构数据源进行类型识别，以通过数据模式映射的方式，获取数据资产导入维度描述以及度量体系描述；

5、步骤2、基于设置的异构数据整合策略库，根据所述数据资产导入维度描述以及度量体系描述，将数据业务交易动态过程转化为动态事实表；

6、步骤3、基于构建的异构数据etl模版，根据所述动态事实表，生成并行增量etl任务；

7、步骤4、根据所述并行增量etl任务，通过搭建的异构数据访问接口，访问所述异构数据源以获取待处理异构数据资产进行处理，以构建异构数据仓库。

8、可选地，所述步骤1，包括：

9、遍历数据源连接器，以建立异构数据源和所述数据源连接器连续接关系；

10、基于所述连接关系，启动元数据抽取脚本，从所述异构数据源抽取元数据信息，所述元数据信息包括如下中的至少一种：表结构、字段名、数据类型、主键、外键、索引；

11、根据所述数据模式映射的方式，对所述元数据信息进行维度和度量解析，以获取数据资产导入维度描述以及度量体系描述。

12、可选地，所述基于所述连接关系，启动元数据抽取脚本，从所述异构数据源抽取元数据信息，包括：

13、基于所述连接关系，调用构建的异构数据源依赖库，以加载所述元数据抽取脚本；

14、基于加载的所述元数据抽取脚本，调取元数据查询模板，从所述异构数据源抽取元数据信息。

15、可选地，所述基于所述连接关系，调用构建的异构数据源依赖库，以加载所述元数据抽取脚本，包括：

16、将所述连接关系添加到抽象的数据访问层中，以在所述数据库访问层中，为不同的异构数据源配置对应的适配器模式；

17、基于所述数据访问层中为不同的异构数据源配置对应的适配器模式，调用构建的异构数据源依赖库，以加载所述元数据抽取脚本。

18、可选地，所述基于加载的所述元数据抽取脚本，调取元数据查询模板，从所述异构数据源抽取元数据信息，包括：

19、基于加载的所述元数据抽取脚本，读取不同异构数据源的连接信息、认证凭证以及查询模板路径，以动态加载对应的元数据查询模板；

20、根据加载的元数据查询模板，对所述异构数据源进行全页扫描，以从所述异构数据源抽取元数据信息。

21、可选地，所述根据所述数据模式映射的方式，对所述元数据信息进行维度和度量解析，以获取数据资产导入维度描述以及度量体系描述，包括：

22、根据所述数据模式映射的方式，对所述元数据信息上下文分析以从中抽取出维度字段和度量字段；

23、根据抽取出的维度字段和度量字段，分别构建维度层次结构以及度量字段统计；

24、根据构建的所述维度层次结构，定义维度关联键，以生成所述数据资产导入维度描述；

25、根据所述度量字段统计，进行度量识别与分类，以生成所述度量体系描述。

26、可选地，所述根据所述数据模式映射的方式，对所述元数据信息上下文分析以从中抽取出维度字段和度量字段，包括：

27、根据所述数据模式映射的方式，构建字段关系图以及业务解析逻辑；

28、根据所述字段关系图，探索所述元数据信息中字段间的依赖关系和层次关系；

29、基于所述字段间的依赖关系和层次关系，对所述元数据信息上下文分析以从中抽取出维度字段和度量字段。

30、可选地，所述根据所述数据模式映射的方式，构建字段关系图以及业务解析逻辑，包括：

31、将所述数据模式映射的方式投影到图数据结构上，以创建字段映射节点和业务映射节点，节点之间的关系通过字段映射节点和业务映射节点的边表示；

32、根据创建的字段映射节点和业务映射节点，构建字段关系图以及业务解析逻辑。

33、可选地，所述根据所述字段关系图，基于构建的正则表达式，探索所述元数据信息中字段间的依赖关系和层次关系，包括：

34、根据所述字段关系图，构建潜在角色依赖关系树；

35、基于构建的正则表达式，根据所述潜在角色依赖关系树，对所述元数据信息进行社区检测，以探索所述元数据信息中字段间的依赖关系和层次关系。

36、可选地，所述基于所述字段间的依赖关系和层次关系，对所述元数据信息上下文分析以从中抽取出维度字段和度量字段，包括：基于所述字段间的依赖关系和层次关系，根据获取到的字段名称、数据类型和描述，运用正则表达式和关键词匹配，对所述元数据信息上下文分析以从中抽取出维度字段和度量字段。

37、可选地，所述根据抽取出的维度字段和度量字段，分别构建维度层次结构以及度量字段统计，包括：

38、对抽取出的维度字段和度量字段进行外键约束，以基于所述外键约束进行主键匹配，以确定出字段间的维度层次关系；

39、基于设定的聚合函数，对所述维度层次关系进行梯度化聚合操作，并使用哈希表存储聚合操作结果，通过对所述哈希表嵌套操作以构建维度层次结构以及度量字段统计。

40、可选地，所述根据构建的所述维度层次结构，定义维度关联键，以生成所述数据资产导入维度描述，包括：

41、对构建的所述维度层次结构进行层次深度分析，以确定出每个层级中的维度关联枢纽键；

42、基于每个层级中的维度关联枢纽键，进行跨层级关联，以确定不同层级间的跨层级关联关系；

43、根据不同层级间的跨层级关联关系，生成复合键，以创建维度关联键索引；

44、基于所述维度关联键索引，定义维度关联键，并对所述维度关联键进行结构化，以生成所述数据资产导入维度描述。

45、可选地，所述根据所述度量字段统计，进行度量识别与分类，以生成所述度量体系描述，包括：

46、对所述度量字段统计，生成度量字段分布图；

47、对所述度量字段分布图特征提取，得到度量字段性质特征以进行度量识别与分类；

48、对所述度量识别与分类的结果，进行业务逻辑标签分配，以生成所述度量体系描述。

49、可选地，所述步骤2，包括：

50、对设置的异构数据整合策略库进行解析，以获取数据抽取、转换、加载的策略配置；

51、基于启动的策略与描述之间的配置脚本，根据所述数据抽取、转换、加载(etl)的策略配置，与所述数据资产导入维度描述以及度量体系描述进行线性规划匹配，以将数据业务交易动态过程转化为动态事实表。

52、可选地，所述步骤3，包括：

53、对构建的异构数据etl模版进行解析，以获取从多个异构数据获取异构数据资产时可调用的预配置步骤、转换规则和参数设置的框架，将所述可调用的预配置步骤、转换规则和参数设置的框架映射到所述动态事实表中以分配增量抽取的锚点和匹配该锚点的数据分区以生成并行增量etl任务。

54、可选地，所述步骤4，包括：根据所述并行增量etl任务，提取增量抽取的锚点和匹配该锚点的数据分区，基于所述增量抽取的锚点和匹配该锚点的数据分区提取从多个异构数据获取异构数据资产时的预配置步骤、转换规则和参数设置的框架，以基于预配置步骤、转换规则和参数设置的框架访问所述异构数据源以获取待处理异构数据资产进行处理，以构建异构数据仓库。

55、本技术中提出的构建异构数据仓库的实现方法，通过步骤1中的类型识别与数据模式映射，该方案能够智能识别不同来源和格式的数据(如结构化、半结构化、非结构化数据)，并根据这些数据的特点生成统一的数据资产导入维度描述和度量体系描述。这样，无需为每种数据源单独定制etl逻辑，显著降低了开发复杂度和维护成本，提高了对异构数据源的兼容性。通过步骤2中，依据动态事实表的生成，能够灵活反映业务交易的动态变化过程，克服了传统静态数据模型的局限性。这种动态建模方法确保了数据仓库能够及时捕获并反映最新的业务状况，提升了数据的时效性和决策支持系统的准确性。通过在步骤3中，基于动态事实表生成的并行增量etl任务，能够有效利用现代计算资源的并行处理能力，加速数据抽取、转换与加载过程。与传统方法相比，这大大缩短了数据处理周期，尤其是在处理大规模数据集时，显著提高了效率，更好地满足了实时或近实时数据分析的需求。通过步骤4通过搭建的异构数据访问接口，提供了一个统一的访问层来对接各类异构数据源，简化了数据集成过程，减少了数据访问的复杂性。这不仅使得数据仓库的构建更加标准化，还确保了数据整合过程的高效与稳定，有利于长期运维和系统的扩展性。