技术新讯 > 计算推算,计数设备的制造及其应用技术 > 具有校验机制的数据血缘生成方法、装置、设备及介质与流程 > 正文

具有校验机制的数据血缘生成方法、装置、设备及介质与流程

国知局
2024-11-21 11:50:04

本申请涉及数据处理，特别是涉及一种具有校验机制的数据血缘生成方法、装置、设备及介质。

背景技术：

1、数据血缘（data lineage）是指数据在其整个生命周期中，从产生、存储、处理、转换、传播到最终使用的各个阶段中，所经历的所有步骤和关联关系的记录。这种记录类似于人类的家族谱系，能够追踪数据的来源、流向、处理过程和变化历史。

2、传统技术中，生成数据血缘的通常做法如下：（1）建立统一的元数据管理平台：统一记录和管理所有数据的定义、来源、流转过程及其在不同系统中的状态；（2）实施标准化的数据治理策略：制定统一的数据命名、分类和流转规则，减少因个人或团队差异导致的误差；（3）采用自动化的血缘捕捉工具：利用自动化工具跟踪数据流向，减少手动录入的错误，并提高更新效率；（4）进行定期的血缘校验与审计：定期对系统中的血缘关系进行校验和审计，及时发现并纠正偏差。

3、然而，目前的数据血缘生成方式中，所生成的数据血缘关系的准确性缺乏足够的数据支撑。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种能够提高所生成的数据血缘关系准确性的具有校验机制的数据血缘生成方法、装置、设备及介质。

2、第一方面，本申请提供了一种具有校验机制的数据血缘生成方法，包括：

3、获取待分类的任务数据及任务数据的属性信息；

4、对属性信息进行解析，得到任务数据对应的第一数据血缘结果，并将第一数据血缘结果作为任务数据的血缘关系存储至数据库；数据库中存储有多个任务数据及其对应的血缘关系；

5、将任务数据及属性信息输入血缘关系提取模型，得到任务数据对应的第二数据血缘结果；

6、当第一数据血缘结果和第二数据血缘结果不一致，将数据库中的血缘关系更新为第二数据血缘结果。

7、在其中一个实施例中，血缘关系提取模型是通过以下方法得到的：

8、提取数据库中的任务数据及其对应的血缘关系，构成第一数据集；

9、获取工作流中产生的实例数据，构成第二数据集；

10、使用第一数据集和第二数据集训练初始血缘关系提取模型，以调整初始血缘关系提取模型的参数，得到训练好的血缘关系提取模型。

11、在其中一个实施例中，血缘关系提取模型为k近邻模型；

12、使用第一数据集和第二数据集训练初始血缘关系提取模型，包括：

13、使用第一数据集作为k近邻模型的初始样本集，对第二数据集中的实例数据进行分类，得到实例数据对应的血缘关系；

14、将实例数据及其对应的血缘关系合并入初始样本集，得到k近邻模型的预测样本集。

15、在其中一个实施例中，调整初始血缘关系提取模型的参数，包括：

16、调整k近邻模型的预测类别、调整k近邻模型的距离度量方法和调整k近邻模型的k值。

17、在其中一个实施例中，对属性信息进行解析，得到任务数据对应的第一数据血缘结果，包括：

18、对属性信息进行解析，以生成与属性信息相对应的抽象语法树；抽象语法树用于表征属性信息中所包含的词法信息、语法信息和语义信息；

19、对每一棵抽象语法树进行层级节点划分，并根据多棵有依赖关系的抽象语法树之间的依赖关系，构建任务数据对应的第一数据血缘结果。

20、在其中一个实施例中，根据多棵有依赖关系的抽象语法树之间的依赖关系，构建任务数据对应的第一数据血缘结果，包括：

21、拆分抽象语法树，以得到抽象语法树的多个子语句；

22、根据多个子语句确定抽象语法树所包含的数据血缘关系；

23、在抽象语法树拆分完毕的情况下，根据数据血缘关系对抽象语法树进行解析以得到结构化查询语言脚本的血缘数据。

24、第二方面，本申请还提供了一种具有校验机制的数据血缘生成装置，包括：

25、信息获取模块，用于获取待分类的任务数据及任务数据的属性信息；

26、解析模块，用于对属性信息进行解析，得到任务数据对应的第一数据血缘结果，并将第一数据血缘结果作为任务数据的血缘关系存储至数据库；数据库中存储有多个任务数据及其对应的血缘关系；

27、提取模块，用于将任务数据及属性信息输入血缘关系提取模型，得到任务数据对应的第二数据血缘结果；

28、更新模块，用于当第一数据血缘结果和第二数据血缘结果不一致，将数据库中的血缘关系更新为第二数据血缘结果。

29、第三方面，本申请还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如本申请第一方面所述的任一项方法的步骤。

30、第四方面，本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如本申请第一方面所述的任一项方法的步骤。

31、第五方面，本申请还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如本申请第一方面所述的任一项方法的步骤。

32、上述具有校验机制的数据血缘生成方法、装置、设备及介质，通过获取待分类的任务数据及任务数据的属性信息；对属性信息进行解析，得到任务数据对应的第一数据血缘结果，并将第一数据血缘结果作为任务数据的血缘关系存储至数据库；将任务数据及属性信息输入血缘关系提取模型，得到任务数据对应的第二数据血缘结果；当第一数据血缘结果和第二数据血缘结果不一致，将数据库中的血缘关系更新为第二数据血缘结果，实现了对于已生成的数据血缘关系的校验，提高了所生成的数据血缘关系的准确性。

技术特征：

1.一种具有校验机制的数据血缘生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述血缘关系提取模型是通过以下方法得到的：

3.根据权利要求2所述的方法，其特征在于：

4.根据权利要求3所述的方法，其特征在于，所述调整所述初始血缘关系提取模型的参数，包括：

5.根据权利要求1至4任意一项所述的方法，其特征在于，所述对所述属性信息进行解析，得到所述任务数据对应的第一数据血缘结果，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据多棵有依赖关系的所述抽象语法树之间的依赖关系，构建所述任务数据对应的第一数据血缘结果，包括：

7.一种具有校验机制的数据血缘生成装置，其特征在于，所述装置包括：

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

技术总结本申请涉及一种具有校验机制的数据血缘生成方法、装置、设备及介质。所述方法包括：获取待分类的任务数据及任务数据的属性信息；对属性信息进行解析，得到任务数据对应的第一数据血缘结果，并将第一数据血缘结果作为任务数据的血缘关系存储至数据库；数据库中存储有多个任务数据及其对应的血缘关系；将任务数据及属性信息输入血缘关系提取模型，得到任务数据对应的第二数据血缘结果；当第一数据血缘结果和第二数据血缘结果不一致，将数据库中的血缘关系更新为第二数据血缘结果。采用本方法能够对任务数据的血缘关系进行双重校验，提高了所生成的数据血缘关系的准确性。技术研发人员：李俊受保护的技术使用者：江西裕民银行股份有限公司技术研发日：技术公布日：2024/11/18