技术新讯 > 计算推算,计数设备的制造及其应用技术 > 数据血缘图驱动的相似数据发现方法及装置与流程  >  正文

数据血缘图驱动的相似数据发现方法及装置与流程

  • 国知局
  • 2024-09-05 14:34:44

本公开涉及计算机科学和数据分析领域,具体地涉及一种数据血缘图驱动的相似数据发现方法及装置。

背景技术:

1、随着5g、云计算、人工智能和物联网等技术的广泛应用,数据的规模和维度呈爆炸式增长,给数据的查找和使用带来了巨大的挑战,众多数据检索问题中,寻找与某对象最相似的对象,即最近邻搜索,成为了一个核心问题。这一任务在图片搜索、信息检索、推荐系统以及社交网络等多个领域都扮演着至关重要的角色。最近邻搜索的目标是在给定一个查询向量的情况下,按照某种距离度量,在数据库向量集合中找到与查询向量最相似的向量。

2、在实施本公开的过程中,发明人发现,现有技术至少存在以下问题:在实际应用中,很多需要同时使用、修改、查询的相似数据可能在数据内容上相似度不高,在构建数据向量集合时忽略数据的元数据信息、数据服务信息和数据修改信息,会导致查询结果仅在数据内容层面相似,因此忽略上述相似数据,导致查询结果不准确。

3、为了解决上述问题,首先需要完整、准确地描述数据的全生命周期。在数据系统中,数据元数据信息非常丰富,数据演变过程十分复杂,应用场景也多种多样。这些信息随着时间推移而发生变化,而通过人工手段难以全面梳理。

技术实现思路

1、鉴于上述问题,本公开提供了一种数据血缘图驱动的相似数据发现方法、装置、设备、介质和程序产品。

2、根据本公开的第一个方面,提供了一种数据血缘图驱动的相似数据发现方法,包括:对数据空间重复以下操作,直至数据空间的多个子空间各自包括的数据节点的数量均小于或等于预设数量:对于每个节点数量大于预设数量的空间结构,其中,空间结构包括数据空间和数据空间的多个子空间,在空间结构中随机选择一个数据节点作为初始数据节点;基于空间结构中包括的其他数据节点与初始数据节点之间的节点距离,确定目标数据节点;基于初始数据节点和目标数据节点,确定用于划分空间结构的超平面;基于空间结构和超平面,确定数据空间的多个子空间;基于数据空间和多个子空间,确定包括多个数据节点的数据二叉树,其中,数据二叉树的叶子节点包括多个数据节点,数据二叉树的分支节点包括超平面;以及基于目标查询信息,从数据二叉树中确定查询结果;其中,数据空间是按照以下方法确定的:确定多个数据血缘图以及多个数据血缘图各自包括的多个数据节点各自的节点特征;针对每个数据血缘图,基于多个节点特征,确定数据血缘图的数据特征;基于多个数据特征,建立数据空间,其中,数据空间包括多个图节点,每个图节点与一个数据血缘图相对应。

3、根据本公开的实施例,基于空间结构中包括的其他数据节点与初始数据节点之间的节点距离,确定目标数据节点,包括:确定初始数据节点与空间结构中包括的其他数据节点之间各自的节点距离;基于多个节点距离,确定节点总距离;基于多个节点距离和节点总距离,确定多个其他数据节点各自的距离比;以及将多个距离比作为多个其他数据节点各自的选择概率,在多个其他数据节点中选择目标数据节点。

4、根据本公开的实施例,超平面与初始数据节点之间的距离和目标数据节点之间的距离相等;基于空间结构和超平面,确定数据空间的多个子空间,包括:基于超平面,将空间结构中与初始数据节点同侧的部分确定为第一子空间;以及基于超平面,将空间结构中与目标数据节点同侧的部分确定为第二子空间,其中,第一子空间与第二子空间为同深度关系。

5、根据本公开的实施例,基于数据空间和多个子空间,确定包括多个数据节点的数据二叉树,包括:基于每个子空间,建立与子空间对应的二叉树;以及将同深度关系的子空间对应的二叉树进行两两组合,直至数据空间中不包括未组合的二叉树,得到数据二叉树,其中,数据二叉树中的每个非叶子节点表征一个超平面。

6、根据本公开的实施例,基于目标查询信息,从数据二叉树中确定查询结果,包括:确定目标查询信息的信息特征;基于目标查询信息的信息特征,在数据二叉树中进行多次匹配,得到叶子节点;以及将叶子节点对应的多个数据节点确定为查询结果。

7、根据本公开的实施例,基于目标查询信息的信息特征,在数据二叉树中进行多次匹配,得到叶子节点,包括:对数据二叉树进行如下操作,直至确定叶子节点:从数据二叉树的根节点开始,将目标查询信息的信息特征与非叶子节点的节点特征进行比对,确定查找方向;以及按照查找方向,确定数据二叉树的目标子树。

8、根据本公开的实施例,确定数据血缘图以及数据血缘图包括的多个数据节点各自的节点特征,包括:基于多个数据各自的元数据信息,确定多个数据各自的文本内容和操作记录;基于多个数据各自的文本内容,确定对应的多个数据节点;基于数据的操作记录,确定与数据节点对应的多个附加节点;基于多个数据节点和多个附加节点,确定数据血缘图,其中,数据血缘图包括的多个边用于表征操作以及与操作相对应的操作时间;以及针对每个数据节点,利用自然语言处理模型处理数据节点和与数据节点对应的多个附加节点,得到数据节点的节点特征。

9、根据本公开的实施例,数据血缘图驱动的相似数据发现方法还包括:在数据的元数据信息发生变化的情况下,确定变化类别,其中,变化类别包括数据更新和数据删除;基于变化类别,确定对数据血缘图的更新内容;以及基于更新内容,对数据血缘图进行更新,得到更新后的数据血缘图。

10、根据本公开的实施例,基于更新内容,对数据血缘图进行更新,得到更新后的数据血缘图,包括:在变化类别为数据更新的情况下,基于数据节点和与数据节点对应的多个附加节点,在数据血缘图中创建更新后的数据节点和与更新后的数据节点对应的多个附加节点;将更新后的数据节点与数据节点利用边进行连接,得到更新后的数据血缘图;以及在变化类别为数据删除的情况下,基于数据删除的操作时间,在数据血缘图中添加与数据节点对应的附加节点,得到更新后的数据血缘图。

11、本公开的第二方面提供了一种数据血缘图驱动的相似数据发现装置,包括:

12、对数据空间重复使用以下模块进行操作,直至数据空间的多个子空间各自包括的数据节点的数量均小于或等于预设数量:

13、对于每个节点数量大于预设数量的空间结构,其中,空间结构包括数据空间和数据空间的多个子空间,

14、节点选择模块,用于在空间结构中随机选择一个数据节点作为初始数据节点;

15、节点确定模块,用于基于空间结构中包括的其他数据节点与初始数据节点之间的节点距离,确定目标数据节点;

16、超平面确定模块,用于基于初始数据节点和目标数据节点,确定用于划分空间结构的超平面;

17、子空间确定模块,用于基于空间结构和超平面,确定数据空间的多个子空间;

18、二叉树确定模块,用于基于数据空间和多个子空间,确定包括多个数据节点的数据二叉树,其中,数据二叉树的叶子节点包括多个数据节点,数据二叉树的分支节点包括超平面;以及

19、数据血缘图驱动的相似数据发现模块,用于基于目标查询信息,从数据二叉树中确定查询结果;

20、其中,数据空间是按照以下方法确定的:

21、确定多个数据血缘图以及多个数据血缘图各自包括的多个数据节点各自的节点特征;

22、针对每个数据血缘图,基于多个节点特征,确定数据血缘图的数据特征;

23、基于多个数据特征,建立数据空间,其中,数据空间包括多个图节点,每个图节点与一个数据血缘图相对应。

24、本公开的第三方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个计算机程序,其中,上述一个或多个处理器执行上述一个或多个计算机程序以实现上述方法的步骤。

25、本公开的第四方面还提供了一种计算机可读存储介质,其上存储有计算机程序或指令,上述计算机程序或指令被处理器执行时实现上述方法的步骤。

26、本公开的第五方面还提供了一种计算机程序产品,包括计算机程序或指令,上述计算机程序或指令被处理器执行时实现上述方法的步骤。

27、根据本公开的实施例,利用多个数据血缘图构建数据拓图,并基于其他数据节点与初始数据节点之间的节点距离,确定目标数据节点,通过初始数据节点与目标数据节点之间的超平面将数据空间划分为两个子空间,直至子空间中的数据节点的数量小于或等于预设数量,建立数据二叉树,以便基于目标查询信息,从数据二叉树中确定查询结果。由于数据空间包括全部数据,因此对数据空间进行处理能够保证查询结果的全面性和准确性,通过数据预处理提取数据节点的节点特征,节省了数据血缘图驱动的相似数据发现过程中的数据处理时间,提高了数据血缘图驱动的相似数据发现的效率。通过节点距离确定目标数据节点,并确定对数据空间的划分方式,划分效率更高,建立的数据二叉树结构更接近平衡二叉树,能够进一步提高查询效率。

本文地址:https://www.jishuxx.com/zhuanli/20240905/287065.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。