技术新讯 > 计算推算,计数设备的制造及其应用技术 > 跨数据结构的属性值提取方法、装置、设备及介质与流程  >  正文

跨数据结构的属性值提取方法、装置、设备及介质与流程

  • 国知局
  • 2024-10-09 15:47:45

本申请适用于大数据,尤其涉及一种跨数据结构的属性值提取方法、装置、设备及介质。

背景技术:

1、在数据集成和知识图谱构建的过程中,属性值提取是一个关键任务,它旨在从知识图谱中定位和提取特定实体的属性值,以丰富和完善现有的数据集。现有技术的属性值提取方法主要依赖于预定义的逻辑规则,这些规则可以由领域专家根据领域知识和经验而制定,用于描述如何从知识图谱中的特定路径中提取到相应的属性值,但是,基于预定义的逻辑规则的方法通常需要依赖人工操作,投入大量的时间和精力来发现和制定规则,同时由于应用场景的多样性和复杂性,很难制定出能够覆盖所有情况的逻辑规则,并且,当应用需求或者数据发生细微变化的时候,可能需要修改所有的原有逻辑规则或者之前的属性值提取结果,从而增加了大量的工作量和维护成本。因此,如何提高属性值提取的速度成为亟待解决的问题。

技术实现思路

1、有鉴于此,本申请实施例提供了一种跨数据结构的属性值提取方法、装置、设备及介质,以解决提高属性值提取的速度的问题。

2、第一方面,本申请实施例提供一种跨数据结构的属性值提取方法,所述属性值提取方法包括:

3、获取图结构对应图数据和表结构对应的数据集,确定所述数据集中目标数据的属性和对应的属性值,以及确定所述图数据中每个节点的特征值,其中,所述属性包括已有属性和缺失属性;

4、根据所述目标数据的属性值和所述图数据中每个节点的特征值,计算表征所述图数据中每个节点与所述目标数据语法相似性的第一相似度值,根据所述第一相似度值,确定所述图数据中的第一候选节点;

5、针对任一第一候选节点,确定以所述第一候选节点为起点的第一特征路径,将所述目标数据中的已有属性与所述第一特征路径进行匹配,确定与所述目标数据中的已有属性相匹配的第一特征路径对应的第一候选节点为第一候选匹配节点;

6、针对任一第一候选匹配节点,根据所述第一候选匹配节点的特征向量和所述目标数据的属性向量,计算表征所述第一候选匹配节点与所述目标数据语义相似性的第二相似度值,根据所述第二相似度值,确定与所述目标数据表征同一实体的第一匹配节点;

7、针对任一匹配节点,确定以所述第一匹配节点为起点的第二特征路径,将所述目标数据中的缺失属性与所述第二特征路径进行匹配,确定与所述目标数据中的缺失属性相匹配的第二路径对应的特征值为第一候选属性值,对所有的第一候选属性值进行排序,得到第一排序结果,根据所述第一排序结果,确定与所述目标数据中的缺失属性对应的批量属性值。

8、第二方面,本申请实施例提供一种跨数据结构的属性值提取装置,所述属性值提取装置包括:

9、第一获取模块,用于获取图结构对应图数据和表结构对应的数据集,确定所述数据集中目标数据的属性和对应的属性值,以及确定所述图数据中每个节点的特征值,其中,所述属性包括已有属性和缺失属性;

10、第一计算模块,用于根据所述目标数据的属性值和所述图数据中每个节点的特征值,计算表征所述图数据中每个节点与所述目标数据语法相似性的第一相似度值,根据所述第一相似度值,确定所述图数据中的第一候选节点;

11、第一匹配模块,用于针对任一第一候选节点,确定以所述第一候选节点为起点的第一特征路径,将所述目标数据中的已有属性与所述第一特征路径进行匹配,确定与所述目标数据中的已有属性相匹配的第一特征路径对应的第一候选节点为第一候选匹配节点;

12、第二计算模块,用于针对任一第一候选匹配节点,根据所述第一候选匹配节点的特征向量和所述目标数据的属性向量,计算表征所述第一候选匹配节点与所述目标数据语义相似性的第二相似度值,根据所述第二相似度值,确定与所述目标数据表征同一实体的第一匹配节点;

13、第二匹配模块,用于针对任一匹配节点,确定以所述第一匹配节点为起点的第二特征路径,将所述目标数据中的缺失属性与所述第二特征路径进行匹配,确定与所述目标数据中的缺失属性相匹配的第二路径对应的特征值为第一候选属性值,对所有的第一候选属性值进行排序,得到第一排序结果,根据所述第一排序结果,确定与所述目标数据中的缺失属性对应的批量属性值。

14、第三方面,本申请实施例提供一种计算机设备,所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的跨数据结构的属性值提取方法。

15、第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的跨数据结构的属性值提取方法。

16、本申请实施例与现有技术相比存在的有益效果是:本申请通过根据目标数据集中的目标数据的属性值和图数据的特征值,计算表征图数据中每个节点与目标数据语法相似性的第一相似度值,根据第一相似度值,确定第一候选节点,将目标数据中的已有属性与第一候选节点对应的第一特征路径进行匹配,得到第一候选匹配节点,根据第一候选匹配节点的特征向量和目标数据的属性向量,计算表征第一候选匹配节点与目标数据语义相似性的第二相似度值,根据第二相似度值,确定与目标数据表征同一实体的第一匹配节点,将目标数据中的缺失属性与第一匹配节点对应的第二特征路径进行匹配,得到第一候选属性值,对所有的第一候选属性值进行排序,确定与缺失属性相匹配的批量属性值。其中,通过第一相似度值,筛选得到与目标数据具有语法相似性的第一候选节点,通过已有属性对第一候选节点进行筛选,通过第二相似度值,筛选得到与目标数据同时具有语法相似性和语义相似性的第一匹配节点,实现了属性和路径的自动化匹配,降低了匹配成本,在提高了筛选得到第一匹配节点的速度和灵活性的基础上,也提高了筛选得到的第一匹配节点的准确性,同时,将缺失属性与第一匹配节点对应的第二特征路径进行匹配,得到第一候选属性值,并进行排序,得到缺失属性对应的批量属性值,在提高了缺失属性的属性值提取速度和灵活性的基础上,也提高了提取到的属性值的准确性。

技术特征:

1.一种跨数据结构的属性值提取方法,其特征在于,所述属性值提取方法包括:

2.根据权利要求1所述的跨数据结构的属性值提取方法,其特征在于,所述根据所述目标数据的属性值和所述图数据中每个节点的特征值,计算表征所述图数据中每个节点与所述目标数据语法相似性的第一相似度值,根据所述第一相似度值,确定所述图数据中的第一候选节点,包括:

3.根据权利要求1所述的跨数据结构的属性值提取方法,其特征在于,所述针对任一第一候选匹配节点,根据所述第一候选匹配节点的特征向量和所述目标数据的属性向量,计算表征所述第一候选匹配节点与所述目标数据语义相似性的第二相似度值,根据所述第二相似度值,确定与所述目标数据表征同一实体的第一匹配节点,包括:

4.根据权利要求1所述的跨数据结构的属性值提取方法,其特征在于,所述属性值提取方法还包括:

5.根据权利要求4所述的跨数据结构的属性值提取方法,其特征在于,在所述在所述图数据中增加或者删除目标特征边得到更新图数据后,还包括:

6.根据权利要求4所述的跨数据结构的属性值提取方法,其特征在于,所述根据所述关联特征路径,确定所述第一待修改数据中缺失属性对应的增量属性值,包括:

7.根据权利要求4所述的跨数据结构的属性值提取方法,其特征在于,所述根据所述更新图数据对所述第二待修改数据中缺失属性对应的属性值进行重算,得到所述第二待修改数据中缺失属性对应的增量属性值,包括:

8.一种跨数据结构的属性值提取装置,其特征在于,所述属性值提取装置包括:

9.一种计算机设备,其特征在于,所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的跨数据结构的属性值提取方法。

10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的跨数据结构的属性值提取方法。

技术总结本申请适用于大数据技术领域,尤其涉及一种跨数据结构的属性值提取方法、装置、设备及介质。该方法根据目标数据集中目标数据的属性值和图数据的特征值,计算表征图数据中节点与目标数据语法相似性的第一相似度值,确定第一候选节点,将目标数据中的已有属性与第一候选节点的第一特征路径进行匹配,确定第一候选匹配节点,根据第一候选匹配节点的特征向量和目标数据的属性向量,计算表征第一候选匹配节点与目标数据语义相似性的第二相似度值,确定与目标数据表征同一实体的第一匹配节点,将目标数据中的缺失属性与第一匹配节点的第二特征路径进行匹配,确定第一候选属性值,并进行排序,确定与缺失属性对应的批量属性值。提高了属性值提取的速度。技术研发人员:谢珉,王尧舒,樊文飞,晏梦懿受保护的技术使用者:深圳计算科学研究院技术研发日:技术公布日:2024/9/26

本文地址:https://www.jishuxx.com/zhuanli/20240929/310155.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。