技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种实体链接模型的训练方法及装置与流程  >  正文

一种实体链接模型的训练方法及装置与流程

  • 国知局
  • 2024-07-31 22:47:54

本发明涉及计算机,尤其涉及一种实体链接模型的训练方法及装置。

背景技术:

1、目前,由于知识图谱中存在大量实体,且存在较多的表述相似甚至相同的实体,但这些实体却属于知识图谱中的不同实体节点。换言之,识别结果中的目标实体可能带有歧义,因此需要将识别结果中的目标实体对应到知识图谱中正确的实体上。具体的,将识别出的目标实体和知识图谱中的候选实体进行匹配,找出与之最相似的实体进行链接,完成对目标实体的链接处理。

2、相关技术中,在对目标实体的链接处理时,需要基于大量的特定任务的注释数据来训练相应模型,从而基于训练后的模型进行实体链接处理,这样方式获得的模型在训练时过于依赖大量准确的标注样本,降低了模型的训练效率。

技术实现思路

1、本发明实施例的目的是提供一种实体链接模型的训练方法及装置,用于提高对实体链接模型的训练效率。

2、第一方面,本发明实施例提供了一种实体链接模型的训练方法,所述方法包括:

3、对文本构建对应的查询子图,所述查询子图包括文本中的待链接实体、文本中的关联实体以及所述待链接实体与所述关联实体之间的对应关系;

4、在预设知识图谱中,截取与文本中的所述待链接实体有关联关系的每个候选实体对应的局部子图;所述预设知识图谱包括所述文本对应的业务场景的实体;

5、基于所述文本对应的所述查询子图和所述局部子图,确定所述待链接实体和每个候选实体的标注匹配值,基于获得的所述标注匹配值、候选实体以及所述待链接实体确定训练样本,并基于多个文本所对应的所有所述训练样本构建训练集;

6、将所述训练集输入到预设实体链接模型中进行训练,获得每个所述训练样本中待链接实体对应的求解匹配值;当确定所述训练集中每个训练样本对应的求解匹配值和标注匹配值的得分差属于预设范围时,将获得所述得分差的实体链接模型作为训练后的实体链接模型。

7、在一种可能的实施方式中,基于所述文本对应的所述查询子图和所述局部子图,确定所述待链接实体和每个候选实体的标注匹配值,包括:

8、基于所述查询子图和预设图嵌入算法,确定所述待链接实体的第一图节点嵌入向量;以及,

9、基于所述每个候选实体对应的局部子图和所述预设图嵌入算法,确定每个所述候选实体对应的第二图节点嵌入向量;

10、分别计算每个所述第二图节点嵌入向量与所述第一图节点嵌入向量的相似度,获得所述待链接实体和每个候选实体的标注匹配值。

11、在一种可能的实施方式中,将所述训练集输入到预设实体链接模型中进行训练,获得每个所述训练样本中待链接实体对应的求解匹配值,包括:

12、确定所述训练集中每个训练样本对应的偏置值;所述偏置值基于训练样本中的关联实体对应的候选实体与待链接实体对应的候选实体的相似度,以及关联实体的上下文表达信息与待链接实体的上下文表达信息相的相似度所确定;

13、基于所述训练集中每个训练样本中的待链接实体和候选实体的向量所计算的初始匹配值和所述偏置值,确定所述待链接实体对应的求解匹配值。

14、在一种可能的实施方式中,所述确定所述训练集中每个训练样本对应的偏置值,包括:

15、针对每个训练样本,分别执行以下操作:

16、确定与训练样本中每个关联实体对应的第二候选实体集;

17、计算所述训练样本中待链接实体对应的第一候选集中每个候选实体和所述第二候选集中每个候选实体的相似度,获得多个相似度,并从所述多个相似度中筛选数值最大的第二相似度;

18、计算所述训练样本中待链接实体对应的第一上下文表达信息和每个所述关联实体对应的第二上下文表达信息;并分别基于第一上下文表达信息和第二上下文表达信息,确定所述训练样本中待链接实体与关联实体的第三相似度;

19、基于所述第三相似度和所述第二相似度,确定所述训练样本对应的偏置值。

20、第二方面,本发明实施例提供了一种实体链接模型的训练装置,所述装置包括:

21、构建单元,用于对文本构建对应的查询子图,所述查询子图包括文本中的待链接实体、文本中的关联实体以及所述待链接实体与所述关联实体之间的对应关系;

22、截取单元,用于在预设知识图谱中,截取与文本中的所述待链接实体有关联关系的每个候选实体对应的局部子图;所述预设知识图谱包括所述文本对应的业务场景的实体;

23、确定单元,用于基于所述文本对应的所述查询子图和所述局部子图,确定所述待链接实体和每个候选实体的标注匹配值,基于获得的所述标注匹配值、候选实体以及所述待链接实体确定训练样本,并基于多个文本所对应的所有所述训练样本构建训练集;

24、训练单元,用于将所述训练集输入到预设实体链接模型中进行训练,获得每个所述训练样本中待链接实体对应的求解匹配值;当确定所述训练集中每个训练样本对应的求解匹配值和标注匹配值的得分差属于预设范围时,将获得所述得分差的实体链接模型作为训练后的实体链接模型。

25、在一种可能的实施方式中,所述确定单元,具体用于:

26、基于所述查询子图和预设图嵌入算法,确定所述待链接实体的第一图节点嵌入向量;以及,

27、基于所述每个候选实体对应的局部子图和所述预设图嵌入算法,确定每个所述候选实体对应的第二图节点嵌入向量;

28、分别计算每个所述第二图节点嵌入向量与所述第一图节点嵌入向量的相似度,获得所述待链接实体和每个候选实体的标注匹配值。

29、在一种可能的实施方式中,所述训练单元,具体用于:

30、确定所述训练集中每个训练样本对应的偏置值;所述偏置值基于训练样本中的关联实体对应的候选实体与待链接实体对应的候选实体的相似度,以及关联实体的上下文表达信息与待链接实体的上下文表达信息相的相似度所确定;

31、基于所述训练集中每个训练样本中的待链接实体和候选实体的向量所计算的初始匹配值和所述偏置值,确定所述待链接实体对应的求解匹配值。

32、在一种可能的实施方式中,所述训练单元,具体用于:

33、针对每个训练样本,分别执行以下操作:

34、确定与训练样本中每个关联实体对应的第二候选实体集;

35、计算所述训练样本中待链接实体对应的第一候选集中每个候选实体和所述第二候选集中每个候选实体的相似度,获得多个相似度,并从所述多个相似度中筛选数值最大的第二相似度;

36、计算所述训练样本中待链接实体对应的第一上下文表达信息和每个所述关联实体对应的第二上下文表达信息;并分别基于第一上下文表达信息和第二上下文表达信息,确定所述训练样本中待链接实体与关联实体的第三相似度;

37、基于所述第三相似度和所述第二相似度,确定所述训练样本对应的偏置值。

38、第三方面,本发明实施例提供了一种电子设备,包括至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明第一方面实施例提供的任一方法。

39、第四方面,本发明实施例提供了一种计算机存储介质,其中,所述计算机可读存储介质存储有计算机程序,所述计算机程序用于使计算机执行本发明第一方面实施例提供的任一方法。

40、第五方面,本发明实施例提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序代码,当所述计算机程序代码在计算机上运行时,使得计算机执行第一方面实施例提供的任一方法。

41、本发明有益效果如下:

42、在本发明实施例中,对文本构建对应的查询子图,查询子图包括文本中的待链接实体、文本中的关联实体以及待链接实体与关联实体之间的对应关系;在预设知识图谱中,截取与文本中的待链接实体有关联关系的每个候选实体对应的局部子图;预设知识图谱包括文本对应的业务场景的实体;基于文本对应的查询子图和局部子图,确定待链接实体和每个候选实体的标注匹配值。基于获得的标注匹配值、候选实体以及待链接实体确定训练样本,并基于多个文本所对应的所有训练样本构建训练集。可见,本发明实施例中可以基于预设知识图谱本身所蕴含的图节点信息确定待链接实体对应的候选实体的标注值,即无需预先大量标注数据,从而可以快速获得训练集。

43、进一步的,可以将获得的训练集输入到预设实体链接模型中进行训练,获得每个训练样本中待链接实体对应的求解匹配值;当确定训练集中每个训练样本对应的求解匹配值和标注匹配值的得分差属于预设范围时,将获得得分差的实体链接模型作为训练后的实体链接模型。这样,可以提高获得实体链接模型的效率。

44、本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

本文地址:https://www.jishuxx.com/zhuanli/20240730/194668.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。