技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种融合上下文知识的远程监督关系抽取方法  >  正文

一种融合上下文知识的远程监督关系抽取方法

  • 国知局
  • 2024-07-31 23:09:13

本技术涉及计算机人工智能自然语言处理,特别涉及一种融合上下文知识的远程监督关系抽取方法。

背景技术:

1、自然语言处理技术是人工智能领域中推进人类与机器进行有效沟通和交互的重要手段。在信息时代,大量的信息以文本的形式存在于互联网、企业内部文档、新闻报道等各种来源中:如各新闻网站、微信、微博等用户发表的信息。这些文本中包含了大量的实体和它们之间的关系,例如人物之间的社交关系、药物和疾病之间的治疗关系、公司之间的并购关系等等。如何从海量的非结构化数据中提取出结构化的信息逐渐成为自然语言处理领域的研究热点。

2、关系抽取任务作为自然语言处理领域中一个重要的基础研究课题,为了可以大规模的自动构造关系抽取数据集,mintz等人在关系抽取任务中引入了远程监督学习。但是通过程监督学习构造的数据,不可避免的引入了噪声数据,且数据格式都是句子级别的,无法通过利用句子级别的上下文信息来丰富单句子的特征,达到降噪的目的。

3、目前的研究热点主要集中在以下几个方面:

4、(1)如何在不增加外部信息的情况下获取实例包内单个句子的上下文信息?由于远程监督学习的假设不可避免地引入了大量错误的标签数据,如表1所示。且句子级别的关系抽取任务都是基于单个句子的信息进行关系分类的,无法获取当前句子的上下文信息,更可能会因为知识不足,而产生错误的关系分类结果。

5、表1句子级远程监督关系抽取数据集示例表

6、

7、表1中,是nyt10数据集(中译)中的一个错误标签,其中远程监督学习将实例包中所有实体对(亚马逊,杰夫·贝索斯)的句子都赋予关系“/企业/创始人/商人”。

8、(2)如何通过获取实例包级别的信息构造句子的实例包外上下文信息?经过对远程监督关系抽取任务常用的数据集nyt 10进行统计,得到有超过一半的实例包中仅含有一个句子,均无法获取其实例包内的上下文信息。(3)如何通过增加其他信息来降低噪声句子对关系抽取效果的影响?远程监督数据集受限于自身的缺点,样本分布不均衡且包含有大量的噪声信息,需考虑通过增加其他信息来降低噪声信息对关系抽取效果的影响。

技术实现思路

1、本技术提供了一种融合上下文知识的远程监督关系抽取方法,可通过为句子级别的远程监督关系抽取数据集构造句子级的上下文信息,以此来降低噪声数据对关系抽取效果的影响。

2、本技术提供一种融合上下文知识的远程监督关系抽取方法,方法包括:

3、步骤一、根据篇章级别关系抽取数据集中特有的证明句和具有上下文的篇章信息,将句子级别的远程监督关系抽取数据集中的每个句子作为证明句,构造含有包内上下文信息的篇章级数据;

4、步骤二、针对经过步骤一之后不含实例包内上下文的句子,构造含有实例包外上下文信息的篇章级数据;

5、步骤三、将每个句子的篇章信息进行向量化表示,得到每个句子含有上下文信息的隐藏层向量、实体的向量信息以及句子的向量信息,作为文本编码器的信息;

6、步骤四、抽取出知识图谱的编码信息;

7、步骤五、将编码之后融合上下文信息的文本信息与知识图谱信息共享,更新各自的隐藏层信息。

8、进一步地,步骤一、根据篇章级别关系抽取数据集中特有的证明句和具有上下文的篇章信息,将句子级别的远程监督关系抽取数据集中的每个句子作为证明句,构造含有实例包内上下文信息的篇章级数据,包括:

9、步骤1.1:首先对句子内容进行编码,得到每个句子的隐藏层向量;其中,隐藏层向量包括句子中每个词的信息;

10、步骤1.2:选择句子的token长度在80之内的句子,与其所在实例包的其他句子做语义相似度计算,并将相似度的结果按降序排列;

11、步骤1.3:分别在包内选择与当前句子s1的语义相似度大于固定阈值的前3个句子作为当前句子的包内上下文信息;

12、固定阈值分别选择0.6、0.7、0.8、0.9;

13、步骤1.4:按照篇章级关系抽取数据集的格式,将当前句子s1作为证明句,在构造篇章内容的时候,将当前句子s1作为第一个句子,将top 3个句子作为s1的上下文放在当前句子s1的后面,构成含有实例包内上下文信息的数据集;

14、进一步地,步骤二、针对经过步骤一之后不含包内上下文的句子,构造含有包外上下文信息的篇章级数据,包括:

15、步骤2.1:使用编码器对句子的token长度在80之内,且没有实例包内上下文信息的句子内容进行编码,得到每个句子的隐藏层向量;

16、步骤2.2:根据当前句子s2的头实体e3与尾实体e4,分别找到所有含有(e3,e4)其中一个相同实体的其他实例包,计算当前句子s2与实例包中每个句子的语义相似度,并将相似度的结果按降序排列;

17、步骤2.3:分别选择与当前句子s2的语义相似度大于固定阈值的前4个句子作为当前句子s2的实例包外上下文信息,得到含有实例包外上下文信息的句子;其中,在实例包内结果最好的阈值的基础上选择实例包外相似度的阈值;

18、步骤2.4:按照步骤1.4的方法,根据篇章级关系抽取数据集的格式,在构造篇章内容的时候,将当前句子s2作为第一个句子,将以上含有实例包外上下文的句子作为其上下文放在当前句子s2的后面,构成含有实例包外上下文信息的数据集;

19、步骤2.5:将以上含有实例包内和包外上下文信息的句子合并,作为最终的含有上下文信息的数据集。

20、进一步地,步骤三、将每个句子的篇章信息进行向量化表示,得到每个句子含有上下文信息的隐藏层向量、实体的向量信息以及句子的向量信息,作为文本编码器的信息,包括:

21、步骤3.1:对每个句子的篇章内容进行编码,计算得到整个篇章的隐藏层向量;

22、其中,隐藏层向量包括每个词的向量信息和篇章的向量信息;其中,对句子进行编码的时候,动态的控制句子的长度,最大句子长度设置为400;

23、步骤3.2:抽取出篇章中提及的向量信息:根据提及在篇章中的起始位置和结束位置,提取出篇章内所有句子的提及的隐藏层矩阵,只选择第一句话的提及向量作为构造的篇章内容的提及向量信息;

24、其中,构造的实例包内的上下文信息时,提及都是同一对实体;

25、步骤3.3:将编码之后的第0层隐藏层的向量输入到第1层,按顺序一直输入到第4层;

26、步骤3.4:文本编码器最终的每个句子si在第k维度的向量表示输出为

27、其中,;代表拼接操作,和分别代表实体e1和e2的向量表示。

28、进一步地,步骤四、抽取出知识图谱的编码信息,包括:

29、步骤4.1:从原本的句子级的关系抽取数据集中抽取出实体对与关系的(e1,r1,e2)三元组作为输入,生成上下文化的表示;

30、步骤4.2:将最后一层的三元组信息分别作为首尾实体和关系的嵌入信息;

31、词汇表v包括所有实体ε和关系r的并集及掩码[m],即v=r∪ε∪{[m]};

32、其中,假设文本和知识图谱编码器的表示具有相同的维度。

33、进一步地,步骤五、将编码之后融合上下文信息的文本信息与知识图谱信息共享,更新各自的隐藏层信息;包括:

34、步骤5.1:将文本信息与知识图谱信息的任意隐藏层的编码信息输入到双向信息共享单元;

35、步骤5.2:对输入双向信息共享单元前一层的文本信息使用门函数,控制文本信息对知识图谱的贡献程度;

36、步骤5.3:文本信息与知识图谱信息经过双向信息共享单元之后,更新各自之后隐藏层的编码信息;

37、步骤5.4:对知识图谱编码器最后一层的隐藏层的编码向量计算交叉熵损失函数,得到loss1;

38、步骤5.5:将知识图谱编码器最后一层隐藏层的信息与文本编码器最后一层隐藏层的信息拼接到一起,使用分类器预测标签,并计算损失函数,得到loss2;

39、步骤5.6:将loss1与loss2相加,计算任务上总的损失函数;并优化模型,直至损失函数收敛,即得到网络模型的最优化参数。

40、本技术为了解决句子级的远程监督关系抽取数据只能使用单个句子进行关系抽取,而没有相关的上下文信息导致关系抽取结果容易受噪声数据的影响,考虑通过构造实例包内语义相似度较高的句子作为上下文信息,增强实例包内的句子信息;

41、本技术针对无法构造实例包内上下文信息的句子,考虑利用实例包外语义相似度较高的句子对其进行信息补充,丰富其上下文信息,提高模型对单句子的理解能力。

42、本技术针对句子级别的远程监督关系抽取中的噪声数据问题,通过信息共享单元使得文本编码信息和知识图谱编码信息共享,得到更多的实体级别的编码信息。再通过将实例包内和包外的上下文信息融合,对句子级别的文本编码信息进行补充,来降低噪声数据对模型关系抽取效果的影响。

本文地址:https://www.jishuxx.com/zhuanli/20240730/196108.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。