技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种融合字词和关系信息的中文实体关系联合抽取方法  >  正文

一种融合字词和关系信息的中文实体关系联合抽取方法

  • 国知局
  • 2024-08-22 14:52:27

本发明属于计算机信息处理技术,具体涉及一种融合字词和关系信息的中文实体关系联合抽取方法。

背景技术:

1、随着信息技术的快速发展,互联网中信息爆炸式增长,如何准确高效地从互联网大量杂乱的信息中提取有用的结构化信息成为了当务之急。抽取后的结构化数据可以高效构建领域知识图谱,以实现诸如问答系统,智能推荐系统等智能服务系统,提高知识的利用率。

2、目前实体关系抽取的方法可以分为两种类型:流水线抽取方法和联合抽取方法。早期实体关系抽取任务主要采取流水线的抽取方法,即首先对给定的句子进行命名实体识别,再通过多分类器来计算实体之间存在的关系,以此进行关系分类。流水线抽取的方法实现容易且直观。然而,其缺点同样明显,流水线的抽取方法将实体识别和关系抽取分为两个子任务,忽略了两个任务之间的内在联系,造成了任务的明显割裂感。同时实体识别所产生的误差会继续传递到关系抽取任务中即误差积累问题,导致了模型效果较差。为了解决以上问题联合抽取方法孕育而生,其将实体识别以及关系抽取看作整体任务,解决了流水线抽取方法的不足。

3、大多数实体关系抽取方法通过序列标注的方法将每一个词标记为一个标签,此时认定每一个实体只能参与一个关系三元组,造成无法很好解决实体重叠问题即一个实体可能参与多个三元组。目前对于中文文本的实体关系联合抽取模型数量较少,同时存在诸如未利用先验关系信息和未针对中文的语法特点进行实体关系联合抽取等问题。

技术实现思路

1、为了克服现有中文实体关系抽取所存在的不足,提出一种融合字词和关系信息的中文实体关系联合抽取方法,关注中文语法特点,有效提高中文文本实体关系联合抽取准确率。

2、实现本发明的技术解决方案为:一种融合字词和关系信息的中文实体关系联合抽取方法,包括以下步骤:

3、步骤s1、通过网络爬虫技术获取非结构化中文文本数据,收集书籍中结构化、半结构化的中文文本数据,将非结构化、半结构化和结构化中文文本数据进行数据清洗和预处理,剔除杂乱错误的数据,得到k条包含实体和关系的结构化中文文本数据,1000<k<10000,构成训练样本集,转入步骤s2。

4、步骤s2、构建中文分词器,将输入文本进行分词处理,获取字、词两种不同细粒度的文本数据,转入步骤s3。

5、步骤s3、构建字词位置上下文信息融合编码器,利用分词后的字、词两种细粒度的文本数据以及位置、上下文信息,结合字、词细粒度融合机制,获取包含字、词、位置、上下文信息的编码词向量,转入步骤s4。

6、步骤s4、构建头实体识别器,对包含字、词、位置、上下文信息的编码词向量进行解码,得到可能的头实体以及头实体信息,转入步骤s5。

7、步骤s5、构建先验关系交叉融合编码器,将训练样本集中包含的关系先验知识、步骤s4得到的头实体信息以及包含字、词、位置、上下文信息的编码词向量进行融合,获取多信息融合编码词向量,转入步骤s6。

8、步骤s6、构建尾实体和关系联合解码器,对多信息融合编码词向量进行解码得到尾实体与关系,转入步骤s7。

9、步骤s7、利用训练样本集对字词位置上下文信息融合编码器、头实体识别器、先验关系交叉融合编码器、尾实体和关系联合解码器进行训练,得到训练好的字词位置上下文信息融合编码器、头实体识别器、先验关系交叉融合编码器、尾实体和关系联合解码器,转入步骤s8。

10、步骤s8、通过网络爬虫技术获取非结构化中文文本数据,收集书籍中结构化半结构化中文文本数据,将非结构化、半结构化和结构化中文文本数据进行数据预处理和清洗,剔除杂乱错误的数据,得到p条包含实体和关系的结构化中文文本数据,400<p<4000,构成测试样本集,转入步骤s。

11、步骤s9、将测试样本集通过中文分词器分词后输入到训练好的字词位置上下文信息融合编码器、头实体识别器、先验关系交叉融合编码器、尾实体和关系联合解码器,测试网络的准确率。

12、本发明与现有技术相比,其显著优点在于:

13、(1)从中文语法特点出发,将中文文本进行字、词两种细粒度的分词处理,使本发明可以更好得针对中文文本学习语义信息,提高中文实体关系联合抽取准确率。

14、(2)首次提出字、词细粒度融合机制,将中文文本分词得到的字细粒度编码词向量与词细粒度编码词向量充分融合,提高编码词向量的信息表示能力。

15、(3)将先验关系融入实体关系联合抽取任务,从先验关系中进一步提取语义信息,提高尾实体和关系识别准确率。

16、(4)提出先验关系交叉融合机制,将先验关系进行编码同时结合头实体信息,与包含字、词、位置、上下文信息的编码词向量进行融合,建立了头实体与尾实体、关系间的内在联系。

技术特征:

1.一种融合字词和关系信息的中文实体关系联合抽取方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种融合字词和关系信息的中文实体关系联合抽取方法,其特征在于,步骤s2中,构建中文分词器,具体如下:

3.根据权利要求2所述的一种融合字词和关系信息的中文实体关系联合抽取方法,其特征在于,步骤s3中,构建字词位置上下文信息融合编码器,具体如下:

4.根据权利要求3所述的一种融合字词和关系信息的中文实体关系联合抽取方法,其特征在于,步骤s4中,构建头实体识别器,具体如下:

5.根据权利要求4所述的一种融合字词和关系信息的中文实体关系联合抽取方法,其特征在于,步骤s5中,构建先验关系交叉融合编码器,具体如下:

6.根据权利要求5所述的一种融合字词和关系信息的中文实体关系联合抽取方法,其特征在于,步骤s6中,构建尾实体和关系联合解码器,具体如下:

7.根据权利要求6所述的一种融合字词和关系信息的中文实体关系联合抽取方法,其特征在于,步骤s7中,利用训练样本集对字词位置上下文信息融合编码器、头实体识别器、先验关系交叉融合编码器、尾实体和关系联合解码器进行训练,具体如下:

8.根据权利要求7所述的一种融合字词和关系信息的中文实体关系联合抽取方法,其特征在于,步骤s8、将测试样本集文本通过中文分词器分词后输入到训练好的字词位置上下文信息融合编码器、头实体识别器、先验关系交叉融合编码器、尾实体和关系联合解码器,测试训练好的网络的准确率,具体如下:

技术总结本发明公开了一种融合字词和关系信息的中文实体关系联合抽取方法,利用中文分词器获取字词两种细粒度的中文文本,提出了字词位置上下文融合编码器,实现将字、词细粒度文本、位置信息、上下文信息融合编码,获取包含字、词、位置、上下文信息的编码词向量,提出了基于先验关系交叉融合机制的编码器,将先验关系信息融入实体关系联合抽取中,本发明考虑到中文的语法特点,充分结合字信息、词信息、位置信息、关系信息,构建实体识别和关系抽取的内在联系,克服了现有关系抽取中所存在的不足,有效提高的中文文本实体关系联合抽取准确率。技术研发人员:王军,李琦,李玉莲,张胜杰,吴保磊,寇月苹受保护的技术使用者:中国矿业大学技术研发日:技术公布日:2024/8/20

本文地址:https://www.jishuxx.com/zhuanli/20240822/280201.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。