基于GlobalPointer联合抽取的领域知识图谱构建方法与流程
- 国知局
- 2024-07-31 23:17:25
本发明属于信息处理,具体涉及基于globalpointer联合抽取的领域知识图谱构建方法。
背景技术:
1、随着人工智能与物联网的高速发展,知识图谱技术在推动智能化应用方面正发挥着日益重要的作用。知识图谱作为一种用于表示和组织结构化知识的图状数据模型,由实体、关系和属性三要素构成,形成一个大规模、连接的知识网络。垂直领域知识图谱能够高效利用各个数据之间的联系,实现知识与信息科技深度融合,推动了相关领域的发展,为专业领域发展提供了重要的知识库基础。
2、近年来,在搜索引擎、智能问答等知识图谱下游应用的驱动下,以及相关专业领域知识库的诞生,研究人员对文本数据中挖掘高质量的领域知识产生了浓厚兴趣。构建知识图谱往往需要自然语言处理方面的技术支撑,其中信息抽取技术尤为核心。信息抽取主要分为命名实体识别与关系抽取任务。
3、流水线抽取方法是先构建基于人工特征提取或非线性变换方法的实体抽取模型,再围绕识别出的实体对构建关系分类模型,从而获取能够表征原始文本语义的三元组信息,但该方法存在任务间信息无法有效交叉的问题,并且现有的联合抽取模型在处理实体间跨句、跨段和跨语义的层级性关联特征时表现不佳,尤其是三元组重叠问题上,影响信息抽取的性能。
技术实现思路
1、本发明的目的是提供基于globalpointer联合抽取的领域知识图谱构建方法,解决了传统流水式抽取方法与现有联合抽取模型存在的信息共享不足、特征捕捉不全面,导致不同阶段的误差累积、难以处理长依赖关系识别以及全局优化的问题。
2、本发明所采用的技术方案是:基于globalpointer联合抽取的领域知识图谱构建方法,具体按照以下步骤实施:
3、步骤1:bert预训练模型将输入映射为嵌入向量,通过transformer编码器进行双向语义特征学习,获取表征词的多义性的动态词向量;
4、步骤2:bigru模型通过运算动态词向量输入,捕捉数据元素之间的长距离依赖关系、时间相关性与全局特征,生成隐状态共享的编码信息;
5、步骤3:globalpointer模型进行实体抽取,并将实体关系三元组提取转变为五元组提取,利用实体和关系间紧密的交互信息,进行信息联合解码;
6、步骤4:组合softmax激活函数与交叉熵进行多标签分类变成目标类别得分与非目标类别得分的两两比较,自动平衡相关权重;
7、步骤5:获取三元组数据并存储至neo4j图数据库,实现领域知识图谱构建。
8、本发明的特点还在于:
9、步骤1中bert预训练模型与transformer架构的工作机制具体如下:
10、bert预训练模型将数据处理后的输入部分转化为向量表示,并被映射到嵌入向量e,e=[e1,e2,e3,l,en]作为bert模型输入,再经由transformer编码器对文本信息深层次、高维度、双向的特征抽取,bert预训练模型采用部分词掩码策略,即首先将中文文本进行分词处理成词片段,在训练过程中会随机对词片段的15%进行掩码,词掩码部分会被替换为特殊标记[mask],[mask]表示遮盖词标识符,这样就能更深层次剖析和建模文本的语法和语义结构,得到能够表征词的多义性的动态词向量ti。
11、bert预训练模型是内置12层双向transformer编码器的架构,每个单元由前馈神经网络和多头自注意机制组成,其自注意力机制可以在处理输入序列时关注不同位置的信息,增强全局理解,减少对特定位置的过拟合,提高模型的泛化能力,其注意力的计算方式如式1所示:
12、
13、其中q表示查询矩阵,k表示键矩阵,v表示值矩阵,dk为k矩阵的维度;
14、根据计算公式,对嵌入层的向量化输入进行自注意力机制解析,通过计算注意力权重分配来衡量元素之间的关联性并相应的缩放控制和权重计算,得到每个词对于整个文本的重要性信息,从而更深层次的学习上下文的语义特征。
15、步骤2中bigru模型生成隐状态共享编码信息的控制流具体如下:门控循环单元gru是循环神经网络rnn的变体,为克服在模型训练时可能带来的梯度消失问题,gru设计出更新门和重置门去控制信息流动,gru输入是由前一时刻的输出状态ht-1和输入序列tt共同组成,输出当前时刻状态ht,其中重置门rt用于控制前一时刻隐藏状态信息对当前时刻隐藏状态信息的影响程度,重置门能根据不同的输入序列,动态调整对前一时刻隐藏状态信息的遗忘程度,更新门zt用于控制前一时刻隐藏状态信息被考虑到当前时刻隐藏状态中的程度,更新门的值越小,代表前一时刻的隐藏状态信息传递的信息越少,双向门控单元bigru能增强模型的全局语义理解性能。
16、bigru能在每个时间步运算输入序列的前后向相关性,记录和传递不同时刻的数据特征,能更好地学习不同输入序列的语义信息,捕捉数据元素之间的长距离依赖关系,生成隐状态共享的编码信息pi={p1,p2,p3,…,pn}。
17、步骤3中globalpointer模型的命名实体识别与关系分类工作流程具体如下:
18、globalpointer模型是一种基于token-pair的实体关系识别模块,该模块通过全局归一化的思路去构建实体矩阵实现模型的训练与预测,利用矩阵运算机制,首先对下三角矩阵进行掩码处理,再运算非掩码矩阵部分,评估每个类型潜在的实体或关系的分数,对两个特征向量的多步矩阵乘法遍历所有的实体边界并进行对应的维度转换,得到分数矩阵,该矩阵包括了每个实体边界与对应类别的置信分数,进而识别出实体与实体类型;
19、关系分类则是将原来的三元组(s,p,o)提取转变为五元组(sh,st,p,oh,ot)提取,其中sh,st分别为主体实体的起始位置和终止位置,oh,ot分别为客体实体的起始位置和终止位置,需要设计一个五元组的评分函数s(sh,st,p,oh,ot),但是为克服预测时枚举全部的五元组数量庞大的难题,选择使用以下分解策略如式2所示:
20、s(sh,st,p,oh,ot)=s(sh,st)+ s(oh,ot)+ s(sh,oh | p)+ s(st,ot | p) (2)
21、其中s(sh,st)、s(oh,ot)表示主体实体和客体实体的起始或终止评估分数,通过s(sh,st)>0、s(oh,ot)>0限制不满足标准的实体,s(sh,oh|p)表示以主体实体和客体实体的首特征作为它们自身的表征来进行一次匹配,若存在嵌套实体,则需要再次对实体的尾部进行一次匹配,即s(st,ot|p)项。
22、针对式2的评分函数s(sh,st,p,oh,ot),采用一个globalpointer完成s(sh,st)主体实体和s(oh,ot)客体实体的命名实体识别(ner)任务,而s(sh,oh|p)是对sh与oh之间的关系类型p的评估分数,此时关系分类不局限于ner的限制条件sh≤oh,这一过程同样是由globalpointer实现,s(st,ot|p)同理。
23、步骤4中组合softmax激活函数与交叉熵的loss函数计算损失的相关原理介绍如下:
24、为避免多标签分类转变为多个二分类问题,采用的类别平衡策略是将多标签分类变成目标类别得分与非目标类别得分的两两比较,利用logsumexp良好的梯度计算、对数概率等性质,自动平衡相关权重,多标签交叉熵计算式如式4所示:
25、
26、其中p与n分别表示正样本集合、负样本集合,a=p∪n,si表示与预测的第i个值对应的标签中的第i个位置。
27、步骤5中neo4j图数据库可以增强关系表达,提供完善的图查询语言,支持各种图挖掘算法,采用neo4j图数据库存储知识图谱,能有效利用图数据库中以关联数据为中心的数据表达、存储和查询。
28、本发明的有益效果是:
29、(1)本发明联合抽取模型是同时考虑实体抽取与关系分类两个任务,通过增强任务间的信息共享能力,消除噪音数据,同时也减弱错误知识的传播,提高模型的泛化性能;
30、(2)本发明基于globalpointer联合抽取的领域知识图谱构建方法能有效处理实体嵌套识别困难、三元组重叠的问题,提供模型的鲁棒性;
31、(3)本发明能在垂直领域方面的资源集成度不高、信息碎片化的半结构化或非结构化文本中,有着良好的三元组信息抽取性能,提高构建知识图谱的效率。
本文地址:https://www.jishuxx.com/zhuanli/20240730/196835.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。