一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于BERT和Attention机制的中文命名实体识别方法

2022-08-31 00:35:18 来源:中国专利 TAG:

基于bert和attention机制的中文命名实体识别方法
技术领域
1.本发明涉及基于bert和attention机制的命名实体识别方法,属自然语言处理技术领域。


背景技术:

2.命名实体识别(named entity recognition,ner)旨在识别文本中预定的具有特殊意义的词语,包括人名,地点、组织等。ner不仅仅是信息提取的工具,而且在自然语言处理任务中发挥着重要作用,如:文本理解、信息检索、问答系统、机器翻译和知识库构建等。
3.目前,命名实体识别主要方法可分为三类:1)基于词典和规则的方法,不需要标注数据,却依赖于人工制定的规则。2)统计机器学习的方法,需要大量人工标注的数据。3)基于深度学习的方法,以端到端方式从原始输入自动发现、分类和检测所需的表示。


技术实现要素:

4.本发明针对传统深度学习模型融合上下文特征能力比较弱,对中文实体识别准确率低的问题,提出了基于bert和attention机制的命名实体识别方法。该方法有效解决了模型编码能力弱,对中文实体识别准确率低的问题。
5.本发明的技术方案是:基于bert和attention机制的中文命名实体识别方法,所述方法的具体步骤如下:
6.step1、采用bio标注方法对数据集进行标注;
7.step2、利用bert层对输入文本进行编码:对于输入的字符,通过bert层得到输入的语义表征,取得句子中每个词的向量表示;
8.step3、将bert层输出的词向量序列输入第二层bilstm层中做语义编码处理;
9.step4、把bilstm层的输出,输入到attention层做加权处理;
10.step5、将经过attention层加权后的句子向量输入到crf层进行预测标注结果。
11.作为本发明的进一步方案,所述step1中,标注时实体类型包括人名per、地名loc、机构名org,b-per、b-loc、b-org分别表示人名、地名、机构名的开始,i-per、i-loc、i-org分别表示人名、地名、机构名的其他词。
12.作为本发明的进一步方案,所述step2中,利用bert层对输入文本进行编码,bert输出的编码向量是三个嵌入特征token embedding、position embedding和segment embedding的和;token embedding是将句子中的每个词转换成词向量的形式;position embedding是bert学习并使用位置嵌入来表达单词在句子中的位置;segment embedding用于区分两个句子。
13.作为本发明的进一步方案,所述step4中,首先计算出一个注意力权重向量,把bilstm的输出和计算出的注意力权重向量相乘得到attention的输出。
14.作为本发明的进一步方案,所述step5包括:对于输入的句子x=(x0,x1,x2,x3,......,xn)和预测的标签序列y=(y0,y1,y2,y3,......,yn),p(y|x)为标注结果的概率
分布:表示字符c标注为y的置信度,具体计算如下:
[0015][0016][0017][0018]
t表示任意两个相邻标签的分数,表示所有可能的标签序列;在解码端,使用概率最大的标签序列作为最优序列;
[0019]
损失函数的定义如下:
[0020]
本发明的有益效果是:本发明实现了对文本的深度编码,为后续的实体识别提供了支撑。本发明在加入attention机制后,模型能够通过计算权重对关键词词重点关注。提高了命名实体识别的准确率。
附图说明
[0021]
图1本发明中识别模型的具体结构示意图;
[0022]
图2本发明中利用bert对输入文本进行编码的过程示意图。
具体实施方式
[0023]
实施例1:如图1-图2所示,基于bert和attention机制的中文命名实体识别方法,所述方法的具体步骤如下:
[0024]
step1、在某年某日报的数据集和msra数据集上采用bio标注方法对数据集进行标注;标注时实体类型包括人名(per)、地名(loc)、机构名(org),b-per、b-loc、b-org分别表示人名、地名、机构名的开始,i-per、i-loc、i-org分别表示人名、地名、机构名的其他词。
[0025]
数据划分为训练集、验证集和测试集,具体统计情况如表1所示。
[0026]
表1为实验数据
[0027]
数据集训练语料验证语料测试语料某日报1530011149991191449msra1000044112188223832
[0028]
step2、利用bert层对输入文本进行编码,bert输出的编码向量是三个嵌入特征token embedding、position embedding和segment embedding的和;tokenembedding是将句子中的每个词转换成词向量的形式;position embedding是bert学习并使用位置嵌入来表达单词在句子中的位置;segmentembedding用于区分两个句子,在图2的例子中,所有标记为ea的词都属于句子a,所有标记为eb的词都属于句子b。在每个句子的开头都会添加一个[cls]表示作为模型的起始标识。对于输入的字符,首先通过bert层得到输入的语义表征,取得句子中每个词的向量表不。
[0029]
step3、将bert层输出的词向量序列输入第二层bilstm层中做语义编码处理;
[0030]
lstm的递归神经网络有三个门控机制:一个输入门和相应的权重矩阵w
xi
,w
hi
,w
ci
;一个遗忘门和相应的权重矩阵w
xf
,w
hf
,w
cf
,bf;一个输出门和对应的权重矩阵w
xo
,w
ho
,w

,bo;
bert层输出的句子向量为y=(y0,y1,y2,y3,......,yn),对于句子中每个词语wi,将其词向量ei(wi)输入到bilstm网络中,计算当前状态隐藏层的值;
[0031]
更新输入门:
[0032]it
=σ(w
xi
x
t
w
hiht-1
w
cict-1
bi)
ꢀꢀꢀ
(1)
[0033]
更新遗忘门:
[0034]ft
=σ(w
xf
x
t
w
hfht-1
w
cfct-1
bf)
ꢀꢀꢀꢀꢀ
(2)
[0035]
更新输出门:
[0036]gt
=tanh(wxcx
t
w
hcht-1
w
ccct-1
bc) (3)
[0037]
计算记忆单元的值:
[0038]ct
=i
igt
f
ict-1
ꢀꢀꢀꢀꢀ
(4)
[0039]ot
=σ(w
xo
x
t
w
hoht-1
w
coct
bo)
ꢀꢀꢀ
(5)
[0040]
计算t时刻隐藏层的值:
[0041]ht
=o
t
tanh(c
t
)
ꢀꢀꢀꢀ
(6)
[0042]
拼接得到bilstm输出:
[0043][0044]
step4、把bilstm层的输出,输入到attention层做加权处理;计算产生一个注意力权重向量α
t
,w为权重矩阵,把bilstm的输出和计算出的注意力权重向量相乘得到attention的输出。
[0045]et
=tanh(w
tht
)
ꢀꢀꢀꢀꢀꢀ
(8)
[0046][0047]h′
t
=α
tht
ꢀꢀꢀꢀꢀ
(10)
[0048]hi
由双向lstm的输出和拼接得到。把hi作为注意力层的输入,w为转置矩阵参数,e为中间关联量,然后计算出注意力权重向量αi,最终输出h
′i。
[0049]
step5、将经过attention层加权后的句子向量输入到crf层进行预测标注结果。
[0050]
所述step5包括:对于输入的句子x=(x0,x1,x2,x3,......,xn)和预测的标签序列y=(y0,y1,y2,y3,......,yn),p(y|x)为标注结果的概率分布:表示字符c标注为y的置信度,具体计算如下:
[0051][0052][0053][0054]
t表示任意两个相邻标签的分数,表示所有可能的标签序列;在解码端,使用概率最大的标签序列作为最优序列;
[0055]
损失函数的定义如下:
[0056]
[0057]
使用准确率(precisim,p)、召回率(recall,r)、f1值作为评价指标,具体计算如下:
[0058][0059][0060][0061]
tp表示预测为正类,实际也为正类的数量,fp表示预测为正类,实际预测错误的数量,fn表示预测为负,实际为正的数量。
[0062]
为了说明本发明的效果,实验设置了2组对比实验,分别在某日报和msra连个数据集上进行对比试验。实验结果如表2,表3所示。
[0063]
表2为模型在某日报数据集上的识别效果
[0064][0065]
表3为模型msra数据集上的识别效果
[0066][0067]
分析表2和表3可知本文方法在两个数据集上均取得了最好的准确率、召回率和f1值。在msra数据集上,本文方法的f1值达到了95.13%,对比不加入预训练模型的命名实体识别方法,准确率提高了10.95%和5.58%,召回率提高了7.29%和5.28%,f1值提升了9.16%和5.43%,准确率和召回率都有较大的提升,说明加入bert预训练模型能够提高模型提取信息的能力,有利于提升模型性能;对比加入预训练模型的命名实体识别方法,准确
率提高了2.15%和0.92%,召回率提高了2.03%和1.51%,f1值提升了2.09%和1.20%,准确率和召回率都有小幅提升,说明加入attention机制能够有效地突出关键字在文本数据中的作用,验证了本文模型的有效性。对比不同模型在人民日报和msra两个数据集上的实验结果发现,模型在人民日报上的表现略优于在msra上的表现,说明数据量的增加在一定程度上可以提高模型的性能。
[0068]
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献