基于BERT和Attention机制的中文命名实体识别方法

2022-08-31 00:35:18 来源：中国专利 TAG：

基于bert和attention机制的中文命名实体识别方法
技术领域
1.本发明涉及基于bert和attention机制的命名实体识别方法，属自然语言处理技术领域。

背景技术：

2.命名实体识别(named entity recognition，ner)旨在识别文本中预定的具有特殊意义的词语，包括人名，地点、组织等。ner不仅仅是信息提取的工具，而且在自然语言处理任务中发挥着重要作用，如：文本理解、信息检索、问答系统、机器翻译和知识库构建等。
3.目前，命名实体识别主要方法可分为三类：1)基于词典和规则的方法，不需要标注数据，却依赖于人工制定的规则。2)统计机器学习的方法，需要大量人工标注的数据。3)基于深度学习的方法，以端到端方式从原始输入自动发现、分类和检测所需的表示。

技术实现要素：

4.本发明针对传统深度学习模型融合上下文特征能力比较弱，对中文实体识别准确率低的问题，提出了基于bert和attention机制的命名实体识别方法。该方法有效解决了模型编码能力弱，对中文实体识别准确率低的问题。
5.本发明的技术方案是：基于bert和attention机制的中文命名实体识别方法，所述方法的具体步骤如下：
6.step1、采用bio标注方法对数据集进行标注；
7.step2、利用bert层对输入文本进行编码：对于输入的字符，通过bert层得到输入的语义表征，取得句子中每个词的向量表示；
8.step3、将bert层输出的词向量序列输入第二层bilstm层中做语义编码处理；
9.step4、把bilstm层的输出，输入到attention层做加权处理；
10.step5、将经过attention层加权后的句子向量输入到crf层进行预测标注结果。
11.作为本发明的进一步方案，所述step1中，标注时实体类型包括人名per、地名loc、机构名org，b-per、b-loc、b-org分别表示人名、地名、机构名的开始，i-per、i-loc、i-org分别表示人名、地名、机构名的其他词。
12.作为本发明的进一步方案，所述step2中，利用bert层对输入文本进行编码，bert输出的编码向量是三个嵌入特征token embedding、position embedding和segment embedding的和；token embedding是将句子中的每个词转换成词向量的形式；position embedding是bert学习并使用位置嵌入来表达单词在句子中的位置；segment embedding用于区分两个句子。
13.作为本发明的进一步方案，所述step4中，首先计算出一个注意力权重向量，把bilstm的输出和计算出的注意力权重向量相乘得到attention的输出。
14.作为本发明的进一步方案，所述step5包括：对于输入的句子x＝(x0,x1,x2,x3,......,xn)和预测的标签序列y＝(y0,y1,y2,y3,......,yn)，p(y|x)为标注结果的概率
分布：表示字符c标注为y的置信度，具体计算如下：
[0015][0016][0017][0018]
t表示任意两个相邻标签的分数，表示所有可能的标签序列；在解码端，使用概率最大的标签序列作为最优序列；
[0019]
损失函数的定义如下：
[0020]
本发明的有益效果是：本发明实现了对文本的深度编码，为后续的实体识别提供了支撑。本发明在加入attention机制后，模型能够通过计算权重对关键词词重点关注。提高了命名实体识别的准确率。
附图说明
[0021]
图1本发明中识别模型的具体结构示意图；
[0022]
图2本发明中利用bert对输入文本进行编码的过程示意图。
具体实施方式
[0023]
实施例1：如图1-图2所示，基于bert和attention机制的中文命名实体识别方法，所述方法的具体步骤如下：
[0024]
step1、在某年某日报的数据集和msra数据集上采用bio标注方法对数据集进行标注；标注时实体类型包括人名(per)、地名(loc)、机构名(org)，b-per、b-loc、b-org分别表示人名、地名、机构名的开始，i-per、i-loc、i-org分别表示人名、地名、机构名的其他词。
[0025]
数据划分为训练集、验证集和测试集，具体统计情况如表1所示。
[0026]
表1为实验数据
[0027]
数据集训练语料验证语料测试语料某日报1530011149991191449msra1000044112188223832
[0028]
step2、利用bert层对输入文本进行编码，bert输出的编码向量是三个嵌入特征token embedding、position embedding和segment embedding的和；tokenembedding是将句子中的每个词转换成词向量的形式；position embedding是bert学习并使用位置嵌入来表达单词在句子中的位置；segmentembedding用于区分两个句子，在图2的例子中，所有标记为ea的词都属于句子a，所有标记为eb的词都属于句子b。在每个句子的开头都会添加一个[cls]表示作为模型的起始标识。对于输入的字符，首先通过bert层得到输入的语义表征，取得句子中每个词的向量表不。
[0029]
step3、将bert层输出的词向量序列输入第二层bilstm层中做语义编码处理；
[0030]
lstm的递归神经网络有三个门控机制：一个输入门和相应的权重矩阵w
xi
，w
hi
，w
ci
；一个遗忘门和相应的权重矩阵w
xf
，w
hf
，w
cf
，bf；一个输出门和对应的权重矩阵w
xo
，w
ho
，w
∞
，bo；
bert层输出的句子向量为y＝(y0，y1，y2，y3，......，yn)，对于句子中每个词语wi，将其词向量ei(wi)输入到bilstm网络中，计算当前状态隐藏层的值；
[0031]
更新输入门：
[0032]it
＝σ(w
xi
x
t
w
hiht-1
w
cict-1
bi)
ꢀꢀꢀ
(1)
[0033]
更新遗忘门：
[0034]ft
＝σ(w
xf
x
t
w
hfht-1
w
cfct-1
bf)
ꢀꢀꢀꢀꢀ
(2)
[0035]
更新输出门：
[0036]gt
＝tanh(wxcx
t
w
hcht-1
w
ccct-1
bc) (3)
[0037]
计算记忆单元的值：
[0038]ct
＝i
igt
f
ict-1
ꢀꢀꢀꢀꢀ
(4)
[0039]ot
＝σ(w
xo
x
t
w
hoht-1
w
coct
bo)
ꢀꢀꢀ
(5)
[0040]
计算t时刻隐藏层的值：
[0041]ht
＝o
t
tanh(c
t
)
ꢀꢀꢀꢀ
(6)
[0042]
拼接得到bilstm输出：
[0043][0044]
step4、把bilstm层的输出，输入到attention层做加权处理；计算产生一个注意力权重向量α
t
，w为权重矩阵，把bilstm的输出和计算出的注意力权重向量相乘得到attention的输出。
[0045]et
＝tanh(w
tht
)
ꢀꢀꢀꢀꢀꢀ
(8)
[0046][0047]h′
t
＝α
tht
ꢀꢀꢀꢀꢀ
(10)
[0048]hi
由双向lstm的输出和拼接得到。把hi作为注意力层的输入，w为转置矩阵参数，e为中间关联量，然后计算出注意力权重向量αi，最终输出h
′i。
[0049]
step5、将经过attention层加权后的句子向量输入到crf层进行预测标注结果。
[0050]
所述step5包括：对于输入的句子x＝(x0，x1，x2，x3，......，xn)和预测的标签序列y＝(y0，y1，y2，y3，......，yn)，p(y|x)为标注结果的概率分布：表示字符c标注为y的置信度，具体计算如下：
[0051][0052][0053][0054]
t表示任意两个相邻标签的分数，表示所有可能的标签序列；在解码端，使用概率最大的标签序列作为最优序列；
[0055]
损失函数的定义如下：
[0056]
[0057]
使用准确率(precisim，p)、召回率(recall，r)、f1值作为评价指标，具体计算如下：
[0058][0059][0060][0061]
tp表示预测为正类，实际也为正类的数量，fp表示预测为正类，实际预测错误的数量，fn表示预测为负，实际为正的数量。
[0062]
为了说明本发明的效果，实验设置了2组对比实验，分别在某日报和msra连个数据集上进行对比试验。实验结果如表2，表3所示。
[0063]
表2为模型在某日报数据集上的识别效果
[0064][0065]
表3为模型msra数据集上的识别效果
[0066][0067]
分析表2和表3可知本文方法在两个数据集上均取得了最好的准确率、召回率和f1值。在msra数据集上，本文方法的f1值达到了95.13％，对比不加入预训练模型的命名实体识别方法，准确率提高了10.95％和5.58％，召回率提高了7.29％和5.28％，f1值提升了9.16％和5.43％，准确率和召回率都有较大的提升，说明加入bert预训练模型能够提高模型提取信息的能力，有利于提升模型性能；对比加入预训练模型的命名实体识别方法，准确
率提高了2.15％和0.92％，召回率提高了2.03％和1.51％，f1值提升了2.09％和1.20％，准确率和召回率都有小幅提升，说明加入attention机制能够有效地突出关键字在文本数据中的作用，验证了本文模型的有效性。对比不同模型在人民日报和msra两个数据集上的实验结果发现，模型在人民日报上的表现略优于在msra上的表现，说明数据量的增加在一定程度上可以提高模型的性能。
[0068]
上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于区块链的数据授权访问方法、设备及介质与流程

基于BERT和Attention机制的中文命名实体识别方法

相关文献

最热文献