一种基于BERT的多神经网络的滑坡危险性评估命名实体识别方法
- 国知局
- 2024-07-31 22:52:13
本发明涉及滑坡风险评估领域,具体涉及一种基于bert的多神经网络的滑坡危险性评估命名实体识别方法。
背景技术:
1、及时、准确地评估滑坡的危险性对于防灾减灾具有重要意义。然而,与滑坡危险性评估相关的信息通常分散在大量非结构化的文本数据中,如地质勘探报告、学术论文、新闻报道等,难以高效地利用这些宝贵信息资源。
2、传统的方法是人工从这些文本中识别和提取与滑坡相关的关键实体信息,如位置、致灾因素等。但这一过程存在效率低下、人工成本高、错误率较高等问题,难以满足实际需求。因此,亟需一种自动化的方法来高效、准确地从非结构化文本中识别和抽取滑坡相关实体信息。
3、命名实体识别是自然语言处理领域的一项重要技术,通过自动识别和分类文本中的实体词(如人名、地名、组织机构名等),为进一步的信息处理奠定基础。随着深度学习技术的发展,基于神经网络的命名实体识别模型展现出了优异的性能。其中,bert是一种通过大规模无监督预训练获得通用语义表示能力的语言模型,已被广泛应用于自然语言处理任务。利用bert及其变体作为预训练模型,结合bilstm和crf等神经网络,可以极大提升命名实体识别的精度和鲁棒性。
技术实现思路
1、本发明提供了一种基于bert的多神经网络的滑坡危险性评估命名实体识别方法,旨在解决传统滑坡危险性评估方法依赖于人工解析文献和数据、工作量大且耗时耗力的问题,以及现有命名实体识别方法在处理复杂自然语言文本时受限于语料和模型表达能力的问题。通过结合bert及其变体模型的优势,实现对滑坡危险性评估文献中关键信息的自动化提取和标注,从而提高滑坡危险性评估的准确性和效率,减轻人工负担,为滑坡灾害预防和减灾提供更有效的技术支持。
2、为达到上述目的,本发明采用如下技术方案:
3、一种基于bert的多神经网络的滑坡危险性评估命名实体识别方法,包括如下步骤:
4、步骤1、语料库构建:收集包含滑坡危险性评估信息的英文文献摘要,对其进行预处理生成规范化的结构化数据,构建滑坡危险性评估领域预料库;
5、步骤2、数据标注:采用stanford corenlp自然语言工具包对数据进行分词、词性标注以及句法分析,再使用bio(beginning-inside-outside)标记法对滑坡危险性评估命名实体进行人工标注,包含滑坡发生位置、滑坡影响因子及滑坡危险性评估方法;
6、步骤3、将标注数据按照一定的比例划分为训练集、测试集和验证集,利用bert及其变体albert和roberta等预训练语言模型,对标注数据进行编码,获取包含上下文语义信息的词向量表示;
7、步骤4、将步骤3中得到的词向量输入到bilstm(bi-directional long short-term memory)模型中,用于捕捉输入序列的长程依赖语义特征;
8、步骤5、考虑到序列内标签之间的关系和约束,基于crf解码层对整个输入序列的标注路径进行解码;
9、步骤6、基于bert的多神经网络对目标域语料数据集进行微调获得最佳命名实体识别结果。
10、进一步的所述步骤1中,语料库构建是基于谷歌学术设置文献检索关键词:landslide hazardassessment,再使用python进行爬取,收集滑坡危险性评估领域的英文文献摘要,所述预处理包括去除语料中的重复字符、空字符以及特殊符号等,输出为规范的文本数据保持数据具有较高的准确性;
11、进一步的,在所述步骤2中对预处理后的滑坡危险性评估语料库进行标注,具体的标注过程包括:
12、步骤2.1:使用python交互界面采用stanford corenlp自然语言工具包对数据进行标注:首先使用句子分割(sentence splitting)将文本切分为句子,使用分词(tokenization)将文本切分为单词、标点符号等token,使用词性标注(part-of-speechtagging)为每个token分配相应的词性(如名词、动词、形容词等),最后使用语法分析(parsing)构建文本的句法分析树和词性结构;
13、步骤2.2:使用bio(beginning-inside-outside)标记法对滑坡危险性评估命名实体进行人工标注,其中b–beginning(开始)表示的是实体的初始标签,i–inside(内部)表示的是实体的内部标签,o–outside(外部)表示的是非实体。将领域语料库标注为3类实体,分别包括滑坡发生位置信息,滑坡影响因子以及滑坡危险性评估方法;
14、进一步的,在所述步骤3中具体内容包括:
15、步骤3.1:将标注数据集按照7:1:2的方式划分为训练集、测试集和验证集;
16、步骤3.2:基于训练集、测试集和验证集,于实验室服务器上训练基于bert的全监督场景预训练语言模型,输出词向量x=(x1,x2,…,xn);
17、步骤3.3:基于训练集、测试集和验证集,于实验室服务器上训练基于albert的全监督场景预训练语言模型,输出词向量y=(y1,y2,…,yn);
18、步骤3.4:基于训练集、测试集和验证集,于实验室服务器上训练基于roberta的全监督场景预训练语言模型,输出词向量z=(z1,z2,…,zn);
19、进一步的,在所述步骤4中,将步骤3中得到的词向量x,y和z分别输入bilstm层,词向量从文本序列上下文进行特征学习,输出包含文本序列中的每个词所对应的前向和后向信息,捕捉文本序列中的语义特征。
20、进一步的所述步骤5中,crf层基于bilstm层的输出上进行解码,解决标签序列之间的依赖关系,得到最优的标签序列,使得输出的标签序列满足整体上最优的概率;
21、进一步的,在所述步骤6中,基于步骤5得到的命名实体识别结果,调整训练超参数(例如学习率、批次大小、训练轮数等),以最大化准确率、召回率和f1值这三个评估指标的综合性能。
22、本申请提供的技术方法带来的有益效果是:
23、1.通过收集特定领域的非结构化数据,并对其进行预处理以生成结构化的领域语料库;
24、2.本发明采用bert、albert和roberta预训练语言模型对特定领域数据集进行训练,通过使用不同的模型充分挖掘文本的深层次语义特征,获得包含上下文语义信息的词向量;
25、3.在预训练模型的基础上融合bilstm+crf模型,通过跨领域的强大迁移能力以及多神经网络集成增强模型的泛化能力,最后基于领域语料对命名实体识别模型的超参数进行微调,以达到精确度、召回率和f1值性能最优,获得滑坡危险性评估命名实体识别的最佳结果。
技术特征:1.基于bert的多神经网络的滑坡危险性评估命名实体识别方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的基于bert的多神经网络的滑坡危险性评估命名实体识别方法,其特征在于:在步骤1中,语料库构建是基于谷歌学术设置文献检索主题:landslidehazardassessment,再使用python进行爬取,收集滑坡危险性评估领域的英文文献摘要,所述预处理包括去除语料中的重复字符、空字符以及特殊符号等,输出为规范的文本数据保持数据具有较高的准确性。
3.根据权利要求1所述的基于bert的多神经网络的滑坡危险性评估命名实体识别方法,其特征在于:所述步骤2中对预处理后的滑坡危险性评估语料库进行标注,具体的标注过程包括:
4.根据权利要求1所述的基于bert的多神经网络的滑坡危险性评估命名实体识别方法,其特征在于:所述步骤3中具体内容包括:
5.根据权利要求1所述的基于bert的多神经网络的滑坡危险性评估命名实体识别方法,其特征在于:在步骤4中,将步骤3中得到的词向量x,y和z分别输入bilstm层,词向量从文本序列上下文进行特征学习,输出包含文本序列中的每个词所对应的前向和后向信息,捕捉文本序列中的语义特征。
6.根据权利要求1所述的基于bert的多神经网络的滑坡危险性评估命名实体识别方法,其特征在于:在步骤5中,crf层基于bilstm层的输出上进行解码,解决标签序列之间的依赖关系,得到最优的标签序列,使得输出的标签序列满足整体上最优的概率。
7.根据权利要求1所述的基于bert的多神经网络的滑坡危险性评估命名实体识别方法,其特征在于:在步骤6中,基于步骤5得到的命名实体识别结果,针对目标领域数据集调整训练超参数(例如学习率、批次大小、训练轮数等),以最大化准确率、召回率和f1值这三个评估指标的综合性能。
技术总结本发明提出了一种基于BERT的多神经网络的滑坡危险性评估命名实体识别方法,该方法主要包括了以下内容:(1)获取包含滑坡危险性评估的英文文献,采用Stanford CoreNLP自然语言工具包和BIO标记法对文献摘要进行标注,标注包含滑坡发生位置、滑坡影响因子及滑坡危险性评估方法信息;(2)将滑坡危险性评估语料按照一定的比例划分为训练集、测试集和验证集,采用BERT模型以及变体模型(如ALBERT和RoBERTa)作为预训练语言模型对滑坡危险性评估数据集进行编码,对比不同模型的命名实体识别效果,获取上下文语义依赖信息生成更具代表性和表达能力的词向量;(3)将得到的词向量输入BiLSTM层学习文本长距离语义信息,之后将捕捉到的语义向量输入CRF解码层进行解码,得到滑坡危险性评估领域的最优命名实体识别结果。本发明通过BERT及其变体模型在自然语言处理方面的强大效果,同时利用BiLSTM和CRF融合特征向量用于滑坡危险性评估命名实体识别任务,具有更强的特征提取能力。技术研发人员:丁雨淋,孙倩倩,胡翰,朱庆,吴玉婷,赵小霆,陈曦,卢文龙,郝蕊,程智博,李泰灃受保护的技术使用者:西南交通大学技术研发日:技术公布日:2024/7/29本文地址:https://www.jishuxx.com/zhuanli/20240730/195089.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表