技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种航行通告文本信息特征实体抽取方法  >  正文

一种航行通告文本信息特征实体抽取方法

  • 国知局
  • 2024-09-11 14:45:47

本发明属于航行通告信息处理,具体涉及一种航行通告文本信息特征实体抽取方法。

背景技术:

1、航行通告作为航空情报产品的重要组成部分,以通知的形式发布对某些类型信息涉及临时性和短期设施和服务的变更、短时间内有临时或永久性质的重大操作变更,蕴含了航空情报产品中大量的航空情报动态数据。且具有较强的时效性,对航行通告动态信息准确、快速的判读对于航空安全运行至关重要。

2、传统的航行通告特征知识抽取、航行通告分类、不规范通告识别任务中基于机器学习、规则匹配等方法,需要人工制定特定的特征模板、匹配规则,特征工程的质量直接影响模型的性能对于不同数据的实体识别任务,需要重新设计特征以及大量的标注数据,费时费力且增加了模型的开发成本。部分深度学习模型存在时间复杂度高、梯度爆炸、无法提取序列信息等问题。面对航空业的持续增长增加了对空域容量的需求,海量航空情报信息的积累,需要及时和有意义的信息来提供并辅助决策支持。采用基于深度学习的信息挖掘技术结合提取上下文信息提取实体,实现多类别通告的文本信息判读,将推动加快基于纸张的、以产品为中心的航空情报服务(aeronautical information service,ais)向航空情报管理(aeronautical information management,aim)的转变。

技术实现思路

1、本发明提供了一种航行通告文本信息特征实体抽取方法,解决了现有航行通告文本信息抽取方法存在提取文本特征知识信息不准确、不能提取上下文文本序列信息、需制定特定特征模板以及通告判读费时费力的问题。

2、为了解决上述技术问题,本发明的技术方案为:一种航行通告文本信息特征实体抽取方法,包括以下步骤:

3、s1、基于航空信息交换模型aixm,构建航行通告文本信息的本体模型;

4、s2、对空域限制类航行通告数据集进行数据预处理;

5、s3、基于本体模型,将预处理后的数据集中不符合aixm标准格式的数据进行语料标注,得到标注语料;

6、s4、构建bilstm-crf模型,将标注语料输入到bilstm-crf模型中进行训练;

7、s5、基于本体模型,将航行通告中符合aixm标准格式的数据采用正则表达式提取第一特征实体;

8、s6、将航行通告中不符合aixm标准格式的数据输入至训练后的bilstm-crf模型,得到航行通告的路径分数,并采用维特比算法对路径分数进行解码,得到第二特征实体,将第一特征实体和第二特征实体作为航行通告的特征实体。

9、本发明的有益效果是:本发明能够很好地处理传统方法中需要人为确定特征模板、匹配规则,通过标注领域数据解决无领域标注训练集数据的问题。同时对航行通告结构化信息抽取水平较高,有效实现对海量航空情报领域数据中航行通告信息的自动化提取,并且能够有效的解决航空情报数据处理时存在的易出错、查找时间长的问题,极大的减少了对航空情报数据处理的人力、物力的投入。

10、进一步地,所述步骤s1中本体模型包括一级本体、二级本体和三级本体;所述一级本体为航行通告,所述二级本体包括事件、时间和地点,所述三级本体包括开始时间、结束时间、事件类型和事件描述;所述本体模型中设置子类的父类subclassof、开始时间starton和结束时间endon之间的关系。

11、进一步地,所述步骤s3中进行语料标注采用bio标签标注方法。

12、进一步地,所述步骤s4中bilstm-crf模型包括依次连接的embedding层、bilstm层以及crf层。

13、进一步地,所述步骤s6的具体步骤为:

14、s61、将航行通告中不符合aixm标准格式的数据作为航行通告输入数据,建立航行通告输入数据的标签索引字典,并将航行通告输入数据随机初始化为向量矩阵;

15、s62、通过embedding层将向量矩阵转化为词向量;

16、s63、将词向量输入bilstm层,分别计算每个词的左侧向量和右侧向量,将每个词的左侧向量和右侧向量行连接,得到输出矩阵,并将输出矩阵通过线性层,从n维向量映射到k维,得到标签概率矩阵;

17、s64、将标签概率矩阵通过crf层进行解码,进行句子级的序列标注,并计算概率转移矩阵,通过标签概率矩阵和概率转移矩阵计算航行通告的路径分数;

18、s65、采用维特比算法对路径分数进行解码,得到最优输出序列标签,即第二特征实体;

19、s66、将第一特征实体和第二特征实体作为航行通告文本信息的特征实体。

20、上述进一步方案的有益效果为:bilstm层可以捕捉更长距离的信息,还以将各个字符以句子的形式进行表达,并且考虑字符之间的依赖关关系,同时crf层能够学习到句子的前后依赖,从而加入一些约束来保证最终预测结果有效,从而解决基于神经网络方法的预测标签序列可能无效的问题。

21、进一步地,所述步骤s61中向量矩阵的表达式为n*d,其中,n表示字典的大小,即航行通告输入数据的长度,d表示字典中每个元素的属性向量的维数,即embedding层维数。

22、进一步地,所述步骤s63中输出矩阵的计算公式为:

23、ht=f(w1xt'+w2ht-1)

24、h't=f(w3xt'+w5h't-1)

25、ot=g(w4ht+w6h't)

26、其中,ht表示t时刻前向层计算的句子特征信息,xt'表示输入序列中的第t'个元素,ht-1表示t-1时刻前向层计算的句子特征信息,h't表示t时刻后向层计算的句子特征信息,h't-1表示t-1时刻后向层计算的句子特征信息,ot表示输出矩阵,w1、w2、w3、w4、w5和w6均表示共享权值,f(·)和g(·)均表示激活函数。

27、所述步骤s64中路径分数的计算公式为:

28、

29、其中,s(x,y)表示路径分数,x表示输入的航行通告文本序列,y表示输出的预测标注序列,表示概率转移矩阵中第yi个标签转移为第yi+1个标签的概率,表示标签概率矩阵中句子里的第i个词被标记为第yi个标注的概率,yi表示将要输出的第i个预测标签,yi+1表示将要输出的第i+1个预测标签。

技术特征:

1.一种航行通告文本信息特征实体抽取方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的航行通告文本信息特征实体抽取方法,其特征在于,所述步骤s1中本体模型包括一级本体、二级本体和三级本体;所述一级本体为航行通告,所述二级本体包括事件、时间和地点,所述三级本体包括开始时间、结束时间、事件类型和事件描述;所述本体模型中设置子类的父类subclassof、开始时间starton和结束时间endon之间的关系。

3.根据权利要求1所述的航行通告文本信息特征实体抽取方法,其特征在于,所述步骤s3中进行语料标注采用bio标签标注方法。

4.根据权利要求1所述的航行通告文本信息特征实体抽取方法,其特征在于,所述步骤s4中bilstm-crf模型包括依次连接的embedding层、bilstm层以及crf层。

5.根据权利要求4所述的航行通告文本信息特征实体抽取方法,其特征在于,所述步骤s6的具体步骤为:

6.根据权利要求5所述的航行通告文本信息特征实体抽取方法,其特征在于,所述步骤s61中向量矩阵的表达式为n*d,其中,n表示字典的大小,即航行通告输入数据的长度,d表示字典中每个元素的属性向量的维数,即embedding层维数。

7.根据权利要求5所述的航行通告文本信息特征实体抽取方法,其特征在于,所述步骤s63中输出矩阵的计算公式为:

8.根据权利要求5所述的航行通告文本信息特征实体抽取方法,其特征在于,所述步骤s64中路径分数的计算公式为:

技术总结本发明公开了一种航行通告文本信息特征实体抽取方法,属于航行通告信息处理技术领域,包括以下步骤:构建航行通告文本信息的本体模型;对空域限制类航行通告数据集进行数据预处理;将预处理后的数据集中不符合AIXM标准格式的数据进行语料标注;构建BiLSTM‑CRF模型并进行训练;采用正则表达式提取航行通告的第一特征实体;采用BiLSTM‑CRF模型提取航行通告的第二特征实体,将第一特征实体和第二特征实体作为航行通告的特征实体。本发明解决了现有航行通告文本信息抽取方法存在提取文本特征知识信息不准确、不能提取上下文文本序列信息、需制定特定特征模板以及通告判读费时费力的问题。技术研发人员:赖欣,李思宁,张成伟,曾纪炜,张梓豪,冯嘉宇,唐凯,张恒嫣,李炎林受保护的技术使用者:中国民用航空飞行学院技术研发日:技术公布日:2024/9/9

本文地址:https://www.jishuxx.com/zhuanli/20240911/292063.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。