技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于局部信息关注的交织事件抽取方法、装置及设备与流程  >  正文

基于局部信息关注的交织事件抽取方法、装置及设备与流程

  • 国知局
  • 2024-07-31 23:19:24

本发明涉及电子,具体涉及基于局部信息关注的交织事件抽取方法、装置及设备。

背景技术:

1、事件抽取旨在从非结构化的文本信息中抽取出结构化的事件信息,包含事件检测和事件论元抽取两个子任务,可以对会议事件、贸易事件、经济事件等不同类型事件进行识别,并识别其中的人物、地点、时间、组织等事件要素,以最大程度的支持有效决策。交织触发词和交织论元在文本数据中广泛存在,交织触发词指在多个事件中同时出现的同一个触发词,交织论元指在多个事件中同时出现的同一个论元。包含交织触发词和交织论元的事件抽取称为交织事件抽取。当前对交织事件抽取的研究可以分为单阶段和多阶段两种模式,单阶段模式指同时抽取事件类型、触发词和论元,此模式能够避免误差累积问题,但无法利用触发词和论元之间的依赖关系;多阶段模式指将触发词和论元的抽取分为两个顺序任务,此模式能利用触发词和论元之间的依赖关系,但容易导致误差累积。

2、当前的研究注重不同类型的信息包括事件类型、触发词和论元与文本信息的融合,忽视了对文本信息本身的建模。在进行事件抽取时,一般基于大语言模型的输出文本的分布式向量,然后基于文本的分布式向量抽取对应的事件类型、触发词以及论元。然而,大语言大模型输出的向量是上下文相关的,每个文字关注的是文本对应完整句子的上下文信息。当抽取触发词或论元时,需要强调不同文字之间的差别而不是相似性,因此使用包含全部文本上下文信息的文字向量不利于触发词和论元的抽取,使得事件抽取结果的准确性较低。

技术实现思路

1、有鉴于此,本发明提供了一种基于局部信息关注的交织事件抽取方法、装置及设备,以解决相关技术中大语言模型输出的向量是上下文相关的,直接使用包含全部文本上下文信息的文字向量不利于触发词和论元的抽取,使得事件抽取结果的准确性较低的问题。

2、第一方面,本发明提供了一种基于局部信息关注的交织事件抽取方法,该方法包括:获取待抽取文本的分布式向量、事件类型集合以及论元角色集合,分布式向量由待抽取文本中每个文字的向量组成;基于预设长度的滑动窗口以及分布式向量,确定待抽取文本中各文字的窗口信息;基于各文字的窗口信息对相应文字的向量进行注意力机制增强处理,得到对应文字的目标向量;基于多个文字的目标向量、事件类型集合以及论元角色集合,确定待抽取文本的事件类型、触发词以及论元。

3、本发明提供的基于局部信息关注的交织事件抽取方法,基于预设长度的滑动窗口以及分布式向量,确定待抽取文本中各文字的窗口信息;基于各文字的窗口信息对相应文字的向量进行注意力机制增强处理,得到对应文字的目标向量;基于多个文字的目标向量、事件类型集合以及论元角色集合,确定待抽取文本的事件类型、触发词以及论元。本发明提供的方法,通过预设长度的滑动窗口以及每个句子中的分布式向量,确定待抽取文本中各文字的窗口信息,基于各文字的窗口对相应文字的向量进行注意力机制增强处理,从而使文本中的每个文字的向量表示都只关注其对应滑动窗口内的上下文信息,局部上下文信息是更细粒度的实体级别的上下文信息,有助于提升触发词和论元的抽取效果。此外,局部信息关注显著提升了触发词和论元抽取结果的准确性,有效缓解了误差的累积问题。

4、在一种可选的实施方式中,预设长度根据预设文本训练集中实体的平均长度确定。

5、在一种可选的实施方式中,基于多个文字的目标向量、事件类型集合以及论元角色集合,确定待抽取文本的事件类型、触发词以及论元的步骤,包括:基于多个文字的目标向量以及事件类型集合确定各文字的属于触发词起始位置的第一概率信息以及各文字属于触发词结束位置的第二概率信息;基于各文字的第一概率信息、第二概率信息确定待抽取文本对应的事件类型信息以及触发词信息;基于多个文字的目标向量、事件类型信息、触发词信息以及论元角色集合确定各文字属于论元起始位置的第三概率信息以及各文字属于论元结束位置的第四概率信息;基于各文字的第三概率信息以及第四概率信息确定待抽取文本的论元。

6、本可选实施方式提供的方法,能够准确确定待抽取文本的事件类型、触发词以及论元。

7、在一种可选的实施方式中,基于多个文字的目标向量以及事件类型集合确定各文字的属于触发词起始位置的第一概率信息以及各文字属于触发词结束位置的第二概率信息的步骤,包括:基于多个文字的目标向量构建触发词概率矩阵;基于触发词概率矩阵以及事件类型集合确定待抽取文本中各文字的属于触发词起始位置的第一概率信息以及各文字属于触发词结束位置的第二概率信息。

8、在一种可选的实施方式中,基于多个文字的目标向量、事件类型信息、触发词信息以及论元角色集合确定各文字属于论元起始位置的第三概率信息以及各文字属于论元结束位置的第四概率信息的步骤,包括:基于多个文字的目标向量、事件类型信息以及触发词信息构建论元概率矩阵;基于论元角色集合以及论元概率矩阵确定各文字属于论元起始位置的第三概率信息以及各文字属于论元结束位置的第四概率信息。

9、在一种可选的实施方式中,基于各文字的第一概率信息、第二概率信息确定待抽取文本的事件类型信息以及触发词信息的步骤,包括:将各文字的第一概率信息、第二概率信息进行组合,得到触发词概率矩阵;基于触发词概率矩阵抽取待抽取文本的事件类型信息以及触发词信息;

10、基于各文字的第三概率信息以及第四概率信息确定待抽取文本的论元的步骤,包括:将各文字的第三概率信息以及第四概率信息进行组合,得到论元概率矩阵;基于论元概率矩阵抽取待抽取文本的论元。

11、第二方面,本发明提供了一种基于局部信息关注的交织事件抽取装置,装置包括:获取模块,用于获取待抽取文本的分布式向量、事件类型集合以及论元角色集合,分布式向量由待抽取文本中每个文字的向量组成;第一确定模块,用于基于预设长度的滑动窗口以及分布式向量,确定待抽取文本中各文字的窗口信息;第二确定模块,用于基于各文字的窗口信息对相应文字的向量进行注意力机制增强处理,得到对应文字的目标向量;第三确定模块,用于基于多个文字的目标向量、事件类型集合以及论元角色集合,确定待抽取文本的事件类型、触发词以及论元。

12、第三方面,本发明提供了一种计算机设备,包括:存储器和处理器,存储器和处理器之间互相通信连接,存储器中存储有计算机指令,处理器通过执行计算机指令,从而执行上述第一方面或其对应的任一实施方式的基于局部信息关注的交织事件抽取方法。

13、第四方面,本发明提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机指令,计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的基于局部信息关注的交织事件抽取方法。

14、第五方面,本发明提供了一种计算机程序产品,包括计算机指令,计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的基于局部信息关注的交织事件抽取方法。

技术特征:

1.一种基于局部信息关注的交织事件抽取方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述预设长度是根据预设文本训练集中实体的平均长度确定的。

3.根据权利要求2所述的方法,其特征在于,基于多个文字的目标向量、

4.根据权利要求3所述的方法,其特征在于,基于多个文字的目标向量以及所述事件类型集合确定各文字的属于触发词起始位置的第一概率信息以及各文字属于触发词结束位置的第二概率信息的步骤,包括:

5.根据权利要求3所述的方法,其特征在于,基于多个文字的目标向量、事件类型信息、触发词信息以及所述论元角色集合确定各文字属于论元起始位置的第三概率信息以及各文字属于论元结束位置的第四概率信息的步骤,包括:

6.根据权利要求3所述的方法,其特征在于,基于各文字的第一概率信息、第二概率信息确定待抽取文本的事件类型信息以及触发词信息的步骤,包括:

7.一种基于局部信息关注的交织事件抽取装置,其特征在于,所述装置包括:

8.一种计算机设备,其特征在于,包括:

9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机指令,所述计算机指令用于使计算机执行权利要求1至6中任一项所述的基于局部信息关注的交织事件抽取方法。

10.一种计算机程序产品,其特征在于,包括计算机指令,所述计算机指令用于使计算机执行权利要求1至6中任一项所述的基于局部信息关注的交织事件抽取方法。

技术总结本发明涉及电子技术领域,公开了一种基于局部信息关注的交织事件抽取方法、装置及设备,本发明提供的方法,通过预设长度的滑动窗口以及待抽取文本的分布式向量,确定待抽取文本中各文字的窗口信息,基于各文字的窗口对相应文字的向量进行注意力机制增强处理,从而使文本中的每个文字的向量表示都只关注其对应滑动窗口内的上下文信息,强化了每个文字捕捉局部上下文信息的能力,局部上下文信息是更细粒度的实体级别的上下文信息,有助于提升触发词和论元的抽取效果。此外,局部信息关注显著提升了触发词和论元抽取结果的准确性,有效缓解了误差的累积问题。技术研发人员:陶建华,韩帅虎,杨国花,张大伟,温正棋受保护的技术使用者:启元实验室技术研发日:技术公布日:2024/7/29

本文地址:https://www.jishuxx.com/zhuanli/20240730/197008.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。