技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种实体关系联合抽取方法和装置与流程 > 正文

一种实体关系联合抽取方法和装置与流程

国知局
2024-07-31 23:12:45

本发明涉及自然语言处理领域，特别是涉及一种实体关系联合抽取方法和装置。

背景技术：

1、自然语言处理作为文本挖掘的核心技术，主要研究如何让机器更好地理解人类语言。从2018年起，迁移学习的思想被广泛应用在自然语言处理领域，提出了许多预训练语言模型，如：生成式预训练转换器(generative pre-trained transformer，简写为gpt)、基于转换器的双向编码器表示(bidirectional encoder representation fromtransformers，简写为bert)、基于广义自回归预训练的语言理解模型(xlnet:generalizedautoregressive pretrainingfor language understanding)等。使用预训练语言模型可以降低后期训练成本、加快在下游任务中模型的收敛速度、显著提升下游任务的准确率。

2、随着计算机性能的提升，预训练语言模型的参数量从2018年的1.1亿(bert-base)增长到2021年的53000亿(megatron-turing)。此类参数数量巨大的预训练语言模型被称为大语言模型(large language model，缩写llm)，也称大型语言模型，旨在理解和生成人类语言，它们在大量的文本数据上进行训练，可以执行广泛的任务，包括文本总结、翻译、情感分析等等。但是大语言模型参数量的增长在带来益处的同时，也表现出许多隐患。因为巨大的参数量会导致大语言模型的迁移能力下降，即使在微调时使用了较大的数据集，也无法保障大语言模型能够快速学习微调样本。并且，传统微调方法需要对每一种下游任务进行全模型微调，并存储一份该任务的模型样本，对存储资源造成巨大压力。

3、鉴于此，如何克服现有技术所存在的缺陷，解决现有大语言模型在迁移时不便于进行微调的现象，是本技术领域待解决的问题。

技术实现思路

1、针对现有技术的以上缺陷或改进需求，本发明解决了现有大语言模型在迁移时不便于进行微调的问题。

2、本发明实施例采用如下技术方案：

3、第一方面，本发明提供了一种实体关系联合抽取方法，具体为：根据任务数据集确定实体类别库和关系类别库，基于实体类别库和关系类别库组成训练prompt模板；使用prompt训练器，基于训练prompt模板生成初始embedding参数；其中，任务数据集中的数据为包含至少一个句子的有标签文本，所述有标签文本中的标签用于表示句子中实体间关系；将初始embedding参数传入prompt训练器中，使用prompt训练器对大语言模型进行训练，对大语言模型的输出特征依据实体类别库和关系类别库进行归一化指数处理后，通过反向传播更新prompt训练器，直至获得训练完成的prompt训练器，并获得连续embedding参数；使用训练完成的prompt训练器和连续embedding参数对无标签文本进行实体关系联合抽取，以获取无标签文本中的实体关系。

4、优选的，所述根据任务数据集确定实体类别库和关系类别库，基于实体类别库和关系类别库组成训练prompt模板，具体包括：获取任务数据集中的句子，根据句子对应的标签抽取每个句子中的头实体和尾实体，并建立相应的sub-prompt、实体类别库和关系类别库；基于实体类别库和关系类别库，选取与当前抽取任务相关的指定token作为anchortoken；prompt生成器基于sub-prompt和anchor token组成大语言模型的训练prompt模板。

5、优选的，所述建立相应的sub-prompt、实体类别库和关系类别库，具体包括：指定头实体对应的第一标签，将头实体和第一标签组成头实体token组；指定尾实体对应的第二标签，将尾实体和第二标签组成尾实体token组；新增关系文本和第三标签，将关系文本和第三标签组成实体间关系token组；根据头实体token组、尾实体token组和实体间关系token组，确定头实体、尾实体和实体间关系所属的类别，根据所属的类别制定实体类别库和关系类别库。

6、优选的，所述prompt生成器基于sub-prompt和anchor token组成大语言模型的训练prompt模板，具体包括：获取任务数据集中的第一句子，prompt生成器将第一句子中的token替换为相应的头实体token或尾实体token，将替换后的第一句子作为第二句子；将实体间关系token拼接在相应的第一句子之后，与anchor token、可训练的连续tokens生成该任务的训练prompt模板。

7、优选的，所述通过prompt训练器，基于训练prompt模板生成初始embedding参数，具体包括：获取句子中除头实体、尾实体和anchor token外的所有token，将获得的token作为训练prompt模板中可训练的连续tokens；将训练prompt模板中可训练的连续tokens组成一个token序列，将大语言模型训练得到的embedding作为token序列中每一个token的初始embedding参数。

8、优选的，所述将初始embedding参数传入prompt训练器中，使用prompt训练器对大语言模型进行训练，具体包括：将初始embedding参数传入prompt训练器中，prompt训练器获取token序列的全局特征向量；将全局特征向量输入大语言模型中，大语言模型基于全局特征向量对token序列进行编码，以输出对应的上下文感知的表示。

9、优选的，所述对大语言模型的输出特征依据实体类别库和关系类别库进行归一化指数处理后，通过反向传播更新prompt训练器，直至获得训练完成的prompt训练器，并获得连续embedding参数，具体包括：将大语言模型输出的第一标签、第二标签和第三标签进行归一化指数处理操作，得到每个标签的概率分布；将标签的概率分布与实体类别库和关系类别库对比，使用反向传播算法计算大语言模型的损失梯度，并根据损失梯度更新大语言模型的模型参数；获取任务数据集中与当前任务相符的数据，使用获取的数据对prompt训练器进行至少一轮训练，以得到一个用于抽取当前任务的prompt训练器，并获得相应的连续embedding参数。

10、优选的，所述使用训练完成的prompt训练器和连续embedding参数对无标签文本进行实体关系联合抽取，以获取无标签文本中的实体关系，具体包括：获取无标签文本中的句子，基于获取到的句子建立抽取prompt模板；通过prompt训练器，基于抽取prompt模板生成抽取embedding参数；将抽取embedding参数传入prompt训练器中，将prompt训练器输出的全局特征向量传入大语言模型中，获取无标签文本中的实体关系。

11、第二方面，本发明提供了一种实体关系联合抽取装置，具体为：包括至少一个处理器和存储器，至少一个处理器和存储器之间通过数据总线连接，存储器存储能被至少一个处理器执行的指令，指令在被处理器执行后，用于完成第一方面中的实体关系联合抽取方法。

12、第三方面，本发明还提供了一种非易失性计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行，用于完成第一方面所述的方法。

13、第四方面，提供了一种芯片，包括：处理器和接口，用于从存储器中调用并运行存储器中存储的计算机程序，执行如第一方面的方法。

14、第五方面，提供了一种包含指令的计算机程序产品，当该指令在计算机或处理器上运行时，使得计算机或处理器执行如第一方面的方法。

15、与现有技术相比，本发明的有益效果在于：使用基于大语言模型prompt微调的实体关系联合抽取方法，能够通过prompt训练器进行微调，并生成用于提示的prompt模板，从而在大语言模型中更高效地、更准确地完成实体关系抽取任务。