技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种文本的处理方法、产品、设备及介质与流程  >  正文

一种文本的处理方法、产品、设备及介质与流程

  • 国知局
  • 2024-07-31 23:18:55

本发明涉及大语言模型,特别是涉及一种文本的处理方法、产品、设备及介质。

背景技术:

1、大语言模型(large language model,llm)通常指的是使用大量数据进行训练、具有大量参数的深度学习模型。大型语言模型的发展给自然语言处理(nature languageprocess,nlp)和人工智能领域带来了极大地进步。但是实际中会出现新知识,需要将这些新知识融入到模型中,以便模型可以理解和生成与之相关的内容。

2、为了将新知识融入到模型中,相关的技术中通常是重新训练整个大模型,非常耗时、需要很大的算力资源,且增量训练大语言模型可能使得模型遗忘了已经学习到的知识,进而导致使用该模型对文本进行推理时,对文本推理的效率下降。

3、由此可见,如何高效、低算力地将新知识融入到已有的大语言模型中,且不会让模型遗忘已经学习到的知识,进而提高使用该模型对文本推理的效率是本领域人员亟需解决的技术问题。

技术实现思路

1、本发明的目的是提供一种文本的处理方法、产品、设备及介质,以解决将新知识融入到模型时,重新训练整个大模型导致耗时长、需要很大的算力资源,且增量训练大语言模型可能使得模型遗忘了已经学习到的知识,进而导致使用该模型对文本进行推理时,对文本推理的效率下降的技术问题。

2、为解决上述技术问题,本发明提供一种文本的处理方法,包括:

3、获取待推理的文本;

4、在检测到所述待推理的文本中包含新知识的情况下,将所述待推理的文本输入至新知识适配器和大语言模型中;其中,所述新知识适配器插入所述大语言模型中的变换器块中,与所述变换器块中的前馈神经网络模块并列放置,且通过门控单元对所述新知识适配器输出的适配特征与所述变换器块中的前馈神经网络模块输出的原始特征进行融合;所述新知识适配器由多个子模块堆叠形成,且每个子模块中包含线性层和激活函数;所述新知识适配器在训练时,利用注入的新知识样本进行训练,且在训练过程中保持所述大语言模型中的参数不变;

5、通过所述新知识适配器和所述大语言模型对所述待推理的文本进行推理预测,以得到所述待推理的文本对应的预测结果。

6、一方面,所述新知识适配器插入所述大语言模型中的变换器块中的目标变换器块中;其中,所述目标变换器块为所述大语言模型的所有变换器块中位于最后一层的变换器块。

7、另一方面,确定所述新知识适配器对应的函数包括:

8、对注入的新知识样本应用权重和偏置进行线性变换并获取线性变换结果;

9、对线性变换结果应用激活函数进行变换;

10、将各子模块对应的激活函数变换后的结果堆叠起来得到所述新知识适配器对应的函数。

11、另一方面,所述新知识适配器对应的函数表达式为:

12、;

13、其中,表示的是文本,表示新知识适配器对应的函数,表示第个线性变换的权重,表示第个线性变换的偏置,表示的是子模块的数量,表示的是激活函数,表示的是堆叠处理;

14、其中,激活函数的表达式为:

15、。

16、另一方面,所述通过门控单元对所述新知识适配器输出的适配特征与所述变换器块中的前馈神经网络模块输出的原始特征进行融合对应的表达式为:

17、;

18、其中,表示所述门控单元的输出结果,表示的是归一化函数,表示的是所述门控单元的权重矩阵,表示的是所述门控单元的偏置向量,表示的是所述新知识适配器输出的适配特征,表示的是所述变换器块中的前馈神经网络模块输出的原始特征。

19、另一方面,确定经所述新知识适配器和所述大语言模型后的输出结果包括:

20、获取为所述新知识适配器输出结果配置的第一权重和为所述大语言模型输出结果适配的第二权重;其中,所述第一权重和所述第二权重之和为1;

21、获取所述新知识适配器输出的适配特征与所述第一权重的第一乘积结果;

22、获取所述变换器块中的前馈神经网络模块输出的原始特征与所述第二权重的第二乘积结果;

23、将所述第一乘积结果和所述第二乘积结果之和作为经所述新知识适配器和所述大语言模型后的输出结果。

24、另一方面,确定所述新知识适配器中的子模块的数量包括:

25、获取所述新知识适配器中注入的新知识样本的数量;

26、根据注入的所述新知识样本的数量确定所述新知识适配器中的子模块的数量;其中,所述新知识适配器中的子模块的数量与注入的所述新知识样本的数量呈正相关的关系。

27、另一方面,检测所述待推理的文本中是否包含新知识包括:

28、通过新知识识别器检测所述待推理的文本中是否包含新知识;其中,所述新知识识别器由多个变换编码器块堆叠形成;

29、训练所述新知识识别器包括:

30、获取训练所述大语言模型时的原始语料样本;

31、获取新的语料并对所述新的语料进行扩展,得到扩展后的语料;

32、从所述原始语料样本中随机采样选取负样本以及从所述扩展后的语料中随机采样选取正样本;

33、对每个样本取关键词进行对比学习分类确定出样本属于新知识或旧知识;其中,所述样本包含正样本和负样本。

34、另一方面,所述获取新的语料并对所述新的语料进行扩展包括:

35、获取所述新的语料,至少通过以下方式之一对所述新的语料进行扩展;其中,所述新的语料与所述扩展后的语料语义相同;

36、方式一:获取回复所述新的语料对应的回复内容;

37、将所述回复内容加入至所述新的语料中;

38、方式二:对所述新的语料进行同义词替换、句子结构调整以对所述新的语料进行扩展。

39、另一方面,所述通过新知识识别器检测所述待推理的文本中是否包含新知识包括:

40、获取表征所述新知识识别器中所述扩展后的语料的特征集合以及获取表征所述待推理的文本的特征;

41、获取表征所述待推理的文本的特征与所述特征集合中的各特征之间的相似性;

42、若检测到相似性大于或等于预设值的情况下,确定表征所述待推理的文本的特征属于所述特征集合,以及确定通过所述新知识识别器检测到所述待推理的文本中包含新知识;

43、若检测到相似性小于所述预设值的情况下,确定通过所述新知识识别器检测到所述待推理的文本中未包含新知识。

44、另一方面,所述方法还包括:

45、在检测到所述待推理的文本中不包含新知识的情况下,将所述待推理的文本输入至所述大语言模型中;

46、通过所述大语言模型对所述待推理的文本进行推理预测,以得到所述待推理的文本对应的预测结果。

47、另一方面,训练所述新知识适配器或/或训练所述新知识识别器包括:

48、使用预设优化器和选取预设的学习率控制所述新知识适配器的收敛和/或控制所述新知识识别器的收敛;

49、在检测到所述新知识适配器收敛和/或所述新知识识别器收敛的情况下,确定完成对所述新知识适配器的训练和/或完成对所述新知识识别器的训练。

50、为了解决上述技术问题,本发明还提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现上述的文本的处理方法的步骤。

51、为了解决上述技术问题,本发明还提供一种文本的处理设备,包括:

52、存储器,用于存储计算机程序;

53、处理器,用于执行所述计算机程序时实现上述的文本的处理方法的步骤。

54、为了解决上述技术问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的文本的处理方法的步骤。

55、本发明所提供的文本的处理方法,包括:获取待推理的文本;在检测到待推理的文本中包含新知识的情况下,将待推理的文本输入至新知识适配器和大语言模型中;通过新知识适配器和大语言模型对待推理的文本进行推理预测,以得到待推理的文本对应的预测结果。

56、本发明的有益效果在于,首先,为了将新知识融入到模型,该方法中在新知识适配器中利用注入的新知识样本进行训练,且在训练过程中保持大语言模型中的参数不变,即在已有的大语言模型的基础上仅对新知识适配器的参数进行训练。由于新知识适配器的参数是远远小于大语言模型中的参数,因此,能够高效、低算力、低成本地为大语言模型注入新的知识,又能保证大模型原本能力不遗忘,由于模型训练的效率提高,进而提高了使用该模型对文本推理时的效率;其次,相比于单独使用大语言模型进行推理的方式,本发明提供的方法中,新知识适配器插入大语言模型中的变换器块中,与变换器块中的前馈神经网络模块并列放置,且通过门控单元对新知识适配器输出的适配特征与变换器块中的前馈神经网络模块输出的原始特征进行融合,实现了当有新知识时,能够使用新知识适配器和大语言模型进行推理,尽可能地保证了能够对新知识的推理;再次,相比于使用单层网络的方式,本发明提供的方法中新知识适配器由多个子模块堆叠形成,且每个子模块中包含线性层和激活函数,通过子模块的堆叠可以以更少的参数学习更复杂的函数,实现了高效使用参数。

57、此外,新知识适配器插入大语言模型中的变换器块中的最后一层的变换器块中,可以减少对模型前面层已学习特征的干扰,保持模型在原始任务上的性能;且在反向传播的过程中能够被最先处理到,提高了处理的效率;

58、在确定新知识适配器对应的函数时,将各子模块对应的激活函数变换后的结果堆叠起来得到新知识适配器对应的函数,使得模型可以整合来自不同子模块的特征,增强了模型的特征融合能力;

59、在确定通过门控单元对新知识适配器输出的适配特征与变换器块中的前馈神经网络模块输出的原始特征进行融合对应的表达式时,考虑到了权重和偏置,使得根据权重和偏置可以动态地控制两种特征的融合比例,使得模型可以自适应地调整对新知识和原始知识的依赖;

60、为新知识适配器输出结果配置的第一权重和为大语言模型输出结果适配的第二权重,结合第一权重、第二权重确定经过经新知识适配器和大语言模型后的输出结果,使得可以根据第一权重和第二权重的大小更好地控制不同特征的贡献,使得模型可以更好地适应新知识;

61、新知识适配器中的子模块的数量与注入的新知识样本的数量呈正相关的关系,保证了当新知识样本较多时,通过增加子模块数量,实现了支持了模型的增量学习能力;

62、通过由多个变换编码器块堆叠形成的新知识识别器检测待推理的文本中是否包含新知识,能够有效地提取文本特征,堆叠多个块可以进一步深化特征提取的能力;且在训练新知识识别器时,包括获取原始语料样本、扩展新语料、随机采样选取正负样本,以及进行关键词的对比学习分类。通过扩展新语料,模型可以学习到最新的信息和知识点,提高对新知识领域的覆盖;而且通过关键词提取,使得模型可以集中学习文本中最有代表性的部分,提高学习效率;扩展语料库可以增加训练数据的多样性,提高模型对不同表达方式的适应性;

63、在检测到待推理的文本中不包含新知识的情况下,将其输入至大语言模型进行推理预测。由于大语言模型已经训练了大量数据,能够利用其已有的知识对文本进行准确的推理预测;对于不含新知识的文本,避免了新知识识别和处理的计算开销,节省了资源。

64、另外,本发明还提供一种计算机程序产品、一种文本的处理设备以及计算机可读存储介质,与上述提到的文本的处理方法具有相同或相对应的技术特征,效果同上。

本文地址:https://www.jishuxx.com/zhuanli/20240730/196962.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。