技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种长文本大模型训练方法及装置与流程  >  正文

一种长文本大模型训练方法及装置与流程

  • 国知局
  • 2024-08-19 14:20:53

本发明属于长文本大模型处理,尤其涉及一种长文本大模型训练方法、装置、电子设备和存储介质。

背景技术:

1、现有长文本大模型训练通常包括以下几个步骤:文本预处理,通过截断或分割的方式将长文本转换为较短的文本片段,以便于模型的处理。特征提取,利用词嵌入技术将文本转换为数值特征,为模型训练提供基础。模型训练,应用诸如rnn或lstm等模型进行训练,以捕捉文本中的依赖关系并进行分类或回归等任务。现有技术方案虽然能够在一定程度上处理长文本,但仍存在明显的局限性。

2、具体地说,现有技术方案在处理长文本数据时,主要存在以下几个技术问题:第一、资源需求过大:由于长文本的特性,现有的技术方案在处理长文本时,通常会消耗大量的计算资源,这在一定程度上限制了模型的应用范围和效率;第二、模型理解能力不足:现有技术方案中的模型通常难以捕捉长文本中的长距离依赖关系,导致模型的理解能力不足,无法准确地理解和表达长文本的含义;第三、训练效率低下:由于长文本的特性,现有技术方案的模型训练过程通常效率较低,耗时较长,难以满足实时或大规模应用的需求。

3、在这些技术问题中,解决资源需求过大和模型理解能力不足两个问题时通过增加模型复杂度来尝试提高模型的理解能力,这往往会导致计算资源需求的进一步增加,从而形成了一个恶性循环。

技术实现思路

1、鉴于以上现有技术的不足,发明的目的在于提供一种长文本大模型训练方法、装置、电子设备和存储介质,不仅能够显著降低处理长文本数据所需的计算资源,还能在保持较高性能的同时,提高模型的训练效率和理解能力。

2、本发明的第一方面,提出了一种长文本大模型训练方法,包括:

3、步骤一:获取长文本数据对应的原始输入矩阵;

4、步骤二:对原始输入矩阵进行特征增强与多语义传递处理得到第一矩阵;

5、步骤三:对第一矩阵进行特征提取与数据增强处理得到第二矩阵;

6、步骤四:根据第二矩阵计算查询矩阵、键矩阵和值矩阵;

7、步骤五:根据查询矩阵、键矩阵和值矩阵计算自注意力权重;

8、步骤六:将查询矩阵、键矩阵和值矩阵进行移位操作;

9、步骤七:根据自注意力权重计算梯度,根据模型的损失函数使用梯度下降法更新模型参数;

10、重复以上步骤一至步骤七七个步骤,直到模型收敛得到长文本大模型。

11、进一步地,上述一种长文本大模型训练方法中,对原始输入矩阵进行特征增强与多语义传递处理得到第一矩阵,是通过如下公式处理的:

12、

13、其中,x表示原始输入矩阵,f表示特征扩展矩阵,表示矩阵乘法,xf表示第一矩阵。

14、进一步地,上述一种长文本大模型训练方法中,对第一矩阵进行特征提取与数据增强处理得到第二矩阵,是通过如下公式处理的:

15、

16、其中,t表示特征提取转换矩阵,表示矩阵乘法,xf表示第一矩阵,表示第二矩阵。

17、进一步地,上述一种长文本大模型训练方法中,根据第二矩阵计算查询矩阵、键矩阵和值矩阵,是通过如下公式计算的:

18、

19、

20、

21、其中,表示第二矩阵,q表示查询矩阵、k表示键矩阵,v表示值矩阵,wq、wk和wv表示需要学习的权重矩阵。

22、进一步地,上述一种长文本大模型训练方法中,根据查询矩阵、键矩阵和值矩阵计算自注意力权重,是通过如下公式计算的:

23、

24、其中,q表示查询矩阵、k表示键矩阵,v表示值矩阵,dk表示每个注意力头的维度,kt表示键矩阵的转秩矩阵,attention(q,k,v)表示自注意力权重,softmax(…)表示数学函数。

25、进一步地,上述一种长文本大模型训练方法中,将查询矩阵、键矩阵和值矩阵进行移位操作,包括:

26、将查询矩阵、键矩阵和值矩阵分成两个块;

27、将两个块中其中一个块沿序列维度移位,再将两个块连接回到一起;

28、通过如下公式表示:

29、qkvshifted=concat(qkvchunk1,roll(qkvchunk2-g/2,1))

30、其中,concat表示连接操作,roll表示沿序列维度的移位操作,g表示组大小,qkvchunk1与qkvchunk2表示对查询矩阵、键矩阵和值矩阵分成两个块的结果。

31、进一步地,上述一种长文本大模型训练方法中,更新模型参数的过程表示为:

32、

33、其中,θ表示模型参数,α表示学习率,j(θ)表示损失函数,表示梯度。

34、本发明的第二方面,还提出了一种长文本大模型训练装置,包括:

35、获取模块:用于获取长文本数据对应的原始输入矩阵;

36、第一处理模块:用于对原始输入矩阵进行特征增强与多语义传递处理得到第一矩阵;

37、第二处理模块:用于对第一矩阵进行特征提取与数据增强处理得到第二矩阵;

38、第一计算模块:用于根据第二矩阵计算查询矩阵、键矩阵和值矩阵;

39、第二计算模块:用于根据查询矩阵、键矩阵和值矩阵计算自注意力权重;

40、移位操作模块:用于将查询矩阵、键矩阵和值矩阵进行移位操作;

41、更新模块:用于根据自注意力权重计算梯度,根据模型的损失函数使用梯度下降法更新模型参数;

42、通过获取模块、第一处理模块、第二处理模块、第一计算模块、第二计算模块、移位操作模块和更新模块依次重复训练模型,直到模型收敛得到长文本大模型。

43、本发明的第三方面,还提出了一种电子设备,包括:处理器和存储器;

44、所述处理器通过调用所述存储器存储的程序或指令,用于执行如上所述任一项一种长文本大模型训练方法。

45、本发明的第四方面,还提出了一种计算机可读存储介质,所述计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如上所述任一项一种长文本大模型训练方法。

46、本发明的有益效果如下:本发明通过执行移位操作、特征增强与多语义传递处理,能够显著降低处理长文本数据所需的计算资源,从而提高了模型训练的效率;通过特征提取与数据增强处理以及自注意力机制能够提高模型对长文本的理解能力,捕捉文本中的长距离依赖关系,从而提高模型在处理长文本任务时的性能,所以本发明不仅能够显著降低处理长文本数据所需的计算资源,还能在保持较高性能的同时,提高模型的训练效率和理解能力,解决了现有技术中资源需求过大、模型理解能力不足以及训练效率低下的问题。

技术特征:

1.一种长文本大模型训练方法,其特征在于,包括:

2.根据权利要求1所述的一种长文本大模型训练方法,其特征在于,所述对所述原始输入矩阵进行特征增强与多语义传递处理得到第一矩阵,是通过如下公式处理的:

3.根据权利要求1所述的一种长文本大模型训练方法,其特征在于,所述对所述第一矩阵进行特征提取与数据增强处理得到第二矩阵,是通过如下公式处理的:

4.根据权利要求1所述的一种长文本大模型训练方法,其特征在于,所述根据第二矩阵计算查询矩阵、键矩阵和值矩阵,是通过如下公式计算的:

5.根据权利要求1所述的一种长文本大模型训练方法,其特征在于,所述根据所述查询矩阵、所述键矩阵和所述值矩阵计算自注意力权重,是通过如下公式计算的:

6.根据权利要求1所述的一种长文本大模型训练方法,其特征在于,所述将所述查询矩阵、所述键矩阵和所述值矩阵进行移位操作,包括:

7.根据权利要求1所述的一种长文本大模型训练方法,其特征在于,所述更新模型参数的过程表示为:

8.一种长文本大模型训练装置,其特征在于,包括:

9.一种电子设备,其特征在于,包括:处理器和存储器;

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如权利要求1至7任一项所述一种长文本大模型训练方法。

技术总结本发明涉及一种长文本大模型训练方法及装置,属于模型训练技术领域,该方法包括:获取长文本数据对应的原始输入矩阵;对原始输入矩阵进行特征增强与多语义传递处理得到第一矩阵;对第一矩阵进行特征提取与数据增强处理得到第二矩阵;根据第二矩阵计算查询矩阵、键矩阵和值矩阵;根据查询矩阵、键矩阵和值矩阵计算自注意力权重;将查询矩阵、键矩阵和值矩阵进行移位操作;根据自注意力权重计算梯度,根据模型的损失函数使用梯度下降法更新模型参数;重复以上步骤,直到模型收敛得到长文本大模型。本发明不仅能够显著降低处理长文本数据所需的计算资源,还能在保持较高性能的同时,提高模型的训练效率和理解能力。技术研发人员:鲍思羽,赵瑞静,曹梦佳,陈硕,牛一凡,张琳鑫受保护的技术使用者:天翼云科技有限公司技术研发日:技术公布日:2024/8/16

本文地址:https://www.jishuxx.com/zhuanli/20240819/274813.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。