技术新讯 > 计算推算,计数设备的制造及其应用技术 > 训练目标模型的方法及装置与流程  >  正文

训练目标模型的方法及装置与流程

  • 国知局
  • 2024-07-31 23:21:41

本说明书一个或多个实施例涉及自然语言处理,尤其涉及一种训练目标模型的方法及装置。

背景技术:

1、语义搜索的主要任务是在大量文本中找到与输入文本(比如,查询)语义相近的文本,其已成为自然语言处理的一个组成部分。语义搜索在各个领域都具有重大影响,包括信息检索、问答、对话系统、推荐系统以及检索增强生成等。

2、随着大语言模型(large language mode l,简称llm)的普遍流行,多数情况下会通过预训练大语言模型来执行语义搜索任务,然而由于大语言模型的参数量较大,从而其训练成本较高、开销极大。因此,迫切需要提供一种训练方案,以解决现有的训练成本高和开销大的问题。

技术实现思路

1、本说明书一个或多个实施例描述了一种训练目标模型的方法及装置,基于知识蒸馏法来训练用于执行语义搜索的目标模型,由此可以实现在确保模型准确性的情况下,大大提升模型的训练效率。

2、第一方面,提供了一种训练目标模型的方法,包括:

3、获取训练集,其中包括若干匹配的文本对,所述文本对包括查询文本和段落文本;

4、利用目标模型分别处理所述训练集中的文本,得到第一样本对应的第一匹配得分,以及第二样本对应的第二匹配得分;其中所述第一样本属于匹配的文本对构成的正样本,所述第二样本属于不匹配的文本对构成的负样本;

5、获取利用预训练的大语言模型分别处理所述第一样本和第二样本而得到的第一匹配概率和第二匹配概率;所述目标模型的参数量远小于所述大语言模型;

6、根据所述第一匹配得分和第二匹配得分,以及所述第一匹配概率和第二匹配概率,确定对比损失;

7、基于综合损失,调整所述目标模型的参数,所述综合损失至少包括所述对比损失,所述目标模型用于生成用户输入的目标查询的相似查询或目标答案。

8、第二方面,提供了一种训练目标模型的装置,包括:

9、获取单元,用于获取训练集,其中包括若干匹配的文本对,所述文本对包括查询文本和段落文本;

10、处理单元,用于利用目标模型分别处理所述训练集中的文本,得到第一样本对应的第一匹配得分,以及第二样本对应的第二匹配得分;其中所述第一样本属于匹配的文本对构成的正样本,所述第二样本属于不匹配的文本对构成的负样本;

11、所述获取单元,还用于获取利用预训练的大语言模型分别处理所述第一样本和第二样本而得到的第一匹配概率和第二匹配概率;所述目标模型的参数量远小于所述大语言模型;

12、确定单元,用于根据所述第一匹配得分和第二匹配得分,以及所述第一匹配概率和第二匹配概率,确定对比损失;

13、调整单元,用于基于综合损失,调整所述目标模型的参数,所述综合损失至少包括所述对比损失,所述目标模型用于生成用户输入的目标查询的相似查询或目标答案。

14、第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。

15、第四方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,该处理器执行所述可执行代码时,实现第一方面的方法。

16、本说明书一个或多个实施例提供的训练目标模型的方法,基于知识蒸馏法来训练用于执行语义搜索任务的目标模型,具体以预训练的大语言模型作为教师模型,指导参数量远小于教师模型的目标模型(即学生模型)的训练,也就是说,本方案可以借助于大语言模型的能力,来训练目标模型,由此,使得所训练的目标模型可以兼具效率高和准确性高的优点。

技术特征:

1.一种训练目标模型的方法,包括:

2.根据权利要求1所述的方法,其中,所述目标模型包括,第一和第二编码器、交互模块和第一分类器;所述目标模型分别处理所述训练集中的文本,包括:

3.根据权利要求2所述的方法,其中,所述第一和第二编码器均具有目标编码器结构,所述目标编码器结构包括嵌入层和聚合层;所述利用所述第一和第二编码器分别处理第一查询文本和第一段落文本,包括:

4.根据权利要求3所述的方法,其中,所述得到所述输入文本对应的特征向量,包括:

5.根据权利要求2所述的方法,其中,所述目标样本具有指示关系类型的样本标签;所述交互模块包括,多种关系类型共享的底层网络部分和所述多种关系类型分别对应的多个上层网络部分;

6.根据权利要求5所述的方法,其中,所述底层网络部分和上层网络部分均包括多层感知机。

7.根据权利要求1所述的方法,其中,所述负样本为第一类负样本,所述第一类负样本通过将任一匹配的文本对中的段落文本,替换为所述训练集中其他段落文本而得到。

8.根据权利要求7所述的方法,其中,所述目标模型的输入还包括若干第二类负样本;各个第二类负样本通过将任一匹配的文本对中的段落文本,替换为在预设语料库中检索的相关段落而得到;所述方法还包括:

9.根据权利要求8所述的方法,还包括:

10.根据权利要求7所述的方法,其中,所述目标模型的输入还包括若干第二类负样本;各个第二类负样本通过将任一匹配的文本对中的段落文本,替换为在预设语料库中检索的相关段落而得到;所述方法还包括:

11.根据权利要求1所述的方法,其中,所述大语言模型包括:交叉编码器和第二分类器;所述第一匹配概率和第二匹配概率通过以下步骤获得:

12.根据权利要求11所述的方法,其中,所述交叉编码器的输入还包括,指示所述第一查询文本和第一段落文本的关系类型的提示词。

13.根据权利要求11所述的方法,其中,所述确定所述目标样本的匹配概率,包括:

14.根据权利要求7所述的方法,其中,所述目标模型的输入还包括第二类负样本;所述第二类负样本通过将任一匹配的文本对中的段落文本,替换为在预设语料库中检索的相关段落而得到;所述确定对比损失,包括:

15.一种训练目标模型的装置,包括:

16.根据权利要求15所述的装置,其中,所述目标模型包括,第一和第二编码器、交互模块和第一分类器;所述处理单元包括:

17.根据权利要求16所述的装置,其中,所述第一和第二编码器均具有目标编码器结构,所述目标编码器结构包括嵌入层和聚合层;所述编码子单元具体用于:

18.根据权利要求16所述的装置,其中,所述目标样本具有指示关系类型的样本标签;所述交互模块包括,多种关系类型共享的底层网络部分和所述多种关系类型分别对应的多个上层网络部分;

19.根据权利要求15所述的装置,其中,所述负样本为第一类负样本,所述第一类负样本通过将任一匹配的文本对中的段落文本,替换为所述训练集中其他段落文本而得到。

20.根据权利要求19所述的装置,其中,所述目标模型的输入还包括若干第二类负样本;各个第二类负样本通过将任一匹配的文本对中的段落文本,替换为在预设语料库中检索的相关段落而得到;所述装置还包括:

21.根据权利要求20所述的装置,

22.根据权利要求19所述的装置,其中,所述目标模型的输入还包括若干第二类负样本;各个第二类负样本通过将任一匹配的文本对中的段落文本,替换为在预设语料库中检索的相关段落而得到;所述装置还包括:

23.根据权利要求19所述的装置,其中,所述目标模型的输入还包括第二类负样本;所述第二类负样本通过将任一匹配的文本对中的段落文本,替换为在预设语料库中检索的相关段落而得到;所述确定单元具体用于:

24.一种计算机可读存储介质,其上存储有计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-14中任一项所述的方法。

25.一种计算设备,包括存储器和处理器,其中,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-14中任一项所述的方法。

技术总结本说明书实施例提供一种训练目标模型的方法及装置,在训练目标模型的方法中,获取训练集,其中包括若干匹配的文本对。利用目标模型分别处理训练集中的文本,得到第一样本对应的第一匹配得分,以及第二样本对应的第二匹配得分。其中第一样本属于匹配的文本对构成的正样本,第二样本属于不匹配的文本对构成的负样本。获取利用预训练的大语言模型分别处理第一样本和第二样本而得到的第一和第二匹配概率。根据第一和第二匹配得分,以及第一和第二匹配概率,确定对比损失。基于综合损失,调整目标模型的参数。技术研发人员:廖子寒,余航,李建国,张伟,王骏受保护的技术使用者:支付宝(杭州)信息技术有限公司技术研发日:技术公布日:2024/7/29

本文地址:https://www.jishuxx.com/zhuanli/20240730/197196.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。