一种用于语言模型对齐的向量量化方法、装置、电子设备及存储介质与流程
- 国知局
- 2024-10-09 15:04:13
本技术涉及计算机,特别是涉及一种用于语言模型对齐的向量量化方法。
背景技术:
1、大语言模型中的transformer结构要求输入为向量序列形式。而图片并不是一种向量序列格式,为了使得大语言模型能够理解图片内容,通常采用多模态模型将图片数据转化为大语言模型可识别的向量序列,这一过程被称为语言模型对齐。
2、传统的多模态模型训练方式是将输出的向量序列直接作为大语言模型的输入,然而训练出的多模态模型所输出的向量序列仅对应特定的大语言模型,无法较好地与其他大语言模型适配,因此,亟需一种方法来提高与大语言模型适配能力。
技术实现思路
1、本技术提供了一种用于语言模型对齐的向量量化方法、装置、电子设备及存储介质,能够增强输出向量对不同大语言模型的适配能力。
2、第一方面,本技术提供了一种用于语言模型对齐的向量量化方法,所述方法包括:
3、初始化输入码本和输出码本;所述输入码本包括多个输入码本向量,所述输出码本包括多个输出码本向量;所述输入码本中输入码本向量的数量与所述输出码本中输出码本向量的数量相同;所述输入编码中输入编码向量下标与所述输出码本中输出码本向量下标一一对应;
4、基于输入向量在所述多个输入码本向量中进行相似度搜索,根据相似度降序获得预设数量的输入码本向量下标,所述预设数量的输入码本向量下标用于表征压缩编码后的输入向量;
5、根据所述预设数量的输入码本向量下标在所述输出码本中对应获取预设数量的输出码本向量下标;
6、对所述预设数量的输出码本向量下标对应的所述预设数量的输出码本向量进行累加,获得输出向量,所述输出向量用于表征对所述压缩编码后的输入向量进行解压解码获得的向量,所述输出向量用于输入目标大语言模型,所述目标大语言模型为与所述输出码本适配的大语言模型。
7、可选地,所述基于输入向量在所述多个输入码本向量中进行相似度搜索,根据相似度降序获得预设数量的输入码本向量下标,包括:
8、分别计算所述输入向量与所述多个输入码本向量的相似度;
9、按照相似度降序排序获得所述预设数量的输入码本向量;
10、获取所述预设数量的输入码本向量对应的所述预设数量的输入码本向量下标。
11、可选地,所述分别计算所述输入向量与所述多个输入码本向量的相似度,包括:
12、分别将所述输入向量与所述多个输入码本向量进行点乘运算,获得多个点乘运算结果,所述点乘运算结果用于表征所述输入向量与输入码本向量的相似度。
13、可选地,所述按照相似度降序排序获得所述预设数量的输入码本向量,包括:
14、对所述多个点乘运算结果进行降序排序,按照降序排序的结果依次获得所述预设数量的输入码本向量。
15、可选地,所述输入码本用于压缩所述输入向量,所述输出码本用于生成所述输出向量以便适应所述大语言模型。
16、可选地,所述预设数量为整数,所述预设数量大于1且所述预设数量小于所述输入向量的维度。
17、第二方面,本技术还提供了一种用于语言模型对齐的向量量化装置,所述装置包括:
18、初始化单元,用于初始化输入码本和输出码本;所述输入码本包括多个输入码本向量,所述输出码本包括多个输出码本向量;所述输入码本中输入码本向量的数量与所述输出码本中输出码本向量的数量相同;所述输入编码中输入编码向量下标与所述输出码本中输出码本向量下标一一对应;
19、搜索单元,用于基于所述输入向量在所述多个输入码本向量中进行相似度搜索,根据相似度降序获得预设数量的输入码本向量下标,所述预设数量的输入码本向量下标用于表征压缩编码后的输入向量;
20、获取单元,用于根据所述预设数量的输入码本向量下标在所述输出码本中对应获取预设数量的输出码本向量下标;
21、累加单元,用于对所述预设数量的输出码本向量下标对应的所述预设数量的输出码本向量进行累加,获得输出向量,所述输出向量用于表征对所述压缩编码后的输入向量进行解压解码获得的向量,所述输出向量用于输入目标大语言模型,所述目标大语言模型为与所述输出码本适配的大语言模型。
22、可选地,所述搜索单元包括计算子单元、排序子单元和获取子单元;
23、所述计算子单元,用于分别计算所述输入向量与所述多个输入码本向量的相似度;
24、所述排序子单元,用于按照相似度降序排序获得所述预设数量的输入码本向量;
25、所述获取子单元,用于获取所述预设数量的输入码本向量对应的所述预设数量的输入码本向量下标。
26、可选地,所述计算子单元,具体用于:
27、分别将所述输入向量与所述多个输入码本向量进行点乘运算,获得多个点乘运算结果,所述点乘运算结果用于表征所述输入向量与输入码本向量的相似度。
28、可选地,所述排序子单元,具体用于:
29、对所述多个点乘运算结果进行降序排序,按照降序排序的结果依次获得所述预设数量的输入码本向量。
30、可选地,所述预设数量为整数,所述预设数量大于1且所述预设数量小于所述输入向量的维度。
31、第三方面,本技术还提供了一种电子设备,所述电子设备包括处理器以及存储器:
32、所述存储器用于存储计算机程序;
33、所述处理器用于根据所述计算机程序执行上述第一方面提供的所述用于语言模型对齐的向量量化方法。
34、第四方面,本技术还提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行上述第一方面提供的所述用于语言模型对齐的向量量化方法。
35、由此可见,本技术具有如下有益效果:
36、本技术提供了一种用于语言模型对齐的向量量化方法、装置、电子设备及存储介质,该方法包括:初始化输入码本和输出码本;输入码本包括多个输入码本向量,输出码本包括多个输出码本向量;输入码本中输入码本向量的数量与输出码本中输出码本向量的数量相同;输入编码中输入编码向量下标与输出码本中输出码本向量下标一一对应;基于输入向量在多个输入码本向量中进行相似度搜索,根据相似度降序获得预设数量的输入码本向量下标,预设数量的输入码本向量下标用于表征压缩编码后的输入向量;根据预设数量的输入码本向量下标在输出码本中对应获取预设数量的输出码本向量下标;对预设数量的输出码本向量下标对应的预设数量的输出码本向量进行累加,获得输出向量,输出向量用于表征对压缩编码后的输入向量进行解压解码获得的向量,输出向量用于输入目标大语言模型,目标大语言模型为与输出码本适配的大语言模型。如此,相较于现有技术而言,本技术实施例中采用两个码本,通过输入码本将输入向量进行压缩编码,再通过输出码本来与下游的目标大语言模型进行匹配,那么对于不同的目标大语言模型,仅需更换对应的输出码本即可实现与该目标大语言模型的匹配,即通过本技术实施例所提供的方法,能够提高与大语言模型的适配能力。此外,在通过输入码本对输入向量进行压缩编码的过程中,获取与输入向量相似的预设数量个输入码本向量所对应的预设数量个输入码本向量下标,可以降低压缩过程中的信息丢失,提高后续输入向量与大语言模型的匹配能力。
本文地址:https://www.jishuxx.com/zhuanli/20241009/307498.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。