技术新讯 > 计算推算,计数设备的制造及其应用技术 > 语言模型推理优化方法、电子设备、存储介质及程序产品与流程 > 正文

语言模型推理优化方法、电子设备、存储介质及程序产品与流程

国知局
2024-07-31 22:51:00

本发明涉及计算机，具体涉及语言模型推理优化方法、电子设备、存储介质及程序产品。

背景技术：

1、大语言模型（llm）是当今人工智能技术的热点。llm是基于海量文本数据训练的深度学习模型。它具备对自然语言进行理解、生成和处理的能力，可以在各类自然语言处理任务中发挥作用，如文本摘要、问答系统、机器翻译等。

2、当前的llm是指参数量超过百亿甚至千亿，以transformer-decoder结构为主的大模型。近期被我们熟悉的gpt4/sora属于llm的范畴。其中，transformer-decoder模型结构是由多个transformer blocks组成，每一个block在对输入的待分析内容进行分析过程中，都会产生查询向量、键向量以及值向量。然后，基于产生的查询向量、键向量以及值向量，进行更加复杂的计算。

3、在基于产生的查询向量、键向量以及值向量，进行复杂计算时，通常需要把每个block产生的键向量以及值向量进行存储，不缓存键向量以及值向量则需要每一次推理时都重新计算一遍。但是，将计算得到的键向量以及值向量存储至存储设备会占用非常大的存储空间。

4、因此，如何在基于大语言模型进行内容分析时，减少存储键向量以及值向量占用的内存成为了亟待解决的问题。

技术实现思路

1、有鉴于此，本发明提供了一种语言模型推理优化方法、电子设备、存储介质及程序产品，以解决如何减少存储键向量以及值向量占用的内存的问题。

2、第一方面，本发明提供了一种语言模型推理优化方法，方法包括：

3、获取待分析内容对应的至少一个待分析信息单元，将各待分析信息单元输入至预设语言分析模型；

4、基于预设语言分析模型，对各待分析信息单元进行预填充，得到各待分析信息单元对应的初始查询向量、初始键向量和初始值向量；

5、对各初始查询向量和各初始键向量进行压缩，得到各压缩查询向量和各压缩键向量；

6、根据各压缩查询向量和各压缩键向量之间的关系，从压缩键向量中确定至少一个目标压缩键向量；

7、对各目标压缩键向量对应的目标初始键向量、各初始值向量以及各压缩键向量进行存储；

8、基于各压缩查询向量、各目标初始键向量和各目标初始值向量输出待分析内容对应的目标分析结果。

9、本技术实施例提供的语言模型推理优化方法，获取待分析内容对应的至少一个待分析信息单元，将各待分析信息单元输入至预设语言分析模型；基于预设语言分析模型，对各待分析信息单元进行预填充，得到各待分析信息单元对应的初始查询向量、初始键向量和初始值向量，保证了得到的初始查询向量、初始键向量和初始值向量的准确性。对各初始查询向量和各初始键向量进行压缩，得到各压缩查询向量和各压缩键向量，保证了得到的各压缩查询向量和各压缩键向量的准确性，从而使得压缩后的各压缩查询向量和各压缩键向量占用内存较小。根据各压缩查询向量和各压缩键向量之间的关系，从压缩键向量中确定至少一个目标压缩键向量，保证了确定的至少一个目标压缩键向量的准确性。对各目标压缩键向量对应的目标初始键向量、各初始值向量以及各压缩键向量进行存储，相比于存储未压缩之前的初始键向量和初始值向量，减少了内存占用量。基于各压缩查询向量、各目标初始键向量和各目标初始值向量输出待分析内容对应的目标分析结果，而不是基于初始键向量和初始值向量，输出待分析内容对应的目标分析结果，从而减少了计算量。因此，上述方法，不仅减少了内存占用率，且减少了计算量，从而提高了对待分析内容进行分析输出目标分析结果的效率。

10、在一种可选的实施方式中，对各初始查询向量和各初始键向量进行压缩，得到各压缩查询向量和各压缩键向量，包括：

11、将各初始查询向量输入至预设查询向量压缩模型，基于预设查询向量压缩模型中的第一目标编码器对各初始查询向量进行压缩，生成各压缩查询向量。

12、将各初始键向量输入至预设键向量压缩模型，基于预设键向量压缩模型中的第二目标编码器对各初始键向量进行压缩，生成各压缩键向量。

13、本技术实施例提供的语言模型推理优化方法，将各初始查询向量输入至预设查询向量压缩模型，基于预设查询向量压缩模型中的第一目标编码器对各初始查询向量进行压缩，生成各压缩查询向量，保证了生成的各压缩查询向量的准确性，从而使得压缩后的压缩查询向量占用内存量较小。将各初始键向量输入至预设键向量压缩模型，基于预设键向量压缩模型中的第二目标编码器对各初始键向量进行压缩，生成各压缩键向量。保证了生成的各压缩键向量的准确性，从而使得压缩后的压缩键向量占用内存量较小。

14、在一种可选的实施方式中，预设查询向量压缩模型的训练过程包括：

15、获取多个训练查询向量；

16、将各训练查询向量输入至初始查询向量压缩网络，对各训练查询向量进行编码和解码处理，得到各训练查询向量对应的虚拟查询向量；

17、基于各训练查询向量和各虚拟查询向量对初始查询向量压缩网络进行训练，生成预设查询向量压缩模型。

18、本技术实施例提供的语言模型推理优化方法，获取多个训练查询向量；将各训练查询向量输入至初始查询向量压缩网络，对各训练查询向量进行编码和解码处理，得到各训练查询向量对应的虚拟查询向量，保证了得到的训练查询向量对应的虚拟查询向量的准确性。基于各训练查询向量和各虚拟查询向量对初始查询向量压缩网络进行训练，生成预设查询向量压缩模型，保证了生成的预设查询向量压缩模型的准确性。

19、在一种可选的实施方式中，初始查询向量压缩网络中包括第一初始编码器和第一初始解码器，将各训练查询向量输入至初始查询向量压缩网络，对各训练查询向量进行编码和解码处理，得到各训练查询向量对应的虚拟查询向量，包括：

20、将各训练查询向量输入至初始查询向量压缩网络中的第一初始编码器，第一初始编码器对各训练查询向量进行编码，生成各初始编码查询向量；初始编码查询向量的维度小于训练查询向量的维度；

21、将各初始编码查询向量输入至初始查询向量压缩网络中的第一初始解码器，第一初始解码器对各初始编码查询向量进行解码，生成各虚拟查询向量；虚拟查询向量的维度与训练查询向量维度一致。

22、本技术实施例提供的语言模型推理优化方法，将各训练查询向量输入至初始查询向量压缩网络中的第一初始编码器，第一初始编码器对各训练查询向量进行编码，生成各初始编码查询向量，保证了生成的各初始编码查询向量的准确性，且降低了训练查询向量的维度。将各初始编码查询向量输入至初始查询向量压缩网络中的第一初始解码器，第一初始解码器对各初始编码查询向量进行解码，生成各虚拟查询向量，保证了生成的各虚拟查询向量的准确性。从而可以根据各虚拟查询向量判断编码后的各初始编码查询向量是否准确。

23、在一种可选的实施方式中，基于训练查询向量和虚拟查询向量对初始查询向量压缩网络进行训练，生成预设查询向量压缩模型，包括：

24、基于第一预设损失函数，计算各训练查询向量和各虚拟查询向量之间的第一损失值；

25、基于各第一损失值，对初始查询向量压缩网络进行训练，生成预设查询向量压缩模型。

26、本技术实施例提供的语言模型推理优化方法，基于第一预设损失函数，计算各训练查询向量和各虚拟查询向量之间的第一损失值，保证了计算得到的第一损失值的准确性。基于各第一损失值，对初始查询向量压缩网络进行训练，生成预设查询向量压缩模型，保证了生成的预设查询向量压缩模型的准确性。

27、在一种可选的实施方式中，预设键向量压缩模型的训练过程包括：

28、获取多个训练键向量；

29、将各训练键向量输入至初始键向量压缩网络，对各训练键向量进行编码和解码处理，得到各训练键向量对应的虚拟键向量；

30、基于各训练键向量和各虚拟键向量对初始键向量压缩网络进行训练，生成预设键向量压缩模型。

31、本技术实施例提供的语言模型推理优化方法，获取多个训练键向量；将各训练键向量输入至初始键向量压缩网络，对各训练键向量进行编码和解码处理，得到各训练键向量对应的虚拟键向量，保证了得到的各训练键向量对应的虚拟键向量的准确性。基于各训练键向量和各虚拟键向量对初始键向量压缩网络进行训练，生成预设键向量压缩模型，保证了生成的预设键向量压缩模型的准确性。

32、在一种可选的实施方式中，初始键向量压缩网络中包括第二初始编码器和第二初始解码器，将各训练键向量输入至初始键向量压缩网络，对各训练键向量进行编码和解码处理，得到各训练键向量对应的虚拟键向量，包括：

33、将各训练键向量输入至初始键向量压缩网络中的第二初始编码器，第二初始编码器对各训练键向量进行编码，生成各初始编码键向量；初始编码键向量的维度小于训练键向量的维度；

34、将各初始编码键向量输入至初始键向量压缩网络中的第二初始解码器，第二初始解码器对各初始编码键向量进行解码，生成各虚拟键向量；虚拟键向量的维度与训练键向量维度一致。

35、本技术实施例提供的语言模型推理优化方法，将各训练键向量输入至初始键向量压缩网络中的第二初始编码器，第二初始编码器对各训练键向量进行编码，生成各初始编码键向量；保证了生成的各初始编码键向量的准确性，且降低了训练键向量的维度。将各初始编码键向量输入至初始键向量压缩网络中的第二初始解码器，第二初始解码器对各初始编码键向量进行解码，生成各虚拟键向量，保证了生成的各虚拟键向量的准确性，且使得可以基于虚拟键向量检测对训练键向量进行压缩后得到的初始编码键向量的准确性。

36、在一种可选的实施方式中，基于各训练键向量和各虚拟键向量对初始键向量压缩网络进行训练，生成预设键向量压缩模型，包括：

37、基于第二预设损失函数，计算各训练键向量和各虚拟键向量之间的第二损失值；

38、基于各第二损失值，对初始键向量压缩网络进行训练，生成预设键向量压缩模型。

39、本技术实施例提供的语言模型推理优化方法，基于第二预设损失函数，计算各训练键向量和各虚拟键向量之间的第二损失值，保证了得到的第二损失值的准确性。基于各第二损失值，对初始键向量压缩网络进行训练，生成预设键向量压缩模型，保证了生成的预设键向量压缩模型的准确性。

40、在一种可选的实施方式中，训练键向量与所训练查询向量相对应；方法还包括：

41、基于各训练查询向量和各虚拟查询向量对初始查询向量压缩网络进行训练，生成备用查询向量压缩模型；

42、基于各训练键向量和各虚拟键向量对初始键向量压缩网络进行训练，生成备用键向量压缩模型；

43、对各训练查询向量与对应的训练键向量进行统计学计算，得到第一结果；

44、对各初始编码查询向量与对应的各初始编码键向量进行统计学计算，得到第二结果；

45、基于各第一结果与对应的第二结果之间的第三预设损失函数，对备用查询向量压缩模型进行训练生成预设查询向量压缩模型，对备用键向量压缩模型进行训练生成预设键向量压缩模型。

46、本技术实施例提供的语言模型推理优化方法，基于各训练查询向量和各虚拟查询向量对初始查询向量压缩网络进行训练，生成备用查询向量压缩模型，保证了备用查询向量压缩模型的准确率相对较高。基于各训练键向量和各虚拟键向量对初始键向量压缩网络进行训练，生成备用键向量压缩模型，保证了生成的备用键向量压缩模型的准确性相对较高。对各训练查询向量与对应的训练键向量进行统计学计算，得到第一结果，保证了生成的第一结果的准确性。对各初始编码查询向量与对应的各初始编码键向量进行统计学计算，得到第二结果，保证了生成的第二结果的准确性。基于各第一结果与对应的第二结果之间的第三预设损失函数，对备用查询向量压缩模型进行训练生成预设查询向量压缩模型，对备用键向量压缩模型进行训练生成预设键向量压缩模型，从而保证了生成的预设查询向量压缩模型和预设键向量压缩模型的准确性，进而也保证了基于预设查询向量压缩模型和预设键向量压缩模型得到各压缩查询向量和各压缩键向量的准确性，基于各压缩查询向量与各压缩键向量进行统计学计算，得到的结果的准确性。

47、在一种可选的实施方式中，根据各压缩查询向量和各压缩键向量之间的关系，从压缩键向量中确定至少一个目标压缩键向量，包括：

48、获取各压缩查询向量对应的目标压缩键向量的预设数量，预设数量用于表征与各压缩查询向量存在关联关系的目标压缩键向量的数量；

49、根据各压缩查询向量与各压缩键向量之间的关系，从压缩键向量中确定预设数量的目标压缩键向量。

50、本技术实施例提供的语言模型推理优化方法，获取各压缩查询向量对应的目标压缩键向量的预设数量，预设数量用于表征与各压缩查询向量存在关联关系的目标压缩键向量的数量；根据各压缩查询向量与各压缩键向量之间的关系，从压缩键向量中确定预设数量的目标压缩键向量，保证了确定的预设数量的目标压缩键向量的准确性，进而保证了基于目标压缩键向量对应的目标初始键向量，输出分析内容对应的目标分析结果的准确性。

51、在一种可选的实施方式中，根据各压缩查询向量与对应的预设数量的压缩键向量之间的关系，从压缩键向量中确定目标压缩键向量，包括：

52、计算各压缩查询向量与各压缩键向量之间的注意力分数；

53、将注意力分数排名靠前的预设数量的压缩键向量确定为目标压缩键向量。

54、本技术实施例提供的语言模型推理优化方法，计算各压缩查询向量与各压缩键向量之间的注意力分数；将注意力分数排名靠前的预设数量的压缩键向量确定为目标压缩键向量，保证了基于目标压缩键向量对应的目标初始键向量，输出分析内容对应的目标分析结果的准确性，避免了对相对重要的目标压缩键向量进行舍弃，导致输出的目标分析结果不准确性。此外，上述方法，基于各目标初始键向量和各目标初始值向量输出待分析内容对应的目标分析结果，而不是基于全部初始键向量和初始值向量输出目标分析结果，因此降低了计算量。

55、在一种可选的实施方式中，基于各压缩查询向量、各目标初始键向量和各目标初始值向量输出待分析内容对应的目标分析结果，包括：

56、获取预设语言分析模型中注意力机制头对应的初始数量；

57、针对各注意力机制头，获取注意力机制头对应的目标压缩键向量在压缩键向量中的位置信息；

58、根据各注意力机制头对应的目标压缩键向量在压缩键向量中的位置信息，从各注意力机制头中确定目标注意力机制头；

59、针对各压缩查询向量，基于目标注意力机制头对压缩查询向量、压缩查询向量对应的目标初始键向量以及压缩查询向量对应的目标初始值向量进行处理，输出第一输出结果；

60、基于前馈神经网络层，确定第一输出结果对应的第二输出结果；

61、基于各第二输出结果，生成目标分析结果。

62、本技术实施例提供的语言模型推理优化方法，获取预设语言分析模型中注意力机制头对应的初始数量；针对各注意力机制头，获取注意力机制头对应的目标压缩键向量在压缩键向量中的位置信息；根据各注意力机制头对应的目标压缩键向量在压缩键向量中的位置信息，从各注意力机制头中确定目标注意力机制头，保证了确定的目标注意力机制头的准确性。针对各压缩查询向量，基于目标注意力机制头对压缩查询向量、压缩查询向量对应的目标初始键向量以及压缩查询向量对应的目标初始值向量进行处理，输出第一输出结果，保证了输出的第一输出结果的准确性，且减少了目标注意力机制头的数量，降低了计算量。基于前馈神经网络层，确定第一输出结果对应的第二输出结果，保证了输出的第二输出结果的准确性。基于各第二输出结果，生成目标分析结果，保证了生成的目标分析结果的准确性。

63、在一种可选的实施方式中，根据各注意力机制头对应的目标压缩键向量在压缩键向量中的位置信息，从各注意力机制头中确定目标注意力机制头，包括：

64、根据各注意力机制头对应的目标压缩键向量在压缩键向量中的位置信息，计算两两注意力机制头对应的目标压缩键向量之间的相似度；

65、根据两两注意力机制头对应的目标压缩键向量之间的相似度，从各注意力机制头中确定目标注意力机制头。

66、本技术实施例提供的语言模型推理优化方法，根据各注意力机制头对应的目标压缩键向量在压缩键向量中的位置信息，计算两两注意力机制头对应的目标压缩键向量之间的相似度，保证了计算两两注意力机制头对应的目标压缩键向量之间的相似度的准确性。根据两两注意力机制头对应的目标压缩键向量之间的相似度，从各注意力机制头中确定目标注意力机制头，保证了从各注意力机制头中确定的目标注意力机制头的准确性。

67、在一种可选的实施方式中，根据两两注意力机制头对应的目标压缩键向量之间的相似度，从各注意力机制头中确定目标注意力机制头，包括：

68、将两两注意力机制头对应的目标压缩键向量之间的相似度与预设相似度阈值进行对比；

69、将相似度大于预设相似度阈值的两个注意力机制头中的任一个删除；

70、直至任意两个注意力机制头对应的目标压缩键向量之间的相似度小于预设相似度阈值，得到目标注意力机制头。

71、本技术实施例提供的语言模型推理优化方法，将两两注意力机制头对应的目标压缩键向量之间的相似度与预设相似度阈值进行对比；将相似度大于预设相似度阈值的两个注意力机制头中的任一个删除，直至任意两个注意力机制头对应的目标压缩键向量之间的相似度小于预设相似度阈值，得到目标注意力机制头，保证了得到的目标注意力机制头的准确性。

72、在一种可选的实施方式中，对各目标压缩键向量对应的目标初始键向量、各初始值向量以及各压缩键向量进行存储，包括：

73、将各目标压缩键向量对应的目标初始键向量、各初始值向量以及各压缩键向量进行存储至第一存储设备；

74、若第一存储设备对应的第一当前存储占用率大于第一预设存储占用率阈值，则获取第一当前压缩查询向量；

75、计算第一当前压缩查询向量与各压缩键向量之间的第一相对分数；

76、根据各第一相对分数，从各压缩键向量中确定第一相对分数小于第一预设阈值的第一待卸载压缩键向量；

77、将各第一待卸载压缩键向量以及各第一待卸载压缩键向量对应的初始值向量，从第一存储设备卸载至第二存储设备，其中，第二存储设备对应的存储速度小于第一存储设备。

78、本技术实施例提供的语言模型推理优化方法，将各目标压缩键向量对应的目标初始键向量、各初始值向量以及各压缩键向量进行存储至第一存储设备，进而保证了能够快速从第一存储设备中获取目标压缩键向量对应的目标初始键向量、各初始值向量以及各压缩键向量，从而可以提高计算速度。若第一存储设备对应的第一当前存储占用率大于第一预设存储占用率阈值，则获取第一当前压缩查询向量；计算第一当前压缩查询向量与各压缩键向量之间的第一相对分数；根据各第一相对分数，从各压缩键向量中确定第一相对分数小于第一预设阈值的第一待卸载压缩键向量；将各第一待卸载压缩键向量以及各第一待卸载压缩键向量对应的初始值向量，从第一存储设备卸载至第二存储设备，从而保证了第一存储设备可以正常运行，避免了由于第一存储设备中存储的内容较多，而影响第一存储设备的正常运行。此外，将第一相对分数小于第一预设阈值的第一待卸载压缩键向量从而可以保证，将第一相对分数大于第一预设阈值的压缩键向量存储在第一存储设备，保证了可以快速对第一相对分数大于第一预设阈值的压缩键向量进行计算，从而保证计算效率。

79、在一种可选的实施方式中，方法还包括：

80、若第二存储设备对应的第二当前存储占用率大于第二预设存储占用率阈值，则再次获取第二当前压缩查询向量；

81、计算第二当前压缩查询向量与各第一待卸载压缩键向量之间的第二相对分数；

82、根据各第二相对分数，从各第一待卸载压缩键向量中确定第二相对分数小于第二预设阈值的第二待卸载压缩键向量；

83、将各第二待卸载压缩键向量以及各第二待卸载压缩键向量对应的初始值向量，从第二存储设备卸载至第三存储设备，其中，第三存储设备对应的存储速度小于第二存储设备。

84、本技术实施例提供的语言模型推理优化方法，若第二存储设备对应的第二当前存储占用率大于第二预设存储占用率阈值，则再次获取第二当前压缩查询向量；计算第二当前压缩查询向量与各第一待卸载压缩键向量之间的第二相对分数，保证了计算得到的第二相对分数的准确性。根据各第二相对分数，从各第一待卸载压缩键向量中确定第二相对分数小于第二预设阈值的第二待卸载压缩键向量；将各第二待卸载压缩键向量以及各第二待卸载压缩键向量对应的初始值向量，从第二存储设备卸载至第三存储设备，避免了由于第二存储设备中存储的内容较多，而影响第二存储设备的正常运行，此外还可以保证计算效率。

85、第二方面，本发明提供了一种语言模型推理优化装置，装置包括：

86、获取模块，用于获取待分析内容对应的至少一个待分析信息单元，将各所述待分析信息单元输入至预设语言分析模型；

87、填充模块，用于基于所述预设语言分析模型，对各所述待分析信息单元进行预填充，得到所述各待分析信息单元对应的初始查询向量、初始键向量和初始值向量；

88、压缩模块，用于对各所述初始查询向量和各所述初始键向量进行压缩，得到各压缩查询向量和各压缩键向量；

89、确定模块，用于根据各所述压缩查询向量和各所述压缩键向量之间的关系，从所述压缩键向量中确定至少一个目标压缩键向量；

90、存储模块，用于对各所述目标压缩键向量对应的目标初始键向量、各所述初始值向量以及各所述压缩键向量进行存储；

91、输出模块，用于基于各所述压缩查询向量、各所述目标初始键向量和各所述目标初始值向量输出所述待分析内容对应的目标分析结果。

92、本技术实施例提供的语言模型推理优化装置，获取待分析内容对应的至少一个待分析信息单元，将各待分析信息单元输入至预设语言分析模型；基于预设语言分析模型，对各待分析信息单元进行预填充，得到各待分析信息单元对应的初始查询向量、初始键向量和初始值向量，保证了得到的初始查询向量、初始键向量和初始值向量的准确性。对各初始查询向量和各初始键向量进行压缩，得到各压缩查询向量和各压缩键向量，保证了得到的各压缩查询向量和各压缩键向量的准确性，从而使得压缩后的各压缩查询向量和各压缩键向量占用内存较小。根据各压缩查询向量和各压缩键向量之间的关系，从压缩键向量中确定至少一个目标压缩键向量，保证了确定的至少一个目标压缩键向量的准确性。对各目标压缩键向量对应的目标初始键向量、各初始值向量以及各压缩键向量进行存储，相比于存储未压缩之前的初始键向量和初始值向量，减少了内存占用量。基于各压缩查询向量、各目标初始键向量和各目标初始值向量输出待分析内容对应的目标分析结果，而不是基于初始键向量和初始值向量，输出待分析内容对应的目标分析结果，从而减少了计算量。因此，上述装置，不仅减少了内存占用率，且减少了计算量，从而提高了对待分析内容进行分析输出目标分析结果的效率。

93、第三方面，本发明提供了一种电子设备，包括：存储器和处理器，存储器和处理器之间互相通信连接，存储器中存储有计算机指令，处理器通过执行计算机指令，从而执行上述第一方面或其对应的任一实施方式的语言模型推理优化方法。

94、第四方面，本发明提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机指令，计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的语言模型推理优化方法。

95、第五方面，本发明提供了一种计算机程序产品，包括计算机指令，计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的语言模型推理优化方法。