技术新讯 > 计算推算,计数设备的制造及其应用技术 > 请求信息的自动分发方法及装置、非易失性存储介质与流程 > 正文

请求信息的自动分发方法及装置、非易失性存储介质与流程

国知局
2024-07-31 23:25:11

本技术涉及数据处理，具体而言，涉及一种请求信息的自动分发方法及装置、非易失性存储介质。

背景技术：

1、随着深度学习和人工智能技术的发展，大模型技术应用的领域越来越广泛，大模型的参数规模也逐渐变大，与此同时，大模型在运行时占用的内存、显存、中央处理器(central processing unit，cpu)和图形处理器(graphics processing unit，gpu)等计算资源也是空前巨大的，如何在保证使用效果基本不变的情况下，提升大模型推理效率，是决定大模型落地的关键。相关技术中通过模型并行的方法提升大模型的推理效率，只关注如何进行模型并行，而没有考虑到大模型的输入单位文本(token)长度和输出token长度差异；然而，大模型的吞吐量是显存的输入输出操作(input output，io)约束的，其推理吞吐量取决于在gpu内存中能适应多大的批处理量，如果不考虑输入和输出的长度，将造成资源的严重浪费。

2、针对上述的问题，目前尚未提出有效的解决方案。

技术实现思路

1、本技术实施例提供了一种请求信息的自动分发方法及装置、非易失性存储介质，以至少解决由于在提升大模型的推理效率时没有考虑到大模型的输入token长度和输出token长度造成的浪费资源的技术问题。

2、根据本技术实施例的一个方面，提供了一种请求信息的自动分发方法，包括：接收多条请求信息，其中，每条请求信息用于请求处理请求信息对应的任务；对于每条请求信息，获取请求信息的相关信息，采用分类模型根据请求信息的相关信息确定请求信息对应的输出数据的单位文本token数量；通过分类模型依据请求信息的token数量和输出数据的token数量自动确定请求信息对应的请求模式；将每条请求信息分发至对应的集群组，其中，集群组是依据多条历史请求信息的请求模式自动聚类结果对多个不同配置模式的大型语言模型进行部署得到的。

3、可选地，采用分类模型根据请求信息的相关信息确定请求信息对应的输出数据的单位文本token数量，包括：确定请求信息对应的对话次数，并确定请求信息的token数量；确定发送请求信息的目标对象，并获取目标对象发送的历史请求信息；将请求信息对应的对话次数、请求信息的token数量以及目标对象发送的历史请求信息作为请求信息的相关信息输入到分类模型，得到分类模型输出的输出数据的token数量，其中，分类模型以不同目标对象的历史信息作为训练数据进行训练，每个目标对象的历史信息至少包括：目标对象发送的历史请求信息，每条历史请求信息对应的对话次数、每条历史请求信息对应的输出数据，以及用于指示分类模型针对一条请求信息输出多个输出数据的目标标识。

4、可选地，依据请求信息的token数量和输出数据的token数量确定请求信息对应的请求模式，其中，请求模式包括：请求信息的token数量属于第一数值区间且输出数据的token数量属于第一数值区间的第一请求模式，请求信息的token数量属于第一数值区间且输出数据的token数量属于第二数值区间的第二请求模式，请求信息的token数量属于第一数值区间且输出数据的token数量属于第三数值区间的第三请求模式，请求信息的token数量属于第二数值区间且输出数据的token数量属于第一数值区间的第四请求模式，请求信息的token数量属于第二数值区间且输出数据的token数量属于第二数值区间的第五请求模式，请求信息的token数量属于第二数值区间且输出数据的token数量属于第三数值区间的第六请求模式，请求信息的token数量属于第三数值区间且输出数据的token数量属于第一数值区间的第七请求模式，请求信息的token数量属于第三数值区间且输出数据的token数量属于第二数值区间的第八请求模式，请求信息的token数量属于第三数值区间且输出数据的token数量属于第三数值区间的第九请求模式，其中，第三数值区间指示的token数量大于第二数值区间指示的token数量，第二数值区间指示的token数量大于第一数值区间指示的token数量。

5、可选地，集群组通过以下方式部署得到：对于每条历史请求信息，根据历史请求信息的token数量和历史请求信息对应的输出数据的token数量确定历史请求信息对应的请求模式；根据多条历史请求信息的请求模式确定聚类结果，其中，聚类结果包括：集群组的数量，以及不同集群组的比例；依据聚类结果将多个不同配置模式的大型语言模型部署为多个集群组。

6、可选地，根据多条历史请求信息的请求模式确定聚类结果，包括：将多条历史请求信息对应的请求模式的种类数确定为集群组的数量；确定每种请求模式包含的历史请求信息数量；将多个历史请求信息数量的比值确定为不同集群组的比例。

7、可选地，依据请求信息的token数量和输出数据的token数量将请求信息分发至对应的集群组，包括：对于每条请求信息，将请求信息的token数量和输出数据的token数量的和确定为请求信息对应的第一目标token数；获取每个集群组的对应的第二目标token数，其中，每个第二目标token数是每个集群组处理的最大token数；根据第一目标token数和第二目标token数确定每条请求信息待分发到的集群组。

8、可选地，根据第一目标token数和第二目标token数确定每条请求信息待分发到的集群组，包括：确定每个第一目标token数与每个第二目标token数的差值，得到多个差值；将每个第一目标token数对应的多个差值中的最小正数确定为每个第一目标token数对应的目标差值；将目标差值对应的第二目标token数指示的集群组确定为第一目标token数对应的请求信息待分发到的集群组。

9、根据本技术实施例的另一方面，还提供了一种请求信息的自动分发装置，包括：接收模块，用于接收多条请求信息，其中，每条请求信息用于请求处理请求信息对应的任务；第一确定模块，对于每条请求信息，获取请求信息的相关信息，采用分类模型根据请求信息的相关信息确定请求信息对应的输出数据的单位文本token数量；第二确定模块，用于通过分类模型依据请求信息的token数量和输出数据的token数量自动确定请求信息对应的请求模式；分发模块，用于将每条请求信息分发至对应的集群组，其中，集群组是依据多条历史请求信息的请求模式的自动聚类结果对多个不同配置模式的大型语言模型进行部署得到的。

10、根据本技术实施例的另一方面，还提供了一种非易失性存储介质，非易失性存储介质中存储有计算机程序，其中，在非易失性存储介质所在设备通过运行计算机程序执行上述的请求信息的自动分发方法。

11、根据本技术实施例的另一方面，还提供了一种电子设备，包括存储器和处理器，存储器中存储有计算机程序，处理器被设置为通过计算机程序执行上述的请求信息的自动分发方法。

12、在本技术实施例中，采用接收多条请求信息，其中，每条请求信息用于请求处理请求信息对应的任务；对于每条请求信息，获取请求信息的相关信息，采用分类模型根据请求信息的相关信息确定请求信息对应的输出数据的单位文本token数量；通过分类模型依据请求信息的token数量和输出数据的token数量自动确定请求信息对应的请求模式；将每条请求信息分发至对应的集群组的方式，通过输入的请求信息的token长度和预测得到的输出数据的token长度对请求信息聚类，根据聚类结果决定将请求信息分发到哪类群组中，达到了在分发请求信息时将输入token长度和输出token长度增加为考虑因素的目的，从而实现了使整个集群在满足业务、效果不变的情况下，实现最优分配的技术效果，进而解决了由于在提升大模型的推理效率时没有考虑到大模型的输入token长度和输出token长度造成的浪费资源技术问题。