技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于张量并行的计算资源处理方法及相关产品与流程 > 正文

基于张量并行的计算资源处理方法及相关产品与流程

国知局
2024-07-31 23:12:27

本发明的实施方式涉及信息处理，更具体地，本发明的实施方式涉及基于张量并行的计算资源处理方法，以及执行前述方法的电子设备和计算机可读存储介质。

背景技术：

1、本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述可包括可以探究的概念，但不一定是之前已经想到或者已经探究的概念。因此，除非在此指出，否则在本部分中描述的内容对于本技术的说明书和权利要求书而言不是现有技术，并且并不因为包括在本部分中就承认是现有技术。

2、llm(large language model)是一种大型语言模型，其具有广泛的应用。llm可以用于自然语言处理任务，如机器翻译、语言生成、文本摘要和问答系统等。llm还可以用于自动作文、智能客服、舆情分析和自动代码生成等领域。

3、llm的译码器(decoder)需要针对每个词(token)都计算一次，则导致耗时长，且llm模型较大，导致llm模型的推理速度慢。如果应用llm模型时仍存在较高的延迟，则导致用户体验不佳；另外，推理llm模型需要大量的高性能处理设备，则导致应用llm模型的成本较高。

技术实现思路

1、为此，非常需要一种改进的基于张量并行的计算资源处理方案，能够提高了各推理服务的吞吐量，有效地降低了服务的成本。

2、在本上下文中，本发明的实施方式期望提供一种基于张量并行的计算资源处理方法及相关产品。

3、在本发明实施方式的第一方面中，提出了一种基于张量并行的计算资源处理方法，该方法包括至少根据待推理模型的模型头数和单个计算卡对应的平均计算时间比确定并行策略；根据并行策略拆分并部署待推理模型到与并行策略相对应的计算卡组，计算卡组包括第一数值的第一计算卡和第二数值的第二计算卡，其中，第一计算卡被配置为专用于计算待推理模型的关键子模型；当与第二计算卡一一对应的推理任务同时输入到计算卡组时，控制第一计算卡不间断地处理与第二计算卡一一对应的推理任务。

4、在本发明的一个实施例中，至少根据待推理模型的模型头数和单个计算卡对应的平均计算时间比确定并行策略，包括：根据模型头数确定第一计算卡的第一数值和用于拆分模型头数的调整值；根据平均计算时间比确定第二计算卡的第二数值。

5、在本发明的另一个实施例中，根据模型头数确定第一计算卡的第一数值和用于拆分模型头数的调整值，包括：根据模型头数、用于拆分模型头数的调整值参量、待分配给每个第一计算卡的模型头数参量以及待确定的第一计算卡的第一数值参量之间的关系函数，确定第一数值参量的取值和用于拆分模型头数的调整值参量的取值。

6、在本发明的再一个实施例中，确定第一数值参量的取值和用于拆分模型头数的调整值参量的取值，还包括：确定第一计算卡完成分配给第一计算卡的关键子模型的计算任务所需时间、第一计算卡向第二计算卡传输计算结果所需时间和第二计算卡向第一计算卡传输数据所需时间的总时间值；确定第二计算卡完成分配给第二计算卡的关键子模型的计算任务所需时间；当总时间值近似等于第二计算卡完成分配给第二计算卡的关键子模型的计算任务所需时间时，确定最优的第一数值和最优的用于拆分模型头数的调整值。

7、在本发明的又一个实施例中，根据平均计算时间比确定第二计算卡的第二数值，包括：利用平均计算时间比表示第一计算卡对应的第一计算时间和第二计算卡对应的第二计算时间，其中，第一计算时间是第一计算卡完成分配给第一计算卡的第一算子任务所需的时间，第二计算时间是第二计算卡完成分配给第二计算卡的待推理模型的单层网络结构的计算所需的时间；根据第一时间和第二时间的比值确定第一计算卡的平均占用率；在平均占用率达到阈值条件时，根据第一数值、用于拆分模型头数的调整值和平均计算时间比得出第二数值。

8、在本发明的一个实施例中，根据并行策略拆分并部署待推理模型到与并行策略相对应的计算卡组，包括：根据并行策略将待推理模型的关键子模型拆分成第一算子部分和第二算子部分，其中，第二算子部分对应的模型头数和第一算子部分对应的模型头数是根据用于拆分模型头数的调整值确定的；将第一算子部分部署到每个第一计算卡；至少将第二算子部分部署到每个第二计算卡。

9、在本发明的另一个实施例中，控制第一计算卡不间断地处理与第二计算卡相对应的推理任务，包括：在与第二计算卡一一对应的推理任务中确定当前推理任务；与当前推理任务对应的第二计算卡和第一数值的第一计算卡并行计算当前推理任务包括：在与当前推理任务对应的第二计算卡启动计算当前推理任务的第一时间段内，与当前推理任务对应的第二计算卡同时向第一数值的第一计算卡传输当前推理任务的计算结果；在第一计算卡完成当前推理任务的计算之前的第二时间段内，第一计算卡计算当前推理任务，同时从新的第二计算卡接收与新的第二计算卡对应的推理任务，将新的第二计算卡对应的推理任务更新为当前推理任务；在第一计算卡完成更新前的当前推理任务的计算之后的第三时间段内，第一计算卡向与更新前的当前推理任务对应的第二计算卡传输计算结果，同时计算与更新后的当前推理任务。

10、在本发明的再一个实施例中，至少根据待推理模型的模型头数和单个计算卡对应的平均计算时间比确定并行策略，还包括：获取多个不同的平均计算时间比，每个平均计算时间比是与推理任务的输入累计长度相关的；根据待推理模型的模型头数和每个平均计算时间比确定与每个平均计算时间比对应的并行策略；根据与每个平均计算时间比对应的并行策略，设置与该并行策略相对应的计算卡组相关的目标处理长度的取值范围。

11、在本发明的又一个实施例中，该方法还包括：获取当前推理任务的当前输入累计长度；在确定当前输入累计长度等于当前推理任务对应的计算卡组的目标处理长度的取值范围的最大值时，控制迁移当前推理任务到其他计算卡组，其他计算卡组的目标处理长度的取值范围的初始值大于当前推理任务对应的计算卡组的目标处理长度的取值范围的最大值。

12、在本发明的一个实施例中，与每个并行策略一一对应的计算卡组相关的目标处理长度的取值范围是不同的。

13、在本发明实施方式的第二方面中，提供了一种电子设备，包括：处理器；以及存储器，其存储有用于执行基于张量并行的计算资源处理方法的计算机指令，当计算机指令由处理器运行时，使得电子设备执行根据前文以及下文多个实施例所述的方法。

14、在本发明实施方式的第三方面中，提供了一种计算机可读存储介质，包含有用于执行基于张量并行的计算资源处理方法的程序指令，当程序指令由处理器执行时，使得实现根据前文以及下文多个实施例所述的方法。

15、根据本发明实施方式的基于张量并行的计算资源处理方法及相关产品，可以。本发明提供的实施例，通过至少根据待推理模型的模型头数和单个计算卡对应的平均计算时间比确定并行策略；根据并行策略拆分并部署待推理模型到与并行策略相对应的计算卡组，计算卡组包括第一数值的第一计算卡和第二数值的第二计算卡，其中，第一计算卡被配置为专用于计算待推理模型的关键子模型；当与第二计算卡一一对应的推理任务同时输入到计算卡组时，控制第一计算卡不间断地处理与第二计算卡一一对应的推理任务。可以看出，本发明的方案根据单个计算卡对应的平均计算时间比和模型头数确定并行策略，根据并行策略构建与之对应的计算卡组进行并行计算，减少了第一计算卡的计算资源和第二计算卡的计算资源处于等待状态的时间，有效地提高计算卡组运行推理服务的吞吐量，同时降低了llm服务的成本。