技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种模型训练系统、方法、存储介质及电子设备与流程 > 正文

一种模型训练系统、方法、存储介质及电子设备与流程

国知局
2024-07-31 22:35:56

本说明书涉及计算机，尤其涉及一种模型训练系统、方法、存储介质及电子设备。

背景技术：

1、大模型是指具有大量的参数以及具有强大的表达能力、泛化能力和处理复杂任务的能力的人工神经网络模型，大模型通常包含有数亿到数万亿的参数，而由于大模型规模庞大、复杂度高，所以在针对大模型进行训练时，需要在大规模数据集上进行训练，并消耗大量的硬件资源进行优化，传统的训练框架往往难以满足针对大模型进行训练所需的庞大的计算需求，所以在对大模型进行训练时需要采用专为处理数十亿乃至数万亿参数量级的模型设计的大模型训练框架，方可有效支持大模型的训练。

2、通常情况下，在通过大模型训练框架对大模型进行训练时，对于硬件资源的利用率较低，从而使得无法在有限的硬件资源下训练较大规模的大模型，进而导致大模型的训练难度提升。

3、因此，如何能够提升大模型训练时对于硬件资源的利用率，则是一个亟待解决的问题。

技术实现思路

1、本说明书提供一种模型训练系统、方法、存储介质及电子设备，以部分的解决现有技术存在的上述问题。

2、本说明书采用下述技术方案：

3、本说明书提供了一种模型训练系统，所述模型训练系统包括：中央处理器、图形处理器；

4、所述图形处理器用于获取用户输入的模型构建请求，并根据所述模型构建请求，构建待训练模型，针对所述待训练模型中的每层网络层，确定在所述待训练模型中处于该网络层的上一层网络层，作为参考网络层，根据该网络层的输出值和所述参考网络层输出的输出值计算得到该网络层的梯度值，将该网络层的梯度值发送到所述中央处理器，并根据接收到的所述中央处理器返回的调整后模型参数，对该网络层的模型参数进行调整，得到调整后的网络层，以及，将所述参考网络层的输出值以及该网络层的梯度值删除；

5、所述中央处理器用于根据接收到的所述梯度值对所述梯度值对应的网络层的模型参数进行调整，得到调整后模型参数并返回给所述图形处理器；

6、所述图形处理器用于根据各调整后的网络层，得到调整后的模型，以根据所述调整后的模型进行任务执行。

7、可选地，所述模型训练系统包括：至少两个中央处理器，至少两个图形处理器，其中，针对每个中央处理器，该中央处理器和至少一个图形处理器组成一个计算节点，针对每个计算节点，该计算节点用于根据所述模型构建请求，构建待训练模型中包含的至少部分网络层，并针对构建出的每层网络层的模型参数进行调整，得到调整后模型参数，以得到构建出的每层网络层对应的调整后的网络层。

8、可选地，针对每个计算节点，若该计算节点由一个中央处理器和至少两个图形处理器组成，则该计算节点中的每个图形处理器用于针对该计算节点构建出的每层网络层，基于与该图形处理器相匹配的样本数据集，确定该网络层的梯度值，并将该网络层的梯度值发送到该计算节点中的中央处理器，并根据接收到的所述中央处理器返回的调整后模型参数，将对该网络层的模型参数进行调整，得到调整后的网络层，其中，与该计算节点中不同的图形处理器相匹配的样本数据集不同，各图形处理器基于不同的样本数据集确定该计算节点对应的所述待训练模型的至少部分网络层的输出值的过程是并行执行的；

9、该计算节点的中央处理器用于根据接收到的该计算节点每个图形处理器发送的该网络层的梯度值，对该网络层的模型参数进行调整，得到调整后模型参数并返回给该计算节点的每个图形处理器。

10、可选地，针对每个计算节点，若该计算节点由一个中央处理器和至少两个图形处理器组成，则该计算节点中的每个图形处理器用于针对该计算节点构建出的每层网络层，根据该网络层中的至少部分神经元的输出值，确定该网络层的分块梯度值，并将该网络层的分块梯度值发送到所述中央处理器，并根据接收到的所述中央处理器返回的调整后模型参数，对该网络层的模型参数进行调整，得到调整后的网络层；

11、该计算节点中的中央处理器用于根据接收到的该计算节点的每个图形处理器发送的该网络层的各分块梯度值，对该网络层的模型参数进行调整，得到调整后模型参数并返回给该计算节点的每个图形处理器。

12、可选地，针对每个计算节点，若该计算节点由一个中央处理器和至少两个图形处理器组成，则该计算节点中的每个图形处理器用于针对该计算节点构建出的每层网络层，根据在所述待训练模型中处于该网络层的上一层网络层的输出值和该网络层的模型参数，确定该网络层的输出值，确定用于确定在所述待训练模型中处于该网络层的下一层网络层的梯度值的图形处理器，作为目标图形处理器，并将该网络层的输出值传输至所述目标图形处理器，以使所述目标图形处理器根据该网络层的输出值执行计算任务，以及，根据该网络层的输出值和在所述待训练模型中处于该网络层的上一层网络层的输出值计算得到该网络层的梯度值，并将该网络层的梯度值发送到该计算节点中的中央处理器，并根据接收到的所述中央处理器返回的调整后模型参数，将对该网络层的模型参数进行调整，得到调整后的网络层。

13、可选地，所述中央处理器用于根据接收到的所述梯度值和预设的与所述梯度值对应的网络层相匹配的统计数据，对所述梯度值对应的网络层的模型参数进行调整，得到调整后模型参数并返回给所述图形处理器，所述统计数据包括：动量值、方差，其中，所述动量值用于表征对所述梯度值对应的网络层的模型参数进行历史调整过程中梯度值的变化程度，所述方差用于表征对所述梯度值对应的网络层的模型参数进行历史调整过程中输出值的变化程度。

14、可选地，所述中央处理器用于根据接收到的梯度值对接收到的梯度值对应的网络层的预设模型参数进行调整，得到调整后模型参数，并对所述调整后模型参数进行数据转换，以将所述调整后模型参数对应的数据格式转换为所述图形处理器中所保存的所述待训练模型的模型参数对应的数据格式，并将转换后的调整后模型参数返回给所述图形处理器，所述预设模型参数是预先保存在所述中央处理器中的所述待训练模型的完整的模型参数，所述预设模型参数所使用的数据格式的精度高于所述图形处理器中保存的所述待训练模型的各模型参数所使用的数据格式的精度。

15、本说明书提供了一种模型训练方法，所述方法应用于模型训练系统的图形处理器，所述方法包括：

16、获取用户输入的模型构建请求；

17、根据所述模型构建请求，构建待训练模型；

18、针对所述待训练模型中的每层网络层，确定在所述待训练模型中处于该网络层的上一层网络层，作为参考网络层，根据该网络层的输出值和所述参考网络层输出的输出值计算得到该网络层的梯度值，将该网络层的梯度值发送到中央处理器，以使所述中央处理器根据接收到的所述梯度值对所述梯度值对应的网络层的模型参数进行调整，得到调整后模型参数并返回；

19、根据接收到的所述中央处理器返回的调整后模型参数，对该网络层的模型参数进行调整，得到调整后的网络层，以及，将所述参考网络层的输出值以及该网络层的梯度值删除；

20、根据所述调整后的网络层，得到调整后的模型，以根据所述调整后的模型进行任务执行。

21、本说明书提供了一种模型训练方法，所述方法应用于模型训练系统的中央处理器，所述方法包括：

22、接收图形处理器发送的梯度值，所述梯度值是所述图形处理器根据接收到的模型构建请求，构建待训练模型，并针对所述待训练模型中的每层网络层，确定在所述待训练模型中处于该网络层的上一层网络层，作为参考网络层，根据该网络层的输出值和所述参考网络层输出的输出值计算得到的；

23、根据所述梯度值对所述梯度值对应的网络层的模型参数进行调整，得到调整后模型参数并发送给所述图形处理器，以使所述图形处理器根据接收到的调整后模型参数，对所述梯度值对应的网络层的模型参数进行调整，得到调整后的网络层，以及，将所述参考网络层的输出值以及该网络层的梯度值删除，并根据各调整后的网络层，得到调整后的模型，以根据所述调整后的模型进行任务执行。

24、本说明书提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述模型训练的方法。

25、本说明书提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述模型训练的方法。

26、本说明书采用的上述至少一个技术方案能够达到以下有益效果：

27、在本说明书提供的模型训练系统中，图形处理器用于获取用户输入的模型构建请求，并根据模型构建请求，构建待训练模型，针对所述待训练模型中的每层网络层，确定在待训练模型中处于该网络层的上一层网络层，作为参考网络层，根据该网络层的输出值和参考网络层输出的输出值计算得到该网络层的梯度值，将该网络层的梯度值发送到中央处理器，并根据接收到的中央处理器返回的调整后模型参数，对该网络层的模型参数进行调整，得到调整后的网络层，以及，将参考网络层的输出值以及该网络层的梯度值删除，中央处理器用于根据接收到的梯度值对梯度值对应的网络层的模型参数进行调整，得到调整后模型参数并返回给图形处理器，图形处理器用于根据各调整后的网络层，得到调整后的模型，以根据调整后的模型进行任务执行。

28、从上述方法可以看出，可以通过前向梯度传播的方式（即，在前向传播过程中，针对待训练模型的每层网络层的输出值和在待训练模型中位于该网络层的上一网络层的输出值，计算该网络层的梯度值，并基于该网络层的梯度值对该网络层的模型参数进行调整），从而可以使得在通过中央处理器确定每层网络层的模型参数后，即可将上一层网络层的输出值以及该网络层的梯度值删除，进而可以有效减少针对待训练模型进行训练过程中对于存储资源的占用。