技术新讯 > 计算推算,计数设备的制造及其应用技术 > 模型信息存储方法、装置、第一电子设备和存储介质与流程 > 正文

模型信息存储方法、装置、第一电子设备和存储介质与流程

国知局
2024-07-31 23:24:40

本公开涉及人工智能，尤其涉及深度学习和大模型领域。

背景技术：

1、大模型是指具有大规模参数和复杂计算结构的神经网络模型。大模型训练往往需要使用众多硬件资源(例如成千上万的加速卡)组成的大规模集群，训练数周甚至数个月的时间，占用的硬件和时间资源(例如加速卡的卡时资源)十分巨大。大规模集群训练往往会遇到许多软硬件故障导致训练中断，因此需要每隔一定的训练步长保存一次模型的参数信息，以保证故障出现后可加载最近一次保存的参数信息实现接续训练。当故障出现时，从最近一次保存参数至故障发生的时间间隔内的训练步长属于无效训练耗费，造成大量的资源浪费。

技术实现思路

1、本公开提供了一种模型信息存储方法、装置、第一电子设备和存储介质。

2、根据本公开的一方面，提供了一种模型信息存储方法，应用于第一电子设备，包括：

3、在向第二电子设备发送第一指示信息之后，监听第二电子设备是否在预定时间内完成模型训练过程中的第一任务；其中，第一指示信息用于指示第二电子设备基于第一进程执行第一任务；

4、在第二电子设备没有在预定时间内完成第一任务的情况下，向第二电子设备发送第二指示信息；其中，第二指示信息用于指示第二电子设备复制当前的模型参数信息，并将模型参数信息存储为目标文件，目标文件用于重新执行第一任务。

5、根据本公开的另一方面，提供了一种模型信息存储装置，应用于第一电子设备，包括：

6、监听模块，用于在向第二电子设备发送第一指示信息之后，监听预定时间内第二电子设备是否在完成模型训练过程中的第一任务；其中，第一指示信息用于指示第二电子设备基于第一进程执行第一任务；

7、存储指示模块，用于在第二电子设备没有在预定时间内完成第一任务的情况下，向第二电子设备发送第二指示信息；其中，第二指示信息用于指示第二电子设备复制当前的模型参数信息，并将模型参数信息存储为目标文件，目标文件用于重新执行第一任务。

8、根据本公开的另一方面，提供了一种第一电子设备，包括：

9、至少一个处理器；以及

10、与该至少一个处理器通信连接的存储器；其中，

11、该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本公开实施例中任一的方法。

12、根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，该计算机指令用于使该计算机执行根据本公开实施例中任一的方法。

13、根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现根据本公开实施例中任一的方法。

14、根据本公开实施例的技术方案，第一电子设备可以在故障发生时自动保存当前的模型参数信息，避免无效训练导致的资源浪费，提升模型训练效率。

15、应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

技术特征：

1.一种模型信息存储方法，应用于第一电子设备，包括：

2.根据权利要求1所述的方法，还包括：

3.根据权利要求2所述的方法，还包括：

4.根据权利要求1-3中任一项所述的方法，其中，所述在向第二电子设备发送第一指示信息之后，监听所述第二电子设备是否在预定时间内完成模型训练过程中的第一任务，包括：

5.根据权利要求4所述的方法，其中，所述第一任务包括模型前反向计算和参数梯度通信；

6.根据权利要求5所述的方法，还包括：

7.根据权利要求5所述的方法，还包括：

8.一种模型信息存储装置，应用于第一电子设备，包括：

9.根据权利要求8所述的装置，其中，还包括：

10.根据权利要求9所述的装置，还包括：

11.根据权利要求8-10中任一项所述的装置，其中，所述监听模块包括：

12.根据权利要求11所述的装置，其中，所述第一任务包括模型前反向计算和参数梯度通信；

13.根据权利要求12所述的装置，其中，所述任务监听单元还用于：

14.根据权利要求12所述的装置，其中，所述事件创建单元还用于：

15.一种第一电子设备，包括：

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。

17.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。

技术总结本公开提供了一种模型信息存储方法、装置、第一电子设备和存储介质，涉及人工智能技术领域，尤其涉及深度学习和大模型领域。具体实现方案为：第一电子设备在向第二电子设备发送第一指示信息之后，监听第二电子设备是否在预定时间内完成模型训练过程中的第一任务；在第二电子设备没有在预定时间内完成第一任务的情况下，第一电子设备向第二电子设备发送第二指示信息；其中，第二指示信息用于指示第二电子设备复制当前的模型参数信息，并将模型参数信息存储为目标文件，目标文件用于重新执行第一任务。技术研发人员：曾锦乐,于佃海,沈亮,田戈骁,马艳军,吴甜受保护的技术使用者：北京百度网讯科技有限公司技术研发日：技术公布日：2024/7/29