技术新讯 > 计算推算,计数设备的制造及其应用技术 > 神经网络训练方法及装置、电子设备、存储介质与流程 > 正文

神经网络训练方法及装置、电子设备、存储介质与流程

国知局
2024-07-31 22:50:15

本公开涉及计算机，特别涉及一种神经网络训练方法及装置、电子设备、存储介质。

背景技术：

1、深度学习已经在多个领域展现出了卓越的性能，包括自然语言处理、计算机视觉、语音识别等等。然而，大型神经网络模型的训练涉及数十亿，甚至数千亿的参数，需要大规模的数据集和分布式计算资源，使得训练时间长、硬件成本高，甚至限制了许多研究人员和组织采用这些模型，神经网络的运算效率低。

技术实现思路

1、本公开提供一种神经网络训练方法及装置、电子设备、存储介质。

2、第一方面，本公开提供了一种神经网络训练方法，所述神经网络包括前向模型、反向模型和交互模型，所述神经网络为预先训练得到的具备推理能力的网络模型，所述前向模型和所述反向模型部署在不同设备上，所述方法包括：

3、获取输入数据，将所述输入数据作为第一类数据；

4、在所述输入数据为所述第一类数据的情况下，将所述输入数据输入至所述前向模型，获得所述输入数据的预测结果；

5、在将所述输入数据输入至所述前向模型，获得所述输入数据的预测结果的过程中，将满足预设训练条件的输入数据作为第二类数据或第三类数据；

6、在所述输入数据为所述第二类数据的情况下，将所述输入数据输入至所述前向模型，获得所述前向模型的第一损失值；将所述第一损失值输入至所述反向模型，获得所述神经网络的参数的梯度；将所述梯度输入至所述交互模型，获得所述神经网络的参数变化量；根据所述参数变化量，更新所述前向模型和所述反向模型中所述神经网络的参数；

7、在所述输入数据为所述第三类数据的情况下，将所述输入数据输入至所述前向模型，获得所述输入数据的预测结果和所述前向模型的第二损失值；将所述第二损失值输入至所述反向模型，获得所述神经网络的参数的梯度；将所述梯度输入至所述交互模型，获得所述神经网络的参数变化量；根据所述参数变化量，更新所述前向模型和所述反向模型中所述神经网络的参数；

8、其中，所述第一类数据为用于推理的数据，所述第二类数据为用于训练的数据，所述第三类数据为同时用于推理和训练的数据。

9、可选地，所述前向模型包括至少一个前向子模型，所述反向模型包括至少一个反向子模型，通过至少两个设备完整部署所述神经网络划分成的各个前向子模型、各个反向子模型和交互模型，其中，前向子模型和反向子模型部署在不同设备上，前向子模型和交互模型部署在不同设备上，设备的类别包括第一类设备、第二类设备和第三类设备，第一类设备中包括前向子模型，第二类设备中包括反向子模型，第三类设备中包括前向子模型或反向子模型。

10、可选地，所述前向模型包括至少一个前向子模型，所述反向模型包括至少一个反向子模型，通过至少两个设备完整部署所述神经网络划分成的各个前向子模型、各个反向子模型和交互模型，其中，前向子模型和反向子模型部署在不同设备上，前向子模型和交互模型部署在不同设备上，设备的类别包括第四类设备和第五类设备，第四类设备中包括前向子模型，第五类设备中包括反向子模型。

11、可选地，所述将所述梯度输入至所述交互模型，获得所述神经网络的参数变化量之前，所述方法还包括：

12、获取第一预设数量批次的第一类数据，将第一预设数量批次的第一类数据输入至所述前向模型，获得第一预设数量批次的第一类数据的预测结果。

13、可选地，所述根据所述参数变化量，更新所述前向模型和所述反向模型中所述神经网络的参数，包括：

14、积累与第二预设数量批次的第二类数据和/或第三类数据对应的参数变化量；

15、根据与第二预设数量批次的第二类数据和/或第三类数据对应的参数变化量，更新所述前向模型和所述反向模型中所述神经网络的参数。

16、可选地，所述将满足预设训练条件的输入数据作为第二类数据或第三类数据，包括：

17、从数据输入时刻开始每隔第一预设时长，将第三预设数量批次的输入数据作为第二类数据，和/或，从数据输入时刻开始每隔第二预设时长，将第四预设数量批次的输入数据作为第三类数据，其中，所述数据输入时刻是指将所述输入数据输入至所述前向模型的起始时刻；

18、或者，

19、将预测结果和实际结果之间的误差大于预设值的输入数据，作为第二类数据或第三类数据。

20、可选地，所述神经网络为大模型，所述大模型是指具有大规模参数和复杂计算结构的机器学习模型。

21、可选地，所述前向模型包括人工神经网络或脉冲神经网络，所述反向模型包括人工神经网络或脉冲神经网络，所述交互模型包括人工神经网络或脉冲神经网络。

22、可选地，所述神经网络中包括按更新时间排序的多个版本的前向模型，不同版本的前向模型中所述神经网络的参数不同，不同版本的前向模型部署在不同设备上；

23、所述在所述输入数据为所述第一类数据的情况下，将所述输入数据输入至所述前向模型，获得所述输入数据的预测结果，包括：

24、在所述输入数据为所述第一类数据的情况下，确定与所述输入数据对应的权限等级；

25、根据权限等级，确定前向模型的目标版本；

26、将所述输入数据输入至所述目标版本的前向模型，得到所述输入数据的预测结果。

27、可选地，各个类别的设备的数量占设备总数量的比例，由各个类别的输入数据的数量占输入数据总数量的比例、前向过程和反向过程的性能需求、以及前向过程和反向过程的硬件资源需求共同决定，其中，设备总数量是指所述第一类设备、所述第二类设备和所述第三类设备的总数量，或者，所述第四类设备和所述第五类设备的总数量，输入数据总数量是指所述第一类数据、所述第二类数据和所述第三类数据的总数量，性能需求包括延迟需求、吞吐需求和功耗需求中的至少一个，硬件资源需求包括计算资源需求、存储资源需求和通信资源需求中的至少一个。

28、可选地，各个类别的设备的数量占设备总数量的比例，在前向过程的实际性能不满足前向过程的性能需求，或者，反向过程的实际性能不满足反向过程的性能需求的情况下，进行调整。

29、可选地，所述第一类设备中包括类脑硬件，所述第二类设备中包括图形处理器，所述第三类设备中包括图形处理器。

30、可选地，所述第四类设备中包括类脑硬件，所述第五类设备中包括图形处理器。

31、可选地，所述神经网络用于执行图像处理任务、语音处理任务、文本处理任务、视频处理任务中的任意一种。

32、第二方面，本公开提供了一种神经网络训练装置，所述神经网络包括前向模型、反向模型和交互模型，所述神经网络为预先训练得到的具备推理能力的网络模型，所述前向模型和所述反向模型部署在不同设备上，所述装置包括：

33、获取模块，用于获取输入数据，将所述输入数据作为第一类数据；

34、第一处理模块，用于在所述输入数据为所述第一类数据的情况下，将所述输入数据输入至所述前向模型，获得所述输入数据的预测结果；

35、第二处理模块，用于在将所述输入数据输入至所述前向模型，获得所述输入数据的预测结果的过程中，将满足预设训练条件的输入数据作为第二类数据或第三类数据；

36、第三处理模块，用于在所述输入数据为所述第二类数据的情况下，将所述输入数据输入至所述前向模型，获得所述前向模型的第一损失值；将所述第一损失值输入至所述反向模型，获得所述神经网络的参数的梯度；将所述梯度输入至所述交互模型，获得所述神经网络的参数变化量；根据所述参数变化量，更新所述前向模型和所述反向模型中所述神经网络的参数；

37、第四处理模块，用于在所述输入数据为所述第三类数据的情况下，将所述输入数据输入至所述前向模型，获得所述输入数据的预测结果和所述前向模型的第二损失值；将所述第二损失值输入至所述反向模型，获得所述神经网络的参数的梯度；将所述梯度输入至所述交互模型，获得所述神经网络的参数变化量；根据所述参数变化量，更新所述前向模型和所述反向模型中所述神经网络的参数；

38、其中，所述第一类数据为用于推理的数据，所述第二类数据为用于训练的数据，所述第三类数据为同时用于推理和训练的数据。

39、第三方面，本公开提供了一种电子设备，该电子设备包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序，一个或多个所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的神经网络训练方法。

40、第四方面，本公开提供了一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序在被处理器执行时实现上述的神经网络训练方法。

41、本公开所提供的实施例，神经网络为预先训练得到的具备推理能力的网络模型，获取输入数据，将输入数据作为第一类数据，在输入数据为第一类数据的情况下，将输入数据输入至前向模型，获得输入数据的预测结果，能够直接使用神经网络进行推理，在将输入数据输入至前向模型，获得输入数据的预测结果的过程中，将满足预设训练条件的输入数据作为第二类数据或第三类数据，第一类数据为用于推理的数据，第二类数据为用于训练的数据，第三类数据为同时用于推理和训练的数据，在使用神经网络进行推理的过程中，将满足预设训练条件的输入数据作为第二类数据或第三类数据，对神经网络进行训练，实现神经网络的在线学习。而且，在神经网络的在线学习的过程中，将神经网络划分成三个模型，分别为前向模型、反向模型和交互模型，前向模型和反向模型部署在不同设备上，使前向模型和反向模型在硬件上分离开，前向模型和反向模型之间解耦合，在推理过程中只需要使用前向模型，在训练过程中需要通过前向模型、反向模型和交互模型这三个模型的交互来实现更新前向模型和反向模型中神经网络的参数，即便训练过程和推理过程同时进行，反向模型的执行不会影响到前向模型的执行，有利于提升推理过程的运算效率，提升推理过程的性能。

42、应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。