技术新讯 > 计算推算,计数设备的制造及其应用技术 > 用于确定人工神经网络的最佳架构的方法与流程 > 正文

用于确定人工神经网络的最佳架构的方法与流程

国知局
2024-11-19 09:40:47

本发明涉及一种用于确定人工神经网络的最佳架构的方法，尤其是涉及一种用于确定人工神经网络的鉴于多个准则最佳的架构的方法，利用所述方法在确定最佳架构时可以节省资源，并且利用所述方法同时还可以在确定最佳架构时提高精度。

背景技术：

1、机器学习算法基于：使用统计方法，以便训练数据处理设施，使得所述数据处理设施可以执行特定的任务，而不必最初为此明确地对所述数据处理设施进行编程。机器学习的目标在此在于构造能够从数据中学习并且作出预测的算法。这些算法创建数学模型，利用所述数学模型可以例如对数据进行分类。

2、这种机器学习算法的示例是人工神经网络。这种人工神经网络面向生物神经元，并且允许从现有训练数据中训练未知的系统行为并且随后将经训练的系统行为也应用于未知的输入参量。在此，神经网络由具有理想化神经元的层组成，所述层根据网络的拓扑以不同的方式相互连接。也称为输入层的第一层采集并且在此传输输入值，其中输入层中的神经元的数量对应于应该被处理的输入信号的数量。最后的层也被称为输出层，并且具有与应该提供的输出值完全一样多的神经元。此外至少一个中间层位于输入层和输出层之间，所述中间层经常也被称为隐藏层，其中中间层的数量以及这些层中的神经元的数量和/或类型与应该通过神经网络解决的具体任务有关。

3、然而，在此人工神经网络的架构的开发、也即网络的外观或网络中的层的数量的确定以及各个层中的神经元的数量和/或类型的确定通常是非常耗费的，尤其是在资源消耗方面。为了优化架构的开发，在此已经开发了神经架构搜索(nas)，所述神经架构搜索自动化地针对特定问题提出(problemstellungen)开发最佳架构。nas算法在此首先从各种模块和配置中组成用于人工神经网络的架构，随后利用一组训练数据对所述架构进行训练，并且其中随后对所获得的结果鉴于性能进行评定。基于该评价，随后可以确定在性能方面大概更优化的新的架构，所述架构随后再次基于训练数据被训练，并且其中所获得的结果随后又在性能方面被评定。在此可以如此频繁地重复这些步骤，直至不再能够通过改变架构实现改善为止，其中通常使用基于梯度的方法来确定更优化的架构。

4、尤其是人工神经网络的性能在此尤其取决于所选择的架构。然而在此情况下，证明不利的是通常难以确定用于人工神经网络的实际最佳架构，其中尽管如此，最佳架构的确定通常与高资源消耗相关联。如果在确定最佳架构时应该考虑多个预设或条件或准则，则如果预设改变或应该考虑其他准则的话，此外通常有必要完全重新确定最佳架构。

5、从出版物de 10 2019214625a1中已知一种用于创建人工神经网络的方法。该方法在此包括提供多个不同的数据集、初始化多个超参数、训练人工神经网络、评估经训练的人工神经网络、根据评估优化超参数并且在使用经优化的超参数的情况下重新训练人工神经网络。

6、因此，本发明所基于的任务是说明一种用于确定用于人工神经网络的最佳架构的经改善的方法。

7、该任务通过根据专利权利要求1的特征的用于确定人工神经网络的最佳架构的方法来解决。

8、该任务此外还通过根据专利权利要求8的特征的用于确定人工神经网络的最佳架构的系统来解决。

技术实现思路

1、根据本发明的一种实施方式，该任务通过一种用于确定人工神经网络的最佳架构的方法来解决，其中所述方法包括：提供人工神经网络的可能架构的集合；以有向图表示人工神经网络的可能架构的集合，其中有向图的节点分别用符号表示可能架构之一的子集，其中初始节点用符号表示输入层，其中有向图的端节点分别用符号表示具有输出层的子集，并且其中有向图的边用符号表示子集之间的可能链接；对于用于确定架构的至少两个预设中的每一个预设，通过分别将流分配给有向图的每一个边、基于有向图规定用于确定对应的最佳架构的策略并且基于所规定的策略通过重复地确定从初始节点到端节点的轨迹来确定对应的最佳架构、确定用于所确定的轨迹的奖励、基于所确定的用于轨迹的奖励和沿着轨迹分配给边的流确定用于所确定的轨迹的成本函数并且基于成本函数分别更新沿着轨迹分配给边的流来分别确定关于对应的预设最佳的架构，其中一直重复确定轨迹、确定奖励、确定成本函数和更新流的步骤，直至所确定的轨迹满足用于架构搜索的中止准则为止，并且其中满足中止准则的轨迹代表最佳架构。此外该方法包括基于关于至少两个预设中的每一个预设的相应最佳架构或关于至少两个预设中的所有预设的先前确定的最佳架构来确定人工神经网络的最佳架构，以及提供人工神经网络的最佳架构。

2、可能架构的集合在此情况下被理解为人工神经网络的多个可能架构或对应的搜索空间。

3、有向图此外是具有节点和连接各个节点的边的图，其中边是有向边，也即仅能在一个方向上被遍历的边。

4、有向图的每个节点用符号表示可能架构之一的子集，在此意味着每个节点用符号表示人工神经网络的可能架构中的至少一个可能架构的子集，其中每个节点可以用符号表示不同的子集，并且其中子集可以分布到有向图的各个节点上，使得人工神经网络的所有可能架构总计地包含或表示在有向图中。子集在此分别包括或表征对应的可能架构的至少一个层。

5、用于基于有向图确定最佳架构的策略此外被理解为计划，基于所述计划或所述计划基于对应的预设或对应的准则来选择有向图的各个节点，以便获得轨迹。

6、在此，尤其是初始节点和端节点之一之间的连贯路径被称为轨迹。

7、奖励或奖赏此外被理解为通过对应架构可实现的改善的通过评估由对应轨迹代表的架构可确定的值。

8、成本函数或损失此外被理解为在基于沿着轨迹分配给边的流预期的用于所确定的轨迹的奖励与用于轨迹的所确定的实际奖励之间的损耗或误差。

9、在用于架构搜索的中止准则下此外说明提前规定的准则，其中如果所确定的架构或通过所确定的轨迹代表的架构满足关于对应的预设或对应的准则的中止准则，则结束对应的最佳架构的确定。

10、在此由所确定的轨迹代表架构意味着：通过相应地链接通过沿着所确定的轨迹的节点用符号表示的子集来构成架构。

11、根据本发明的方法与用于确定人工神经网络的最佳架构的已知的常用方法的不同之处从而在于，不优化奖励本身，而是分别基于分配给这些架构的奖励来检验或查询潜在的架构。此外，根据本发明的方法与用于确定人工神经网络的最佳架构的已知的常用方法的不同之处在于，例如梯度不被估计用于确定最佳架构，而是分配给有向图的各个边或人工神经网络的可能架构的子集之间的分配的流或值被优化并且被适配于实际情况。

12、不优化奖励本身，而是分别基于分配给这些架构的奖励来检验或查询潜在的架构在此具有以下优点：即在确定最佳架构时的精度以及尤其是用于可以找到实际上最佳的架构的概率可以被提高。

13、梯度不被估计、而是分配给有向图的各个边或人工神经网络的可能架构的子集之间的分配的流或值被优化并且被适配于实际情况，此外具有以下优点：即这例如不太易于受噪声影响，并且总体上需要更少的迭代来确定最佳架构，由此可以节省为了确定最佳架构所需要的资源、例如存储器和/或处理器容量。

14、此外基于先前确定的架构来确定人工神经网络的最佳架构(所述架构分别鉴于在确定最佳预设时要考虑的预设是最佳的)此外具有以下优点：如果应该以不同的方式对预设进行加权或应该考虑其他准则，则人工神经网络的最佳预设不必耗费地和资源密集地完全重新被确定。

15、总体上从而说明用于确定用于人工神经网络的最佳架构的经改善的方法。

16、在一种实施方式中，基于关于至少两个预设中的每一个预设的相应最佳架构来确定人工神经网络的最佳架构的步骤包括对关于所述至少两个预设最佳的架构以加权方式进行求和。

17、对最佳架构进行求和在此意味着对分别对应于对应的最佳架构的奖励以及分别对应于对应的最佳架构的最佳流进行求和，其中基于各个最佳流的总和确定人工神经网络的最佳架构。

18、加权此外被理解为对数学模型的各个影响参量例如在其价值方面的评定。以加权方式进行求和在此意味着各个加数、也即各个最佳流基于其价值或重要性被加权。

19、因此可以基于关于至少两个预设的各个最佳架构以简单的方式确定人工神经网络的最佳架构，而不会需要耗费的且资源密集的适配。

20、在此对应的加权可以基于至少一个目标组件的当前硬件情况。

21、至少一个目标组件的硬件情况此外被理解为关于至少一个目标组件的尤其是为了应用人工神经网络可供使用的资源、例如存储器和/或处理器容量的其他信息。

22、因此，在确定人工神经网络的最佳架构时考虑相应地经训练的人工神经网络随后被应用于的数据处理设施的情况。

23、在一种实施方式中，此外基于至少一个目标组件的硬件情况来确定用于轨迹的奖励。

24、由此，在确定人工神经网络的最佳架构时同样考虑相应地经训练的人工神经网络随后被应用于的数据处理设施的情况。

25、利用本发明的另一实施方式还说明一种用于训练人工神经网络的方法，其中所述方法包括提供用于训练人工神经网络的训练数据；提供用于人工神经网络的最佳架构，其中人工神经网络的最佳架构已经通过上述用于确定人工神经网络的最佳架构的方法被确定；和基于训练数据和最佳架构训练人工神经网络。

26、因此，说明一种用于训练人工神经网络的方法，所述方法基于通过用于确定用于人工神经网络的最佳架构的经改善的方法确定的最佳架构。不优化奖励本身，而是分别基于分配给这些架构的奖励来检验或查询潜在的架构在此具有以下优点：即在确定最佳架构时的精度以及尤其是还有用于可以找到实际上最佳的架构的概率可以被提高。梯度不被估计，而是分配给有向图的各个边或人工神经网络的可能架构的子集之间的分配的流或值被优化并且被适配于实际情况此外具有以下优点：即这例如不太易于受噪声影响，并且总体上需要更少的迭代来确定最佳架构，由此可以节省为了确定最佳架构所需要的资源、例如存储器和/或处理器容量。此外基于先前确定的架构来确定人工神经网络的最佳架构(所述架构分别鉴于在确定最佳预设时要考虑的预设是最佳的)此外具有以下优点：如果应该以不同的方式对预设进行加权或应该考虑其他准则，则人工神经网络的最佳架构不必耗费地和资源密集地完全重新被确定。

27、训练数据在此可以具有传感器数据。

28、也称为检测器、(测量参量或测量)敏感元件或(测量)检测元件的传感器是可以定性地或作为测量参量定量地检测其环境的特定的物理或化学特性和/或材料性质的技术构件。

29、因此可以以简单的方式检测其上执行该方法的实际数据处理设施之外的情况，并且在训练人工神经网络时对其进行考虑。

30、利用本发明的另一实施方式，此外还说明一种用于基于人工神经网络控制可控系统的方法，其中所述方法包括提供人工神经网络，所述人工神经网络被训练来控制可控系统，其中人工神经网络已经通过上述用于训练人工神经网络的方法被训练；和基于所提供的人工神经网络控制可控系统。

31、可控系统在此尤其是可以是机器人系统，其中机器人系统例如可以是机动车辆的嵌入式系统和/或机动车辆功能。

32、因此说明一种用于基于人工神经网络控制可控系统的方法，其中人工神经网络基于通过用于确定人工神经网络的最佳架构的经改善的方法确定的最佳架构。不优化奖励本身、而是分别基于分配给这些架构的奖励来检验或查询潜在的架构在此具有以下优点：即在确定最佳架构时的精度以及尤其是还有用于可以找到实际上最佳的架构的概率可以被提高。不估计梯度、而是对分配给有向图的各个边或人工神经网络的可能架构的子集之间的分配的流或值进行优化并且适配于实际情况此外具有以下优点：即这例如不太易于受噪声影响，并且总体上需要更少的迭代来确定最佳架构，由此可以节省为了确定最佳架构所需要的资源、例如存储器和/或处理器容量。此外基于先前确定的架构来确定人工神经网络的最佳架构(所述架构分别鉴于在确定最佳预设时要考虑的预设是最佳的)此外具有以下优点：如果应该以不同的方式对预设进行加权或应该考虑其他准则，则人工神经网络的最佳预设不必耗费地和资源密集地完全重新被确定。

33、利用本发明的另一实施方式此外还说明一种用于确定人工神经网络的最佳架构的系统，其中所述系统具有第一提供单元，所述第一提供单元被构造用于提供人工神经网络的可能架构的集合；映射单元，所述映射单元被构造用于将人工神经网络的可能架构的集合映射到有向图上，其中所述有向图的节点分别用符号表示可能架构之一的子集，其中初始节点用符号表示输入层，其中有向图的端节点分别用符号表示具有输出层的子集，并且其中有向图的边分别用符号表示子集之间的可能链接；至少一个第一确定单元，所述第一确定单元被构造用于对于用于确定架构的至少两个预设中的每一个预设，通过分别将流分配给所述有向图的每一个边、基于有向图规定用于确定对应的最佳架构的策略并且基于所规定的策略通过重复地确定从初始节点到端节点的轨迹来确定对应的最佳架构、确定用于所确定的轨迹的奖励、基于所确定的用于轨迹的奖励和沿着轨迹分配给边的流确定用于所确定的轨迹的成本函数并且基于成本函数分别更新沿着轨迹分配给边的流来分别确定关于对应的预设最佳的架构，其中一直重复确定轨迹、确定奖励、确定成本函数和更新流的步骤，直至所确定的轨迹满足用于架构搜索的中止准则为止，并且其中满足中止准则的轨迹代表最佳架构。此外，所述系统具有：第二确定单元，所述第二确定单元被构造用于基于关于至少两个预设中的每一个预设的相应的所确定的最佳架构来确定人工神经网络的最佳架构；以及第二提供单元，所述第二提供单元被构造用于提供人工神经网络的最佳架构。

34、因此，说明一种用于确定用于人工神经网络的最佳架构的经改善的系统。不优化奖励本身、而是分别基于分配给这些架构的奖励来检验或查询潜在的架构在此具有以下优点：即在确定最佳架构时的精度以及尤其是还有用于可以找到实际上最佳的架构的概率可以被提高。不对梯度进行估计、而是对分配给有向图的各个边或人工神经网络的可能架构的子集之间的分配的流或值进行优化并且适配于实际情况此外具有以下优点：即这例如不太易于受噪声影响，并且总体上需要更少的迭代来确定最佳架构，由此可以节省为了确定最佳架构所需要的资源、例如存储器和/或处理器容量。此外基于先前确定的架构来确定人工神经网络的最佳架构(所述架构分别鉴于在确定最佳预设时要考虑的预设是最佳的)此外具有以下优点：如果应该以不同的方式对预设进行加权或应该考虑其他准则，则人工神经网络的最佳预设不必耗费地和资源密集地完全重新被确定。

35、在一种实施方式中，第二确定单元在此被构造用于通过对关于至少两个预设中的每一个预设的相应最佳架构以加权方式进行求和来确定人工神经网络的最佳架构。因此可以基于关于至少两个预设的各个最佳架构以简单的方式确定人工神经网络的最佳架构，而不会需要耗费的且资源密集的适配。

36、在此，相应加权可以基于至少一个目标组件的当前硬件情况。因此，在确定人工神经网络的最佳架构时考虑相应地经训练的人工神经网络随后被应用于的数据处理设施的情况。

37、在一种实施方式中，第一确定单元此外被构造用于基于至少一个目标组件的硬件情况来确定用于轨迹的奖励。因此，在确定人工神经网络的最佳架构时又考虑相应地经训练的人工神经网络随后被应用于的数据处理设施的情况。

38、利用本发明的另一实施方式，此外还说明一种用于训练人工神经网络的系统，其中所述系统具有第一提供单元，所述第一提供单元被构造用于提供用于训练人工神经网络的训练数据；第二提供单元，所述第二提供单元被构造用于提供用于人工神经网络的最佳架构，其中所述最佳架构已经通过上述用于确定人工神经网络的最佳架构的系统被确定；以及训练单元，所述训练单元被构造用于基于训练数据和最佳架构来训练人工神经网络。

39、因此，说明一种用于训练人工神经网络的系统，所述系统基于通过用于确定用于人工神经网络的最佳架构的经改善的系统确定的最佳架构。不优化奖励本身、而是分别基于分配给这些架构的奖励来检验或查询潜在的架构在此具有以下优点：即在确定最佳架构时的精度以及尤其是还有用于可以找到实际上最佳的架构的概率可以被提高。不对梯度进行估计、而是对分配给有向图的各个边或者人工神经网络的可能架构的子集之间的分配的流或值进行优化并且适配于实际情况此外具有以下优点：即这例如不太易于受噪声影响，并且总体上需要更少的迭代来确定最佳架构，由此可以节省为了确定最佳架构所需要的资源、例如存储器和/或处理器容量。此外基于先前确定的架构来确定人工神经网络的最佳架构(所述架构分别鉴于在确定最佳预设时要考虑的预设是最佳的)此外具有以下优点：如果应该以不同的方式对预设进行加权或应该考虑其他准则，则人工神经网络的最佳预设不必耗费地和资源密集地完全重新被确定。

40、训练数据在此又可以具有传感器数据。从而可以以简单的方式检测其上执行该方法的实际数据处理设施之外的情况，并且在训练人工神经网络时对其进行考虑。

41、利用本发明的另一实施方式，此外还说明一种用于基于人工神经网络控制可控系统的系统，其中所述系统具有提供单元，所述提供单元被构造用于提供人工神经网络，所述人工神经网络被训练用于控制可控系统，其中人工神经网络已经通过上述用于训练人工神经网络的系统被训练；以及控制单元，所述控制单元被构造用于基于所提供的人工神经网络来控制可控系统。

42、因此，说明一种用于基于人工神经网络控制可控系统的系统，其中人工神经网络基于通过用于确定用于人工神经网络的最佳架构的经改善的系统确定的最佳架构。不优化奖励本身、而是分别基于分配给这些架构的奖励来检验或查询潜在的架构在此具有以下优点：即在确定最佳架构时的精度以及尤其是还有用于可以找到实际上最佳的架构的概率可以被提高。不对梯度进行估计、而是对分配给有向图的各个边或者人工神经网络的可能架构的子集之间的分配的流或值进行优化并且适配于实际情况此外具有以下优点：即这例如不太易于受噪声影响，并且总体上需要更少的迭代来确定最佳架构，由此可以节省为了确定最佳架构所需要的资源、例如存储器和/或处理器容量。此外基于先前确定的架构来确定人工神经网络的最佳架构(所述架构分别鉴于在确定最佳预设时要考虑的预设是最佳的)此外具有以下优点：如果应该以不同的方式对预设进行加权或应该考虑其他准则，则人工神经网络的最佳预设不必耗费地和资源密集地完全重新被确定。

43、利用本发明的另一实施方式，此外还说明一种具有程序代码的计算机程序，用于当计算机程序在计算机上被执行时执行上述用于确定人工神经网络的最佳架构的方法。

44、该计算机程序在此具有以下优点，即所述计算机程序被构造用于执行用于确定用于人工神经网络的最佳架构的经改善的方法。不优化奖励本身、而是分别基于分配给这些架构的奖励来检验或查询潜在的架构在此具有以下优点：即在确定最佳架构时的精度以及尤其是还有用于可以找到实际上最佳的架构的概率可以被提高。不对梯度进行估计、而是对分配给有向图的各个边或者人工神经网络的可能架构的子集之间的分配的流或值进行优化并且适配于实际情况此外具有以下优点：即这例如不太易于受噪声影响，并且总体上需要更少的迭代来确定最佳架构，由此可以节省为了确定最佳架构所需要的资源、例如存储器和/或处理器容量。此外基于先前确定的架构来确定人工神经网络的最佳架构(所述架构分别鉴于在确定最佳预设时要考虑的预设是最佳的)此外具有以下优点：如果应该以不同的方式对预设进行加权或应该考虑其他准则，则人工神经网络的最佳预设不必耗费地和资源密集地完全重新被确定。

45、概括而言可以确定，利用本发明说明用于确定人工神经网络的最佳架构的方法、尤其是用于确定人工神经网络的关于多个准则最佳的架构的方法，利用所述方法在确定最佳架构时可以节省资源，并且利用所述方法同时还可以提高在确定最佳架构时的精度。

46、所描述的设计方案和改进方案可以任意地被相互组合。

47、本发明的其他可能的设计方案、改进方案和实现还包括先前或在下面关于实施例描述的本发明特征的未明确提到的组合。