根据特征图融合网络的装置、板卡、方法及可读存储介质与流程

2022-04-16 12:33:47 来源：中国专利 TAG：

1.本披露一般地涉及神经网络领域。更具体地，本披露涉及根据特征图融合神经网络各层为模板融合单元的装置、板卡、方法及可读存储介质。

背景技术：

2.神经网络是按照一定规则连接起来的多个神经元系统，大致上是由以下四种层结构所组成：输入层、卷积层(convolution layer)、池化层(pooling layer)、全连接层(fully connected layer)。
3.输入层是自输入数据中截取部分信息，转化成特征矩阵方式呈现，其中载有对应该部分信息的特征。卷积层配置成接收来自输入层的特征矩阵，通过卷积操作对输入数据进行特征抽取。卷积层在实际运用时可以建制多层卷积层。池化层配置成对数据的某一个区域用一个值代替，这值通常是该区域所有数值里的最大值或平均值。通过池化，在不至于损失过多信息的前提下，可以缩减模型尺寸、提高计算速度。全连接层在整个卷积神经网络中起到分类器的作用，相当于特征空间变换，把前面所有有用的信息提取整合，基于不同的分类做信息比对，借以判断输入数据是否相似于比对的标的。
4.随着科技的发展，神经网络的层数越来越多，以经典的vgg架构为例，vgg-a共有11个权重层、vgg-b有13个权重层、vgg-c有16个权重层、vgg-d共有16个权重层、vgg-e共有19个权重层。其中，卷积层和全连接层的泛指权重层。有些神经网络更是具有上百层结构。不仅如此，随着层数的增加，神经网络的参数数量也呈指数级的增加，例如alexnet具有6000万个参数参与计算。
5.多层数与多参数都需要大量片上片外的输入/输出访问，这将会耗去许多资源，同时延迟运算时间。因此一种减少输入/输出访问的机制是人工智能领域中迫切需要的。

技术实现要素：

6.为了至少部分地解决背景技术中提到的技术问题，本披露的方案提供了一种根据特征图融合神经网络各层为模板融合单元的装置、板卡、方法及可读存储介质。
7.在一个方面中，本披露揭露一种根据多个特征图融合神经网络各层为模板融合单元的集成电路装置，包括计算装置及处理装置。计算装置包括多个集群，每个集群包括共享存储单元，用以存储片上单元图。处理装置用以：判断所述多个特征图其中之一的尺寸是否大于所述共享存储单元的可用空间；如否，所述片上单元图包括所述多个特征图其中之一；以及根据所述片上单元图的尺寸决定所述模板融合单元。
8.另一个方面，本披露揭露一种板卡，包括前述的集成电路装置。
9.另一个方面，本披露揭露一种在集成电路装置中根据多个特征图融合神经网络各层为模板融合单元的方法，所述集成电路装置包括计算装置，所述计算装置包括多个集群，每个集群包括共享存储单元，用以存储片上单元图，所述方法包括：判断所述多个特征图其中之一的尺寸是否大于所述共享存储单元的可用空间；如否，所述片上单元图包括所述多
个特征图其中之一；以及根据所述片上单元图的尺寸决定所述模板融合单元。
10.另一个方面，本披露揭露一种计算机可读存储介质，其上存储有根据多个特征图融合神经网络各层为模板融合单元的计算机程序代码，当所述计算机程序代码由处理装置运行时，执行前述的方法。
11.本披露的方案技术根据计算装置的存储空间适当将至少一张特征图设定成片上单元图，使得该片上单元图可以一次性地载入至计算装置的存储空间中，再根据融合策略决定模板融合单元，在很大程度上减少了片外片上的数据传输，节省资源，并提升运算效率。
附图说明
12.通过参考附图阅读下文的详细描述，本披露示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本披露的若干实施方式，并且相同或对应的标号表示相同或对应的部分其中：
13.图1是示出本披露实施例的板卡的结构图；
14.图2是示出本披露实施例的集成电路装置的结构图；
15.图3是示出本披露实施例的计算装置的内部结构示意图；
16.图4是示出本披露实施例的处理器核的内部结构示意图；
17.图5是示出当一个处理器核欲将数据写入至另一个集群的处理器核时的示意图；
18.图6是示出alexnet模型的示意图；
19.图7是示出一种示例性地神经网络模型的示意图；
20.图8是示出本披露实施例的两个卷积层融合在一起的示意图；
21.图9是示出nchw与nhwc的格式示意图；
22.图10是示出本披露实施例利用模板融合单元执行神经网络计算的流程图；以及
23.图11是示出本披露实施例根据融合策略动态融合神经网络的流程图。
具体实施方式
24.下面将结合本披露实施例中的附图，对本披露实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本披露一部分实施例，而不是全部的实施例。基于本披露中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本披露保护的范围。
25.应当理解，本披露的权利要求、说明书及附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。本披露的说明书和权利要求书中使用的术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
26.还应当理解，在此本披露说明书中所使用的术语仅仅是出于描述特定实施例的目的，而并不意在限定本披露。如在本披露说明书和权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。还应当进一步理解，在本披露说明书和权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。
27.如在本说明书和权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。
28.下面结合附图来详细描述本披露的具体实施方式。
29.神经网络是由输入层、卷积层、激活函数、池化层、全连接层所组成，少则数层，多则上百层，每层执行一个算子，例如卷积层执行卷积算子，有多少层便需要执行多少算子。在本披露中，当提及特定层时，便表示该层相对应的算子。
30.在进行神经网络计算时，输入信息和模型各层的输出结果在每次推理计算时是不同的，它们被视为变量数据，变量数据一般都是以特征图(矩阵)来表现的，在本披露中，整个神经网络模型的输入信息和模型各层的输入图统称为特征图，一旦特征图加载到片上存储器部件上，在本披露中称为片上单元图。训练网络模型的参数在训练稳定之后通常不会频繁改动，或是网络拓扑结构和硬件参数确定后就可以编译生成，在计算过程中不会变更，因此它们可以被视为常量数据，常量数据包括但不限于权值、偏置、设备硬件指令、批标准化(batchnorm)的均值和方差等，在本披露中统一以权值代表所有的常量数据。而本披露中提及“数据”时，泛指根据融合策略使得神经网络模型中允许对应算子的运算操作融合在一起的图结构，该图结构所涉及变量数据和常量数据，也就是特征图加上相应的权值。
31.图1示出本披露实施例的一种板卡10的结构示意图。如图1所示，板卡10包括芯片101，其是一种系统级芯片(system on chip，soc)，或称片上系统，集成有一个或多个组合处理装置，组合处理装置是一种人工智能运算单元，用以支持各类深度学习和机器学习算法，满足计算机视觉、语音、自然语言处理、数据挖掘等领域复杂场景下的智能处理需求。特别是深度学习技术大量应用在云端智能领域，云端智能应用的一个显著特点是输入数据量大，对平台的存储能力和计算能力有很高的要求，此实施例的板卡10适用在云端智能应用，具有庞大的片外存储、片上存储和大量的计算能力。
32.芯片101通过对外接口装置102与外部设备103相连接。外部设备103例如是服务器、计算机、摄像头、显示器、鼠标、键盘、网卡或wifi接口等。待处理的数据可以由外部设备103通过对外接口装置102传递至芯片101。芯片101的计算结果可以经由对外接口装置102传送回外部设备103。根据不同的应用场景，对外接口装置102可以具有不同的接口形式，例如pcie接口等。
33.板卡10还包括用于存储数据的存储器件104，其包括一个或多个存储单元105。存储器件104通过总线与控制器件106和芯片101进行连接和数据传输。板卡10中的控制器件106配置用于对芯片101的状态进行调控。为此，在一个应用场景中，控制器件106可以包括单片机(micro controller unit，mcu)。
34.图2是示出此实施例的芯片101中的组合处理装置的结构图。如图2中所示，组合处理装置20包括计算装置201、接口装置202、处理装置203和dram 204。
35.计算装置201配置成执行用户指定的操作，主要实现为单核智能处理器或者多核智能处理器，用以执行深度学习或机器学习的计算，其可以通过接口装置202与处理装置203进行交互，以共同完成用户指定的操作。
36.接口装置202用于在计算装置201与处理装置203间传输数据和控制指令。例如，计算装置201可以经由接口装置202从处理装置203中获取输入数据，写入计算装置201片上的存储装置。进一步，计算装置201可以经由接口装置202从处理装置203中获取控制指令，写
入计算装置201片上的控制缓存中。替代地或可选地，接口装置202也可以读取计算装置201的存储装置中的数据并传输给处理装置203。
37.处理装置203作为通用的处理装置，执行包括但不限于数据搬运、对计算装置201的开启和/或停止等基本控制。根据实现方式的不同，处理装置203可以是中央处理器(central processing unit，cpu)、图形处理器(graphics processing unit，gpu)或其他通用和/或专用处理器中的一种或多种类型的处理器，这些处理器包括但不限于数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现场可编程门阵列(field-programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，并且其数目可以根据实际需要来确定。如前所述，仅就本披露的计算装置201而言，其可以视为具有单核结构或者同构多核结构。然而，当将计算装置201和处理装置203整合共同考虑时，二者视为形成异构多核结构。
38.dram 204用以存储待处理的数据，为ddr内存，大小通常为16g或更大，用于保存计算装置201和/或处理装置203的数据。
39.图3示出了计算装置201的内部结构示意图。计算装置201用以处理计算机视觉、语音、自然语言、数据挖掘等输入数据，图中的计算装置201采用多核分层结构设计，计算装置201作为一个片上系统，其包括多个集群(cluster)，每个集群又包括多个处理器核，换言之，计算装置201是以片上系统-集群-处理器核的层次所构成的。
40.以片上系统的层级来看，如图3所示，计算装置201包括外部存储控制器301、外设通信模块302、片上互联模块303、同步模块304以及多个集群305。
41.外部存储控制器301可以有多个，在图中示例性地展示2个，其用以响应处理器核发出的访问请求，访问外部存储设备，例如图2中的dram204，从而自片外读取数据或是将数据写入。外设通信模块302用以通过接口装置202接收来自处理装置203的控制信号，启动计算装置201执行任务。片上互联模块303将外部存储控制器301、外设通信模块302及多个集群305连接起来，用以在各个模块间传输数据和控制信号。同步模块304是一种全局同步屏障控制器(global barrier controller，gbc)，用以协调各集群的工作进度，确保信息的同步。多个集群305是计算装置201的计算核心，在图中示例性地展示4个，随着硬件的发展，本披露的计算装置201还可以包括8个、16个、64个、甚至更多的集群305。集群305用以高效地执行深度学习算法。
42.以集群的层级来看，如图3所示，每个集群305包括多个处理器核(ipu core)306及一个存储核(mem core)307。
43.处理器核306在图中示例性地展示4个，本披露不限制处理器核306的数量。其内部架构如图4所示。每个处理器核306包括三大模块：控制模块41、运算模块42及存储模块43。
44.控制模块41用以协调并控制运算模块42和存储模块43的工作，以完成深度学习的任务，其包括取指单元(instruction fetch unit，ifu)411及指令译码单元(instruction decode unit，idu)412。取指单元411用以获取来自处理装置203的指令，指令译码单元412则将获取的指令进行译码，并将译码结果作为控制信息发送给运算模块42和存储模块43。
45.运算模块42包括向量运算单元421及矩阵运算单元422。向量运算单元421用以执行向量运算，可支持向量乘、加、非线性变换等复杂运算；矩阵运算单元422负责深度学习算
法的核心计算，即矩阵乘及卷积。
46.存储模块43用来存储或搬运相关数据，包括神经元存储单元(neuron ram，nram)431、权值存储单元(weight ram，wram)432、输入/输出直接内存访问模块(input/output direct memory access，iodma)433、搬运直接内存访问模块(move direct memory access，mvdma)434。nram431用以存储供处理器核306计算的特征图及计算后的中间结果；wram432则用以存储深度学习网络的权值；iodma 433通过广播总线309控制nram 431/wram 432与dram 204的访存；mvdma 434则用以控制nram 431/wram 432与sram 308的访存。
47.回到图3，存储核307主要用以存储和通信，即存储处理器核306间的共享数据或中间结果、以及执行集群305与dram 204之间的通信、集群305间彼此的通信、处理器核306间彼此的通信等。在其他实施例中，存储核307具有标量运算的能力，用以执行标量运算。
48.存储核307包括共享存储单元(sram)308、广播总线309、集群直接内存访问模块(cluster direct memory access，cdma)310及全局直接内存访问模块(global direct memory access，gdma)311。sram 308承担高性能数据中转站的角色，在同一个集群305内不同处理器核306之间所复用的数据不需要通过处理器核306各自向dram 204获得，而是经sram 308在处理器核306间中转，存储核307只需要将复用的数据从sram 308迅速分发给多个处理器核306即可，以提高核间通讯效率，亦大大减少片上片外的输入/输出访问。
49.广播总线309、cdma 310及gdma 311则分别用来执行处理器核306间的通信、集群305间的通信和集群305与dram 204的数据传输。以下将分别说明。
50.广播总线309用以完成集群305内各处理器核306间的高速通信，此实施例的广播总线309支持核间通信方式包括单播、多播与广播。单播是指点对点(即单一处理器核至单一处理器核)的数据传输，多播是将一份数据从sram 308传输到特定几个处理器核306的通信方式，而广播则是将一份数据从sram 308传输到所有处理器核306的通信方式，属于多播的一种特例。
51.cdma 310用以控制在同一个计算装置201内不同集群305间的sram 308的访存。图5示出当一个处理器核欲将数据写入至另一个集群的处理器核时的示意图，以说明cdma 310的工作原理。在此应用场景中，同一个计算装置包括多个集群，为方便说明，图中仅展示集群0与集群1，集群0与集群1分别包括多个处理器核，同样为了说明方便，图中的集群0仅展示处理器核0，集群1仅展示处理器核1。处理器核0欲将数据写入至处理器核1。
52.首先，处理器核0发送单播写请求将数据写入本地的sram 0中，cdma 0作为主(master)端，cdma 1作为从(slave)端，主端向从端推送写请求，即主端发送写地址aw和写数据w，将数据传送到集群1的sram 1中，接着从端发送写响应b作为回应，最后集群1的处理器核1发送单播读请求将数据从sram 1中读取出来。
53.回到图3，gdma 311与外部存储控制器301协同，用以控制集群305的sram 308到dram 204的访存，或是将数据自dram 204读取至sram 308中。从前述可知，dram 204与nram 431或wram 432间的通信可以经由2个渠道来实现。第一个渠道是通过iodam 433直接联系dram 204与nram 431或wram 432；第二个渠道是先经由gdma 311使得数据在dram 204与sram 308间传输，再经过mvdma 434使得数据在sram 308与nram 431或wram 432间传输。虽然表面上看来第二个渠道需要更多的元件参与，数据流较长，但实际上在部分实施例中，第二个渠道的带宽远大于第一个渠道，因此dram 204与nram 431或wram 432间的通信通过第
二个渠道可能更有效率。本披露的实施例可根据本身硬件条件选择数据传输渠道。
54.在其他实施例中，gdma 311的功能和iodma 433的功能可以整合在同一部件中。本披露为了方便描述，将gdma 311和iodma 433视为不同部件，对于本领域技术人员来说，只要其实现的功能以及达到的技术效果与本披露类似，即属于本披露的保护范围。进一步地，gdma 311的功能、iodma 433的功能、cdma 310的功能、mvdma 434的功能亦可以由同一部件来实现，同样地，只要其实现的功能以及达到的技术效果与本披露类似，均属于本披露的保护范围。
55.与本披露相关的神经网络的结构分为两类：长链式结构与块结构。长链式结构指的是神经网络模型为单链条串接的层所组成，每层只有一个输入及一个输出，整体属于单分支，例如vgg16模型或是图6所示的alexnet模型。块结构指的是神经网络中的子网络仅有一个输入及一个输出，但子网络内存在多分支，即子网络的部分层具有多个输入或输出，例如resnet50的resblock结构、inception_v3的block结构等。图7示出一种示例性地神经网络模型的示意图，该示例性神经网络模型包括子网络701及子网络702。子网络701仅有一个输入及一个输出，其包括第一层到第六层，第一层具有2个输出，第六层具有2个输入，因此子网络701包括2个分支，一个分支为第一层
→
第二层
→
第三层
→
第六层，而另一个分支为第一层
→
第四层
→
第五层
→
第六层，子网络701构成一个块结构。同样地，子网络702亦构成一个块结构。
56.在执行深度学习的各层计算时，需要大量的片外片上访问，特别是将输入数据自dram 204读取至计算装置201中，再将计算装置201的计算结果存储至dram 204。这种频繁的访问会耗去极大的硬件资源。为了解决这个问题，本披露通过融合神经网络的相邻层，在很大程度上减少了片外片上的数据传输。
57.图8示出将两个卷积层融合在一起的示意图。第一层卷积层810的输入为7
×
7的特征图801，该层将特征图801与3
×
3的内核(未示出)进行卷积后，得到第一层卷积层810的特征图802。其中，5
×
5特征子图804的数值会影响3
×
3特征子图805。假设步长(stride)为1，在计算完5
×
5特征子图804后，第一层卷积层810会接着计算5
×
5特征子图806，而5
×
5特征子图806的数值会影响3
×
3特征子图807。
58.在进行第二层卷积层811的计算时，特征图802成为第二层卷积层811的输入，同样与3
×
3的内核进行卷积，得到第二层卷积层811的特征图803。其中，3
×
3特征子图805的数值会影响特征图803中的1
×
1特征子图808。在计算完3
×
3特征子图805后，第二层卷积层811会接着计算3
×
3特征子图807，而3
×
3特征子图807的数值会影响特征图803中的1
×
1特征子图809。
59.如果未融合，计算装置201在进行第一层卷积810时，自dram 204读取5
×
5特征子图804，计算完后将3
×
3特征子图805存储回dram 204，接着再从dram 204读取5
×
5特征子图806，计算完后将3
×
3特征子图807存储至dram 204。在进行第二层卷积811时，同样需要自dram 204读取3
×
3特征子图805，计算完后将1
×
1特征子图808存储至dram 204，接着自dram 204读取3
×
3特征子图807，计算完后将1
×
1特征子图809存储至dram 204。通过上述说明可知，特征图802作为中间数据反复在片外片上被读取存储，相当占用系统资源。
60.如果将第一层卷积层810与第二层卷积层811进行融合，也就是把特征图802存储在nram 431中(第一层卷积层810与第二层卷积层811的权值亦可存储在wram 432中)，如此
便可减少计算装置201与dram204间的访问次数，进而提高整体神经网络的执行效率。由于参与融合的特征图(如特征图801、特征图802、特征图803)在神经网络模型上下文逻辑中整体看起来像倒金字塔，故称金字塔融合。
61.金字塔融合通常是基于神经网络中的特定卷积层和池化层向后进行融合，亦即融合的起始层为卷积层或池化层，根据其本身硬件条件向后融合了多层，其间可能包含多个卷积层和池化层。但随着深度学习及神经网络的发展，层的排序变得复杂，例如在卷积层前面设置有激活层，则此激活层应该也要被考虑如何与其后的卷积层进行融合。因此，除了单纯以卷积层和池化层为核心进行融合之外，本披露提供多样的融合方式，不必然以卷积层和池化层为核心，而采取特定的策略，弹性地选择神经网络的各层进行融合，即便是用户自定义的层，只要符合融合策略便可被融合，使得整体效能最佳化。
62.本披露的另一个实施例是一种新式的融合方法，通过利用前述图1、图2、图3及图4的硬件结构来实施的，这种融合称为模板融合单元(template fuse unit,tfu)。模板融合单元主要是通过一定的融合策略弹性地将多个层融合成一个层，来减少网络的输入/输出开销，其包括前述的金字塔融合及其他融合方式，这些被融合的层的集合即为模板融合单元，可以视为是新的层或是自定义的层。
63.此实施例一次性将模板融合单元所需的特征图、权值等自dram 204载入至片上的sram 308，特征图载入至sram 308后称为片上单元图，片上单元图会被切割成子图，每次自sram 308载入一份子图到被指派计算该子图的处理器核306的nram 431，且计算该子图所需的权值亦会自sram 308被载入至wram 432上，每个子图计算完成后获得对应的中间结果，中间结果被存回sram 308，所有子图都完成计算后再一次性地将计算结果存回dram 204。也就是说，片上单元图和权值参与神经网络模型中算子的运算操作获得的对应结果在dram 204与sram 308间传递，子图对应的输出(中间结果)在sram 308与nram 431间传递。从计算装置201的角度来看，模板融合单元的数据载入是以片上单元图为单位，而计算是以子图为单位。
64.更详细来说，sram 308是融合策略的重要参考指标之一，其空间大小决定了模板融合单元为大图模式或是小图模式。小图模式与大图模式是指存储在dram 204的一张特征图是否能一次性地搬到sram 308进行处理，处理装置203会将该特征图所需存储空间与sram 308可用空间进行比较。如果sram 308空间不足，特征图摆不下，则为大图模式；如果sram 308足以容纳整张特征图，就是小图模式。需特别注意的是，在大图模式下，片上单元图只是特征图的一部分；在小图模式下，如果sram 308的可用空间足够大，或是特征图足够小，sram 308或许可以一次性地容纳多张特征图，即片上单元图可以包括多张特征图。
65.如是大图模式，则必须拆分该特征图方能载入计算装置201中。处理装置203会在dram 204上将该特征图进行拆分，直到产生足够小的片上单元图能够满足sram 308的空间需求，使得该片上单元图可以一次性地搬到sram 308进行处理。而特征图在进行拆分时，可能会产生输入依赖运算和输出依赖运算。
66.输入依赖运算是指拆分后的各片上单元图至少部分重叠，每个子集都需要一些输入的额外副本，以进行完整的运算，从而导致拆分操作中的数据冗余，所谓的数据冗余是指同一段数据在系统中被复用。当模板融合单元包括卷积、池化或矩阵乘等层时都会导致输入依赖运算。
67.输出依赖运算是指每个子图产出中间结果后，还需要进行归约(reduce)，才能得到计算结果。归约是指在基于对片上单元图本身内容理解的基础上，拆分成子图后分别计算，以缩减计算规模，从而在尽可能保持原片上单元图原貌的前提下，最大限度地精简数据量，再以子图为基础还原或整合计算结果。进行归约时计算结果是互为依赖的。当模板融合单元包括内积、卷积、矩阵乘、排序、计数等层时都会导致输出依赖运算。
68.此实施例可以处理的特征图的数据格式包括n、h、w、c维度，其中n代表批处理(batch)、h代表高度(height)、w代表宽度(width)、c代表通道(channel)。以图像数据为例，n表示这批图像共有几张，h表示图像在竖直方向有多少像素，w表示水平方向像素数，c表示通道数(例如黑白图像的通道数c为1，而rgb彩色图像的通道数c为3)。
69.这些维度的排序决定了数据的组成方式，常见的组成方式有nhwc和nchw两种，图9示出nchw与nhwc的格式区别，此图是以rgb彩色图像为例，图中r表示红色像素、g表示绿色像素、b表示蓝色像素。数列91为nchw格式，n排列在外层，每个通道内像素紧挨在一起，再依rgb的顺序排列,坐标为(n,c,h,w)的元素在存储中的偏移为((n
×
c c)
×
h h)
×
w w。数列92是nhwc格式，c排列在最内层，多个通道对应空间位置的rgb像素紧挨在一起。图中亦显示出输入像素901、输入像素902、输入像素903在不同排列方式下所处的位置，而这三个输入像素901、输入像素902、输入像素903合起来便是图像中一个点的颜色。坐标为(n,c,h,w)的元素相应的坐标向偏移的换算方法是((n
×
h h)
×
w w)
×
c c。nhwc首先相比nchw更加接近bmp的图片数据存储格式，bmp格式的文件中按照一个个像素点来存储数据，每个像素点存储了所有通道的颜色值，这使得在读取输入图片时不需要进行额外的维度转换。因此，nhwc的访存局部性较佳，每三个输入像素即可得到一个输出像素，nchw则必须等所有通道输入准备好才能得到最终输出结果，需要占用较大的缓存空间。
70.此实施例可以根据数据融合神经网络各层为模板融合单元，图10示出相应的流程图。
71.在步骤1001中，处理装置203判断特征图所需存储空间是否大于sram 308的可用空间。如是，表示该特征图无法一次性地载入至sram 308中，因此执行步骤1002，拆分特征图。在此实施例中，处理装置203优先选择在n维度上进行拆分，因为不会产生输入或输出依赖运算，如在n维度上进行拆分无法满足要求，再考虑在h或是w维度上进行拆分，这时便可能会产生输入或输出依赖运算。此实施例亦支持在c维度上进行拆分，特别是沿着cout方向拆分，这样通过数据优化的方式把一个卷积拆分成多个卷积，使得wram 432可以放得下权值，例如：将权值拆分到四个处理器核306上。因此，只要在某一维度上进行拆分是计算装置201能处理的，都是在本披露揭露的范围中。
72.更进一步来说，处理装置203可以依序在n、h、w维度间进行特定粒度的拆分，特定粒度可以是一个固定或变动的比值，或是以一个函数来表示。在一种应用场景下，处理装置203由大往小对特征图或权值进行拆分。以特征图为例，首先在n维度上将维度为nhwc的特征图拆分成n1hwc的特征图与n2hwc的特征图，其中特定粒度是固定比值，n1与n2各为n的二分之一。如果还不够小，处理装置203则在h维度上继续将n1hwc的特征图拆分成n1h1wc的特征图与n1h2wc的特征图，其中h1与h2各为h的二分之一。如果还不够小，处理装置203则在w维度上继续将n1h1wc的特征图拆分成n1h1w1c的特征图与n1h1w2c的特征图，其中w1与w2各为w的二分之一。处理装置203可以在n、w、h维度上继续进行更小粒度的拆分，像是做四分之一等
分、八分之一等分或十六分之一等分的切割，直到特征图足够小，成为可以一次性地载入sram 308的片上单元图为止。
73.可以理解的是，处理装置203还可以在一个维度上持续拆分，直到不能再拆分，才会选择另外一个维度持续拆分。例如持续在h维度上进行拆分，如果拆分至最小单位仍无法载入至sram 308中时，才改以在w维度上进行拆分，直到拆分至最小单位。
74.需特别注意的是，由于这样的拆分方式是由大拆到小，因此当拆分的特征图满足条件时，其所需存储空间的大小通常会与sram 308的可用空间相差无几。换言之，在大图模式下，dram 204每次仅能传送一张拆分后的特征图至sram 308，但在小图模式下，sram 308的空间却可能可以一次性地自dram 204载入多张特征图。
75.在另一种应用场景下，处理装置203由小往大进行拆分，特定粒度同样可以是一个固定或变动的比值，或是以一个函数来表示。举例来说，首先在n维度上以特定粒度是最小单位进行拆分，即1
×h×w×
c。如果sram308可以载入，处理单元203继续放大特征图的拆分，例如放大为2
×h×w×
c。如果还可以载入，便继续放大，直到n
×h×w×
c无法载入为止，则片上单元图的尺寸即为(n-1)
×h×w×
c。
76.如果1
×h×w×
c所需存储空间已经超出sram 308的可用空间，处理装置203将从另一个维度继续拆分，例如：从h维度着手，则处理装置203接着判断1
×1×w×
c。如果够小，则沿着h维度往上增加，直到找到1
×
(h-1)
×w×
c所需存储空间恰好接近又不大于sram 308的可用空间。如果还是超出sram 308的可用空间，处理装置203再从另一个维度继续拆分，例如从w维度。依次方式找到最佳的可以一次性地载入sram 308的输入数据为止。在此所谓最佳指的是片上单元图所需存储空间最接近但不大于sram 308的可用空间。
77.处理装置203拆分特征图后，回到步骤1001，处理装置203判断拆分后的特征图所需存储空间是否还大于sram 308的可用空间，如是，则再次执行步骤1002，继续往下拆分。
78.如处理装置203判断拆分后的特征图所需存储空间不大于sram 308的可用空间时，表示sram 308可以一次性地载入拆分后的特征图，则执行步骤1003，处理装置203设定拆分后的特征图为片上单元图。
79.最后执行步骤1004，处理装置203根据片上单元图的尺寸决定模板融合单元。此步骤将在后详细说明。
80.在其他应用场景下，当处理装置203在步骤1001与步骤1002间反复执行多次后，表示拆分后的特征图所需存储空间越来越接近sram 308的可用空间，举例来说，假设特征图所需存储空间为100k，sram 308的可用空间为40k，在步骤1001中，处理装置203判断特征图所需存储空间大于sram 308的可用空间，故执行步骤1002，沿着n维度拆分为一半，这时拆分后的特征图为50k，接着回到步骤1001，拆分后的特征图所需存储空间还是大于sram 308的可用空间，继续执行步骤1002，沿着n维度再拆分为一半，这时拆分后的特征图为25k，接着回到步骤1001，拆分后的特征图所需存储空间小于sram 308的可用空间，故执行步骤1003，处理装置203设定拆分后的特征图(尺寸为25k)为片上单元图。
81.sram 308的可用空间为40k，而片上单元图所需存储空间为25k，尚有15k的空间闲置，其原因在于步骤1002均以二分之一为单位进行拆分，以至于最后一次拆分时粒度太大。此实施例可以随着拆分的次数，逐渐缩小拆分的特定粒度，使拆分后的片上单元图所需存储空间尽可能接近sram 308的可用空间。例如，刚开始特定粒度可以设定为二分之一，接下
来设定为四分之三，最后设定为五分之四。同样以特征图所需存储空间为100k，sram 308的可用空间为40k为例，在步骤1001中，处理装置203判断特征图所需存储空间大于sram 308的可用空间，故执行步骤1002，特定粒度设定为二分之一，拆分后的特征图为50k，接着回到步骤1001，拆分后的特征图所需存储空间还是大于sram 308的可用空间，继续执行步骤1002，这时特定粒度调整为四分之三，拆分后的特征图为37.5k，接着回到步骤1001，拆分后的特征图所需存储空间小于sram 308的可用空间，故执行步骤1003，处理装置203设定拆分后的特征图(尺寸为37.5k)为片上单元图。37.5k较25k更接近40k，后者的方式会更充分利用sram 308的可用空间，效率更高。此实施例不限制特定粒度的大小，可根据应用场景设定之。
82.在确定片上单元图的尺寸后，执行步骤1004，此步骤是根据融合策略动态融合神经网络，图11示出此实施例根据融合策略动态融合神经网络的方法。
83.在步骤1101中，根据融合策略的起始规则，选择模板融合单元的起始层。处理装置203根据融合策略的起始规则，选择模板融合单元的起始层，也就是在神经网络里尚未融合的层中选择开始融合的层。
84.在一种应用场景下，所述起始规则可以是起始层为神经网络中最前未被融合的层，处理装置203会搜索出最前未被融合的层。以图6的alexnet神经网络模型为例，共有23层，假设第1层至第5层已融合，则当起始规则是起始层为神经网络中最前未被融合的层时，处理装置203会选择第6层的relu激活层为起始层，向后融合(即向第7层的方向融合)。需注意的是，在此起始规则下，起始层不必然为卷积层或池化层。
85.在另一种应用场景下，考虑到卷积和池化层最消耗输入/输出资源，因此起始规则为起始层为最前未被融合的卷积或池化层，处理装置203会先找出神经网络模型中未融合层的所有卷积和池化层，从最前未被融合的卷积或池化层开始向后融合。同样以图6的alexnet神经网络模型为例，假设第1层至第9层已融合，处理装置203会找出神经网络模型中未融合层的所有卷积和池化层，即第11层、第13层、第15层，接着从最前未被融合的卷积或池化层开始融合，也就是起始层为第11层。
86.在步骤1102中，以所述起始层为基准进行融合，逐一排查融合策略的所有规则，以建立模板融合单元。处理装置203以起始层为基准进行融合，逐一排查融合策略的所有规则，以建立模板融合单元。在满足所有规则的前提下，计算装置201的硬件资源足以支撑一次性地载入计算模板融合单元所需的数据，进而根据模板融合单元执行神经网络计算。除了前述的起始规则外，融合策略示例性地还可以包括以下规则：
87.规则一：向后融合
88.所谓的向后融合指的是自起始层往神经网络模型推理的方向融合，以图6为例，即是按着第一层
→
第二层
→
第三层的方向融合。如果起始层之前还有未融合层，则在此规则下这些未融合层将不被考虑纳入模板融合单元中。
89.规则二：优先向前融合
90.所谓的向前融合指的是自起始层往神经网络推理的反方向融合，以图6为例，则是按着第三层
→
第二层
→
第一层的方向融合。此规则通常与前述起始层为最前未被融合的卷积或池化层的起始规则搭配，原因在于所述的卷积或池化层前可能还有未被融合的层。在选定起始层后，处理装置203优先向前融合，试图把起始层前尚未被融合的层纳入模板融合
单元中。同样以图6的alexnet神经网络模型为例，假设第1层至第2层已融合，处理装置203发现最前未被融合的卷积或池化层是第5层，故起始层为第5层，优先向前融合第4层、第3层，如果还能继续融合，则接着向后融合第6层、第7层等。
91.规则三：优先以块结构为单位
92.当神经网络模型具有块结构时，此规则要求处理装置203优先以块结构而不是以层为单位增删模板融合单元，如果一整个块的运算逻辑融合不成功，才考虑从各个分支上的层进行融合。以图7的神经网络模型为例，处理装置203会优先考虑子网络701或子网络702为单位进行融合。
93.当神经网络为长链结构时，由于不存在块结构，故直接以层为单位增删模板融合单元。此规则不适用于长链结构的神经网络模型。
94.规则四：单分支输出
95.此实施例的融合策略不支持模板融合单元为多输出网络，其原因在于模板融合单元内部实现的形状推导主要采用从后向前推导的形式，多输出网络意味着需要从不同的输出分别向前推导，推导的结果不必然会归结到同一个特征图上，以至于无法收敛。
96.换言之，模板融合单元的输出需为单分支输出，也就是模板融合单元的最后一层只能具有一个输出。图7标示了子网络701的二种融合方式，第一种是将第一层至第五层融合成一个模板融合单元703，第二种是将第一层至第六层融合成一个模板融合单元704。由于第三层及第五层的输出都是模板融合单元703的输出，故模板融合单元703属于多输出网络，即多分支输出。而第六层的输出是模板融合单元704的输出，只产生一个输出数据，故模板融合单元704属于单输出网络，即单分支输出。处理单元203会判断模板融合单元的输出是否为单分支输出，如果此规则未被满足时，处理装置203增删模板融合单元内的层直到此规则被满足。
97.规则五：包括至少2个主层
98.当层逻辑过于简单时，模板融合单元的性能还不如未融合的层的性能，故以层逻辑作为融合策略时，处理装置203会评估所融合的各层的运算是否足够复杂，使得融合产生效益。欲产生效益，就需要尽量将主层纳入模板融合单元，主层指的是矩阵乘、池化或卷积等耗费大量输入/输出资源的层，此处的池化包括各类池化，像是最大池化(maxpool)或均值池化(avgpool)，卷积也包括各类卷积，像是普通卷积、带均值的卷积、分通道卷积(depthwise conv)等。此规则为模板融合单元包括至少2个主层。当处理单元203判断此规则未被满足时，处理装置203会调整模板融合单元直到此规则被满足。
99.规则六：包括主层、主层、非主层依次相邻的连续结构
100.此规则为模板融合单元需包括主层、主层及非主层的连续结构，即：主层、主层以及非主层依次相邻的连续结构。这样的运算足够复杂，使得融合具有效益。参阅图6中的第4层-第5层-第6层，其中第4层为最大池化层，第5层为卷积层，第6层为relu激活层，符合主层、主层、非主层依次相邻的连续结构，因此包括第4层、第5层、第6层的模板融合单元便可满足此规则。当处理单元203判断此规则未被满足时，处理装置203会调整模板融合单元直到此规则被满足。
101.规则七：包括标量计算层以及向量计算层相邻的连续结构
102.此规则为模板融合单元包括标量计算层以及向量计算层的连续结构，即：标量计
算层、向量计算层依次相邻的连续结构。所述标量计算层指的是加法层、减法层或乘法层，所述向量计算层指的是激活层、批标准化层或缩放层。当处理单元203判断此规则未被满足时，处理装置203会调整模板融合单元直到此规则被满足。
103.规则八：卷积层的权值不为某个层的输出
104.此规则为模板融合单元中的卷积层的权值不为神经网络的任一层的输出，不论该层是否被纳入在模板融合单元。当处理单元203判断此规则未被满足时，处理装置203会将此卷积层自模板融合单元中移除。
105.规则九：卷积层的权值不与神经网络的任一层共用
106.由于模板融合单元涉及的神经网络模型中算子的权值具有特别的摆放形式，当被融合的卷积算子与其他算子共用权值时，权值的摆放逻辑会发生冲突，此规则为模板融合单元中的卷积算子的权值不与神经网络的任一层共用。当处理单元203判断此规则未被满足时，处理装置203会将此卷积算子自模板融合单元中移除。
107.规则十：权值不大于wram的可用空间
108.大图模式对于wram 432的限制较少，原因在于载入sram 308的片上单元图只是特征图的一部分，在计算模板融合单元时，wram 432只需要存放该特征图的所有权值即可。但由于小图模式可能会将多张特征图加载至sram 308，在这种情况下所需的权值会变多，便要谨慎评估wram 432的可用空间是否足够。此规则为片上单元图中的权值所需存储空间不大于wram 432的可用空间，当处理装置203判断此规则未被满足时，处理装置203会减少片上单元图的大小。
109.如果权值是基于c维度的输出通道参数cout进行拆分，由于权值会被平均分配到多个处理器核306中，则本规则调整为：
[0110][0111]
其中，wj为片上单元图j涉及的权值所需存储空间，n为集群中处理器核的数量，w为wram 432的可用空间。
[0112]
规则十一：冗余百分比
[0113]
冗余百分比为当输入依赖运算与输出依赖运算所产生的冗余总和与模板融合单元正常输入/输出量的比例，此处正常输入/输出量指的是片上单元图在未被拆分前没有冗余的数据量。处理装置203会计算模板融合单元将当前层融合进来后，片上单元图从dram 204至sram 308的访存量size
tfu
，与正常输入/输出量(不含冗余)size
ori
的百分比，其中访存量size
tfu
指的是理论的访存量size
ori
加上冗余总和。其公式如下：
[0114][0115]
处理装置203会将模板融合单元的拆分信息和形状推导计算在内，并设定百分比阈值为50％、75％、100％、125％或150％，较佳为100％。以百分比阈值为100％为例，表示当冗余总和大于模板融合单元正常输入/输出量的2倍时，便不再融合。此规则为拆分片上单元图所产生的冗余总和不超出与百分比阈值相关的特定比例，一旦超过，表示冗余部分过多，大量的资源将耗费在计算冗余上，效能下降，因此当处理装置203判断此规则未被满足时，处理装置203会停止融合。
[0116]
需要注意的是，在小图模式下，由于从dram 204至sram 308过程一次加载至少一整张完整的特征图，故不会产生冗余。此规则不适用于小图模式。
[0117]
规则十二：片上单元图输入输出尺寸
[0118]
假设sram 308的空间尺寸为s，片上单元图所需存储空间为in，片上单元图的计算结果所需存储空间为out，则此规则为sram 308的空间尺寸需要满足以下条件：
[0119]
如果in和out不能复用存储空间的话，in out《s
[0120]
如果in和out可以复用存储空间的话，max(in,out)《s
[0121]
即如果in和out不能复用存储空间的话，片上单元图的存储空间与计算结果的存储空间之和小于sram 308的可用空间；如果in和out可复用存储空间的话，片上单元图的存储空间与计算结果的存储空间较大者小于sram 308的可用空间。
[0122]
规则十三：wi in1 in2≤s
[0123]
在小图模式下，此规则为sram 308的空间尺寸需要满足以下条件：
[0124]
wi in1 in2≤s
[0125]
即子图i的权值所需存储空间wi、片上单元图所需存储空间in1、缓存空间in2的总和不大于sram 308的可用空间。当处理装置203判断此规则未被满足时，处理装置203减少片上单元图的数量直到此规则被满足。
[0126]
规则十四：subini wi in2≤s
[0127]
在小图模式下，此规则为sram 308的空间尺寸需要满足以下条件：
[0128]
subini wi in2≤s
[0129]
即子图i的所需存储空间subini、子图i的权值所需存储空间wi、缓存空间in2的总和不大于sram 308的可用空间。当处理装置203判断此规则未被满足时，处理装置203减少片上单元图的数量直到所述规则被满足。
[0130]
规则十五：subouti w
i 1
in2≤s
[0131]
在小图模式下，此规则为sram 308的空间尺寸需要满足以下条件：
[0132]
subouti w
i 1
in2≤s
[0133]
即子图i的中间结果所需存储空间subouti、下一个子图的权值所需存储空间w
i 1
、缓存空间in2的总和不大于sram 308的可用空间。当处理装置203判断此规则未被满足时，处理装置203减少片上单元图的数量直到所述规则被满足。
[0134]
规则十六：wi w
i 1
≤w
[0135]
模板融合单元中参与卷积运算的权值会被独立搬运并驻留在wram432上。在小图模式下，如果子图包括多张特征图，考虑到子图间的流水，wram 432最多同时存储相邻两个子图的权值。假设每个子图i的所需存储空间为wi，且wram 432的总空间为w,此规则为wram 432的空间尺寸需要满足以下条件：
[0136]
wi w
i 1
≤w
[0137]
即子图i的权值所需存储空间wi、下一个子图的权值所需存储空间w
i 1
总和不大于wram 432的可用空间。当处理装置203判断此规则未被满足时，处理装置203减少片上单元图的数量直到所述规则被满足。
[0138]
规则十七：子图所需存储空间不大于nram的可用空间
[0139]
此规则为子图所需存储空间不大于nram 431的可用空间。当sram308上的片上单
元图要被拆分成子图搬运至nram 431时，处理装置203可以在n、h、w维度上进行细粒度拆分。如果nram 431的空间不足，处理装置203会把片上单元图拆分得更细，直到此规则被满足。一般来说，nram 431都会具有合理的可用空间，使得片上单元图被拆分到合理的程度便可一次性地被载入，就融合策略的角度来看，模板融合单元不会受到批处理数目的影响。然而，片上单元图被拆分的越小(即子图越多)，处理速度会下降，故处理装置203需要评估nram 431的空间。
[0140]
在一些实施例中，sram 308的空间与集群305内的处理器核306的nram 431的个数相对应，例如集群305包括4个处理器核306，则sram308的空间为nram 431的空间的4倍。换言之，大图模式下的片上单元图一般能分配给4个处理器核306处理，这种架构设计已考虑载入sram308的数据能一次性地分配给所有nram 431。因此在大图模式下不需要考虑此规则。
[0141]
规则十八：特征图的数量不大于特征图阈值
[0142]
在小图模式下，片上单元图可能会包括多张特征图，特征图越多，sram 308与nram 431间的子图传输次数就越多，效率便会下降，因此并非片上单元图包括的特征图越多越好，处理装置203会根据片上单元图中特征图的数量来计算合适的融合层数，使其效益最大化。此规则为片上单元图中的特征图的数量不大于特征图阈值，当处理装置203判断此规则未被满足时，处理装置203减少片上数据中特征图的数量直到所述规则被满足。
[0143]
规则十九：步长冗余
[0144]
步长冗余指的是：当模板融合单元融合层数太多，再加上卷积和池化的内核的长宽大于步长时，每个输出点需要的输入数据存在重叠部分，也就是前述的输入依赖运算，该重叠部分即为步长冗余。步长冗余使得每个处理器核306需要多读取一些数据，但是这一部分复用的数据会占去片上片外的访问资源，模板融合单元包括的层数越多，步长冗余越严重。此规则为卷积层或池化层的内核的边长与步长的差值总和不大于冗余阈值。
[0145]
在此实施例中，冗余阈值的定义如下。假设卷积和池化层的内核的长和宽为k
x
和ky，长和宽方向的步长分别为s
x
和sy，则长方向的步长冗余为模板融合单元内所有卷积及池化层的k
x-s
x
的总和；同理，宽方向的步长冗余为模板融合单元内所有卷积及池化层的k
y-sy的总和。此实施例的冗余阈值可以为3、4、5或6，较佳为4。只要长方向或宽方向任一方向的步长冗余大于冗余阈值，此规则便不被满足。处理装置203调整模板融合单元，通常为减少被融合的层数，直到此规则被满足。
[0146]
融合策略对于步长冗余设定了例外规则。如欲融合的层里存在多分支且模板融合单元能融合整个多分支的前提下，模板融合单元的性能会表现的更为优异，在这种情况下，处理装置203会忽略步长冗余的规则，亦即步长冗余不会限制模板融合单元融合多分支，即在此实施例的融合策略中，融合多分支优先于步长冗余的限制。也就是说，步长冗余只有在单分支的情况下才会被考虑。
[0147]
以上的规则仅为示例，本披露并不限制各规则执行的顺序，亦不限制这些规则需同时被考虑，本领域技术人员在不同的应用场景下可以根据实际情况增删规则，以实现符合当下应用场景的融合策略。
[0148]
回到图11，在步骤1103中，根据建立后的模板融合单元执行神经网络计算。计算装置201基于片上系统-集群-处理器核的三级运算层次，搭配dram-sram-nram/wram这样的三
层内存设计，将模板融合单元视为神经网络中一个自定义的层，一次性地自dram 204载入计算模板融合单元所需的数据至sram 308，使得数据能够在适当的层级里缓存并计算，形成充分的流水，计算完成后再将计算结果自sram 308传送至dram 204，大大减少神经网络计算中的输入/输出开销。
[0149]
本披露的方案技术根据计算装置的存储空间适当将至少一张特征图设定成片上单元图，使得该片上单元图可以一次性地载入至计算装置的存储空间中，再根据融合策略决定模板融合单元，在很大程度上减少了片外片上的数据传输，节省资源，并提升运算效率。
[0150]
本披露另一个实施例为一种计算机可读存储介质，其上存储有根据多个特征图融合神经网络各层为模板融合单元的计算机程序代码，当所述计算机程序代码由处理器运行时，执行如图10、图11所述的方法。
[0151]
本披露通过设定融合策略，动态地决定模板融合单元，融合神经网络中的多个层，以形成新的自定义的层，一次性载入计算模板融合单元所需的数据，以减少输入/输出开销。
[0152]
根据不同的应用场景，本披露的电子设备或装置可以包括服务器、云端服务器、服务器集群、数据处理装置、机器人、电脑、打印机、扫描仪、平板电脑、智能终端、pc设备、物联网终端、移动终端、手机、行车记录仪、导航仪、传感器、摄像头、相机、摄像机、投影仪、手表、耳机、移动存储、可穿戴设备、视觉终端、自动驾驶终端、交通工具、家用电器、和/或医疗设备。所述交通工具包括飞机、轮船和/或车辆；所述家用电器包括电视、空调、微波炉、冰箱、电饭煲、加湿器、洗衣机、电灯、燃气灶、油烟机；所述医疗设备包括核磁共振仪、b超仪和/或心电图仪。本披露的电子设备或装置还可以被应用于互联网、物联网、数据中心、能源、交通、公共管理、制造、教育、电网、电信、金融、零售、工地、医疗等领域。进一步，本披露的电子设备或装置还可以用于云端、边缘端、终端等与人工智能、大数据和/或云计算相关的应用场景中。在一个或多个实施例中，根据本披露方案的算力高的电子设备或装置可以应用于云端设备(例如云端服务器)，而功耗小的电子设备或装置可以应用于终端设备和/或边缘端设备(例如智能手机或摄像头)。在一个或多个实施例中，云端设备的硬件信息和终端设备和/或边缘端设备的硬件信息相互兼容，从而可以根据终端设备和/或边缘端设备的硬件信息，从云端设备的硬件资源中匹配出合适的硬件资源来模拟终端设备和/或边缘端设备的硬件资源，以便完成端云一体或云边端一体的统一管理、调度和协同工作。
[0153]
需要说明的是，为了简明的目的，本披露将一些方法及其实施例表述为一系列的动作及其组合，但是本领域技术人员可以理解本披露的方案并不受所描述的动作的顺序限制。因此，依据本披露的公开或教导，本领域技术人员可以理解其中的某些步骤可以采用其他顺序来执行或者同时执行。进一步，本领域技术人员可以理解本披露所描述的实施例可以视为可选实施例，即其中所涉及的动作或模块对于本披露某个或某些方案的实现并不一定是必需的。另外，根据方案的不同，本披露对一些实施例的描述也各有侧重。鉴于此，本领域技术人员可以理解本披露某个实施例中没有详述的部分，也可以参见其他实施例的相关描述。
[0154]
在具体实现方面，基于本披露的公开和教导，本领域技术人员可以理解本披露所公开的若干实施例也可以通过本文未公开的其他方式来实现。例如，就前文所述的电子设
备或装置实施例中的各个单元来说，本文在考虑了逻辑功能的基础上对其进行拆分，而实际实现时也可以有另外的拆分方式。又例如，可以将多个单元或组件结合或者集成到另一个系统，或者对单元或组件中的一些特征或功能进行选择性地禁用。就不同单元或组件之间的连接关系而言，前文结合附图所讨论的连接可以是单元或组件之间的直接或间接耦合。在一些场景中，前述的直接或间接耦合涉及利用接口的通信连接，其中通信接口可以支持电性、光学、声学、磁性或其它形式的信号传输。
[0155]
在本披露中，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元示出的部件可以是或者也可以不是物理单元。前述部件或单元可以位于同一位置或者分布到多个网络单元上。另外，根据实际的需要，可以选择其中的部分或者全部单元来实现本披露实施例所述方案的目的。另外，在一些场景中，本披露实施例中的多个单元可以集成于一个单元中或者各个单元物理上单独存在。
[0156]
在一些实现场景中，上述集成的单元可以采用软件程序模块的形式来实现。如果以软件程序模块的形式实现并作为独立的产品销售或使用时，所述集成的单元可以存储在计算机可读取存储器中。基于此，当本披露的方案以软件产品(例如计算机可读存储介质)的形式体现时，该软件产品可以存储在存储器中，其可以包括若干指令用以使得计算机设备(例如个人计算机、服务器或者网络设备等)执行本披露实施例所述方法的部分或全部步骤。前述的存储器可以包括但不限于u盘、闪存盘、只读存储器(read only memory，rom)、随机存取存储器(random access memory，ram)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
[0157]
在另外一些实现场景中，上述集成的单元也可以采用硬件的形式实现，即为具体的硬件电路，其可以包括数字电路和/或模拟电路等。电路的硬件结构的物理实现可以包括但不限于物理器件，而物理器件可以包括但不限于晶体管或忆阻器等器件。鉴于此，本文所述的各类装置(例如计算装置或其他处理装置)可以通过适当的硬件处理器来实现，例如中央处理器、gpu、fpga、dsp和asic等。进一步，前述的所述存储单元或存储装置可以是任意适当的存储介质(包括磁存储介质或磁光存储介质等)，其例如可以是可变电阻式存储器(resistive random access memory，rram)、动态随机存取存储器(dynamic random access memory，dram)、静态随机存取存储器(static random access memory，sram)、增强动态随机存取存储器(enhanced dynamic random access memory，edram)、高带宽存储器(high bandwidth memory，hbm)、混合存储器立方体(hybrid memory cube，hmc)、rom和ram等。
[0158]
以上对本披露实施例进行了详细介绍，本文中应用了具体个例对本披露的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本披露的方法及其核心思想；同时，对于本领域的一般技术人员，依据本披露的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本披露的限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种云应用程序运行方法、系统及装置与流程

根据特征图融合网络的装置、板卡、方法及可读存储介质与流程

相关文献

最热文献