一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种适应含有像素级分割的多任务场景的方法及系统与流程

2022-04-30 11:07:36 来源:中国专利 TAG:


1.本发明属于计算机视觉算法技术领域,尤其涉及一种适应含有像素级分割的多任务场景的方法及系统。


背景技术:

2.目前,当下主流的卷积神经网络在进行设计的时候通常是瀑布式的,在一个固定的输入下,通过对输入图像进行全方位多尺度的卷积运算,从而获得多层次的输出。随着层数的增多,特征图的尺度在不断减少,当特征尺度小到一定地步的时候,便可以将特征图提取出来,进行视觉任务处理。常见的视觉任务有图像分类任务,目标检测任务,关键点检测任务,目标像素级分割任务等。
3.在进行图像分类任务,目标检测任务的时候,可以通过小尺度的特征图来对目标进行分类,检测,但是对于关键点检测任务和目标像素级分割任务,需要对小尺度的特征图所包含的信息进行一些特殊的处理,才可以得到有用的信息。
4.以目标像素级分割任务实例分割为例,当前主流的网络设计方法有two-stage的方法mask-rcnn,one-stage的方法yolact,solo等。其中以mask-rcnn为代表的two-stage的方法网络简洁,对主干网络和任务网络均未在结构上进行额外设计,不过在主干网络与任务网络结合处,由于输出特征图尺度国小,需要设计额外的处理算法roialign,用来预防像素偏移等情况,不利于网络向嵌入式平台的移植。以yolact和solo为代表的one-stage方法,对任务网络进行了专用的设计,引入大量的参数和算法过程,无法适用到新的视觉任务,比如关键点回归,语义分割等任务当中。
5.采用传统的two-stage和one-stage的方法的算法在对实际产品平台移植的过程中,会遇到较多的性能问题。同时,纯瀑布式的网络设计,无法满足所有的视觉任务,且在一些视觉任务算法移植过程中会增加复杂度。因此,亟需设计一种新的适应含有像素级分割的多任务场景的方法及系统。
6.通过上述分析,现有技术存在的问题及缺陷为:
7.(1)在进行图像分类任务时,现有方法不是卷积神经网络常用的计算模块,采用这些方法在对实际产品平台移植的过程中,会遇到较多的性能问题。
8.(2)纯瀑布式的网络设计,无法满足所有的视觉任务,且在一些视觉任务算法移植过程中会增加复杂度。
9.解决以上问题及缺陷的难度和意义为:抛弃了常用的使用一个主干网络的思路,所提出的全新的纯卷积神经网络结构,解决了现有技术存在的问题。意义在于基于该神经网络结构设计的卷积神经网络算法可以适应多种计算机视觉任务,而且在应用到边缘端、服务端等多种任务场景时对边缘端的要求降低,只需要支持基础的卷积、上采样算子即可,大大增强了卷积神经网络算法的适用性。


技术实现要素:

10.针对现有技术存在的问题,本发明提供了一种适应含有像素级分割的多任务场景的方法及系统。
11.本发明是这样实现的,一种适应含有像素级分割的多任务场景的方法,所述适应含有像素级分割的多任务场景的方法包括:通过对特征层的一次卷积和上采样操作,得到与上一层特征图相同尺寸的特征图,相同尺寸的特征图才能进行数值相加操作;通过对特征层的add操作,得到不同尺度的特征信息;通过对特征层的两次卷积操作,进行特征信息融合;通过对特征层的两次上采样操作,对特征层线性插值得到像素级分割所需的原图尺寸的特征图;通过对特征层后增加基础的主干网络,用于后续的检测网络的特征提取。
12.本发明在计算机任务中的特征提取部分,既可以获得含有目标特征信息的小尺度特征图,也能获得原图尺度的特征图满足像素级分割任务。相对于以前的方案,在实现像素级分割任务时,为避免预测结果与图片出现像素偏移需要单独设计算子来实现像素对齐,算法在应用到边缘端、移动端平台的过程时,由于芯片的专用性,含有这种算子会降低算法移植的可行性,而本发明使用了基础操作代替了这种算子,从而降低了算法应用到各种边缘端、移动端的难度。
13.进一步,所述适应含有像素级分割的多任务场景的方法包括以下步骤:
14.步骤一,主干网络输出多尺度特征层lay1、lay2、lay3;在lay3后增加卷积层和上采样层,特征层lay3经过卷积和上采样后尺度放大一倍输出为特征层lay1;并与上一层特征层进行数值叠加得到特征层lay2=lay1 lay2,可同时得到浅层特征图中的细节信息和深层特征图中的语义信息;在特征层lay2后增加两次卷积层输出特征层lay3;
15.步骤二,特征层lay3后增加卷积层和上采样层,特征层lay3经过卷积和上采样后尺度放大一倍得到特征层lay4;并与上一层特征层进行数值叠加得到特征层lay5=lay4 lay1,可同时得到浅层特征图中的细节信息和深层特征图中的语义信息;在特征层lay5后增加两次卷积层输出特征层lay6;
16.步骤三,特征层lay6后增加上采样层,特征层lay6经过上采样后尺度放大一倍得到特征层lay7;
17.步骤四,特征层lay7后增加上采样层,特征层lay7经过上采样后尺度放大一倍得到原图尺寸的特征层lay8,而后增加一个与原始主干网络结构相同的克隆层;可同时获得像素级分割和目标检测等计算机视觉任务所需的特征信息。
18.步骤五,视觉任务分支从原图尺寸的特征图进行参数计算;形成原图尺寸的特征图适用于含有像素级分割的多种计算机视觉任务;
19.进一步,所述适应含有像素级分割的多任务场景的方法,还包括:
20.(1)在基础的主干网络得到的最深一层的特征层lay3,其尺度为h3*w3;增加一次卷积操作和上采样操作后输出的特征层lay1,其尺度为h2*w2,其中h3=2*h2,w3=2*w2;
21.(2)由步骤(1)得到的特征图lay1后,增加add层,与上一层的特征层lay2进行数值加和得到特征层lay2=lay1 lay2,用于得到不同尺度的特征信息,其中,lay1的尺度为h1*w1,lay2的尺度为h2*w2,h1=h2,w1=w2;
22.(3)由步骤(2)得到特征图lay2后,增加两次卷积输出特征层lay3,用于特征信息融合,其中卷积操作不改变特征层尺度,仅改变特征层的通道数;
23.(4)由步骤(3)得到的特征层lay3,其尺度为h3*w3;增加一次卷积操作和上采样操作后输出的特征层lay4,其尺度为h4*w4,其中h4=2*h3,w4=2*w3;
24.(5)由步骤(4)得到的特征图lay4后,增加add层,与上一层的特征层lay1进行数值加和得到特征层lay5=lay4 lay1,用于得到不同尺度的特征信息,其中,lay4的尺度为h4*w4,lay1的尺度为h1*w1,h4=h1,w4=w1;
25.(6)由步骤(5)得到特征图lay5后,增加两次卷积输出特征层lay6,用于特征信息融合,其中卷积操作不改变特征层尺度,仅改变特征层的通道数;
26.(7)由步骤(6)得到的特征图lay6,其尺度为h6*w6;增加一次上采样操后输出的特征层lay7,其尺度为h7*w7,其中h7=2*h6,w7=2*w6;
27.(8)由步骤(7)得到的特征图lay7,其尺度为h7*w7;增加一次上采样操后输出的特征层lay8,其尺度为h8*w8,为原图的尺寸,其中h8=2*h7,w8=2*w7;
28.(9)由步骤(8)得到的特征图lay8后,增加轻量级的基础主干网络,用于对特征信息进行二次提取。
29.本发明的另一目的在于提供一种应用所述的适应含有像素级分割的多任务场景的方法的适应含有像素级分割的多任务场景的系统,所述适应含有像素级分割的多任务场景的系统包括:
30.数值叠加模块,用于通过在主干网络增加上采样层,与上一层特征层进行数值叠加;
31.克隆层构建模块,用于通过数个叠加层形成一个与原始主干网络结构相同的克隆层;
32.参数计算模块,用于通过视觉任务分支从克隆层进行参数计算。
33.本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
34.通过对特征层的一次卷积和上采样操作,得到与上一层特征图相同尺寸的特征图;通过对特征层的add操作,得到不同尺度的特征信息;通过对特征层的两次卷积操作,进行特征信息融合;通过对特征层的两次上采样操作,对特征层线性插值得到像素级分割所需的原图尺寸的特征图;通过对特征层后增加基础的主干网络,用于后续的检测网络的特征提取。
35.本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
36.通过对特征层的一次卷积和上采样操作,得到与上一层特征图相同尺寸的特征图;通过对特征层的add操作,得到不同尺度的特征信息;通过对特征层的两次卷积操作,进行特征信息融合;通过对特征层的两次上采样操作,对特征层线性插值得到像素级分割所需的原图尺寸的特征图;通过对特征层后增加基础的主干网络,用于后续的检测网络的特征提取。
37.本发明的另一目的在于提供一种存储在计算机可读介质上的计算机程序产品,包括计算机可读程序,供于电子装置上执行时,提供用户输入接口以应用所述的适应含有像素级分割的多任务场景的系统。
38.本发明的另一目的在于提供一种计算机可读存储介质,储存有指令,当所述指令在计算机上运行时,使得计算机应用所述的适应含有像素级分割的多任务场景的系统。
39.本发明的另一目的在于提供一种信息数据处理终端,所述信息数据处理终端用于实现所述的适应含有像素级分割的多任务场景的系统。
40.本发明的另一目的在于提供一种所述的适应含有像素级分割的多任务场景的系统在多种计算机视觉任务的特征提取中的应用。
41.结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明提供的适应含有像素级分割的多任务场景的方法,提出了一种全新的用于特征提取的卷积神经网络结构,涉及计算机图像技术,用于特征提取的卷积神经网络结构,可以让纯卷积神经网络结构提取的特征同时适应多种计算机视觉任务。
42.在本发明所提出的技术方案中,通过对卷积神经网络头部数层进行调整,在未引入新的算法系数和新的算法计算模块的结果下,就可以完成指定的计算机视觉任务。在当下业内在一个深度学习算法的应用过程中会涉及到在各种不同的硬件平台上进行移植,通用的硬件平台如nvidia的gpu平台,专用的嵌入式硬件平台如google的tpu平台,全志科技的vpu平台,嘉楠的kpu平台等。在嵌入式硬件平台中,由于芯片的专用性,对于神经网络算法的设计,在模型大小,复杂度,结构设计上会有一定要求。基于本发明的技术方案的特性,为不同视觉任务的深度神经网络在嵌入式平台的移植提供了非常好的方案,不会引入新的计算模块和算法系数,而且增加的结构变化也是基础的网络结构的简单变化。
43.本发明提供了一种可以提供全尺度特征图的卷积神经网络结构,可以使得在计算机视觉的任务中,取到包括原图在内的不同尺度的特征图。本发明降低了算法设计的难度,不需要单独设计算子来兼容不同计算机视觉任务,降低了算法应用到边缘端、服务端等多任务场景时对边缘端的要求。
44.实例分割任务式计算机视觉里一个比较复杂的任务,是在对象检测的基础上进一步细化,分离对象的前景与背景,实现像素级别的对象分离。所以图像实例分割是基于目标检测的基础上进一步提升。在实例分割任务中涉及到了三种计算机视觉任务分别为目标分类,目标检测,像素级语义分割。通过本方案设计的算法结构,可以同时处理这三种任务,并且未增加额外的算法模块。
45.本发明提供的可以提供全尺度特征图的卷积神经网络结构,应用于多种计算机视觉任务的特征提取部分,可以方便后续进行多种计算机视觉任务而不需要设计额外的算子,实现多种计算机视觉任务的算法落地的可行性提高的目的。
附图说明
46.为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
47.图1是本发明实施例提供的全卷积神经网络结构适应像素级分割的适应含有像素级分割的多任务场景的方法流程图。
48.图2是本发明实施例提供的全卷积神经网络结构适应像素级分割的适应含有像素
级分割的多任务场景的方法原理图。
49.图3是本发明实施例提供的全卷积神经网络结构适应像素级分割的适应含有像素级分割的多任务场景的系统结构框图;
50.图中:1、上采样和数值叠加模块;2、克隆层构建模块;3、参数计算模块。
51.图4是本发明实施例提供的全卷积神经网络结构适应像素级分割的适应含有像素级分割的多任务场景的方法应用示意图。
具体实施方式
52.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
53.针对现有技术存在的问题,本发明提供了一种适应含有像素级分割的多任务场景的方法及系统,下面结合附图对本发明作详细的描述。
54.如图1所示,本发明实施例提供的全卷积神经网络结构适应像素级分割的多任务场景的方法包括以下步骤:
55.s101,在主干网络增加上采样层,与上一层特征层进行数值叠加;
56.s102,数个叠加层形成一个与原始主干网络结构相同的克隆层;
57.s103,视觉任务分支从克隆层进行参数计算。
58.本发明实施例提供的全卷积神经网络结构适应像素级分割的多任务场景的方法原理图如图2所示。
59.如图3所示,本发明实施例提供的全卷积神经网络结构适应像素级分割的多任务场景的系统包括:
60.上采样和数值叠加模块1,用于通过在主干网络后增加上采样层,并与上一层特征层进行数值叠加;
61.克隆层构建模块2,用于通过数次上采样和数值叠加后得到一个原图尺寸的特征图,而后增加一个与原始主干网络结构相同的克隆层;
62.参数计算模块3,用于通过视觉任务分支从原图尺寸的特征图进行参数计算。
63.下面结合具体实施例对本发明的技术方案作进一步描述。
64.实施例1
65.针对现有技术存在的问题,本发明提供了一种可以提供全尺度特征图的卷积神经网络结构,可以使得在计算机视觉的任务中,取到包括原图在内的不同尺度的特征图。
66.本发明是这样实现的:
67.1.在主干网络后增加上采样层,并与上一层特征层进行数值叠加;
68.2.数次上采样和数值叠加后得到一个原图尺寸的特征图,而后增加一个与原始主干网络结构相同的克隆层;
69.3.视觉任务分支从原图尺寸的特征图进行参数计算。
70.实例分割任务是计算机视觉里一个比较复杂的任务,是在对象检测的基础上进一步细化,分离对象的前景与背景,实现像素级别的对象分离。所以图像实例分割是基于目标检测的基础上进一步提升。在实例分割任务中涉及到了三种计算机视觉任务分别为目标分
类,目标检测,像素级语义分割。通过本方案设计的算法结构,可以同时处理这三种任务,并且未增加额外的算法模块。
71.本发明的技术方案还包括:
72.1.在基础的主干网络得到的最深一层的特征层后,增加一次卷积和上采样,使得特征图的宽高放大一倍;
73.2.由1步得到的特征图后,增加add层,与上一层的特征图进行数值加和,用于得到不同尺度的特征信息;
74.3.由2步得到特征图后,增加两次卷积,用于特征信息融合;
75.4.重复上述操作两次;
76.5.由4步得到的特征图后,增加两次上采样,用于得到原图大小的特征图;
77.6.由5步得到的特征图后,增加轻量级的基础主干网络,用于对特征信息进行二次提取。
78.本发明的工作原理部分包括:
79.1.通过对特征层的一次卷积和上采样操作,用于得到与上一层特征图相同尺寸的特征图;
80.2.通过对特征层的add操作,用于得到不同尺度的特征信息;
81.3.通过对特征层的两次卷积操作,用于特征信息融合;
82.4.通过对特征层的两次上采样操作,对特征层线性插值得到像素级分割所需的原图尺寸的特征图;
83.5.通过对特征层后增加基础的主干网络,用于后续的检测网络的特征提取。
84.本发明实施例提出了一种可以提供全尺度特征图的卷积神经网络结构,应用于多种计算机视觉任务的特征提取部分,可以方便后续进行多种计算机视觉任务而不需要设计额外的算子,实现多种计算机视觉任务的算法落地的可行性提高的目的,降低了算法设计的难度,不需要单独设计算子来兼容不同计算机视觉任务,降低了算法应用到边缘端、服务端等多任务场景时对边缘端的要求。
85.在本发明中,通过对主干网络进行调整,引入了“克隆层”结构,使得主干网络可以产出完整尺度的特征图输出,而不是只有小尺度的特征图输出,满足了常用的视觉任务中各个尺度的特征图的需求,从而无需在为不同的视觉任务去设计单独的网络结构。对于像素级分割任务,可以使用原始尺度的特征图,对于检测和分类任务,可以用小尺度特征图,相比较于two-stage方法来说,省去了设计roialign等额外步骤,网络结构整体更为简洁,无特殊算子。相比于one-stage方法来说,未引入新的参数和算法过程,仅需要基础的视觉任务的计算过程就可以完成视觉任务,可以用统一的思路去解决多种视觉任务,而无需针对新的任务去重新设计网络和训练过程。
86.在上述实例中,通过本发明得到原图尺寸的特征图,不需要再考虑像素对齐等问题而设计额外的算子,便与实现像素级分割任务;同时本发明也能得到含有对象特征信息的特征图,以实现目标检测等任务,所以本发明适用于含有像素级分割的多种计算机视觉任务。当下业内,深度神经网络算法的应用到各种不同边缘端、移动端时需要考虑硬件平台的兼容性,本发明使用的网络结构是基础操作,可代替较为复杂的算子,因此基于本发明的技术方案,在移植到边缘端、移动端的难度降低,算法的可移植性提高。
87.实施例2
88.如图4所示,本发明实施例的输入图像尺寸为416*416像素;
89.基于上一步得到的输入图像,经过常用卷积运算之后得到416*416像素的特征图;
90.基于上一步得到的特征图,经过常用卷积运算之后得到208*208像素的特征图,其中把残差结构等归为一些常用卷积操作;
91.基于上一步得到的特征图,经过常用卷积运算之后得到104*104像素的特征图,其中把残差结构等归为一些常用卷积操作;
92.基于上一步得到的特征图,经过常用卷积运算之后得到52*52像素的特征图,其中把残差结构等归为一些常用卷积操作;
93.基于上一步得到的特征图,经过常用卷积运算之后得到26*26像素的特征图,其中把残差结构等归为一些常用卷积操作;
94.以上五步为常规的主干网络,可得到不同尺度的特征图;
95.在此基础上,在附图的3处,增加了上采样和卷积操作,得到52*52像素的特征图;
96.在附图的2处,增加了add操作,与上一步得到的特征图进行数值加和,得到52*52像素的特征图;进一步的,增加了上采样和卷积操作,得到104*104像素的特征图;
97.在附图的1处,增加了add操作,与上一步得到的特征图进行数值加和,得到104*104像素的特征图;进一步的,增加了上采样和卷积操作,得到208*208像素的特征图;
98.在附图的4处,增加了上采样操作,得到416*416像素的特征图;
99.在附图的5处,得到的416*416像素的特征图一个分支用于后续的像素分割、关键点回归等任务,另一个分支增加了卷积运算,得到208*208像素的特征图;
100.基于上一步得到的特征图,经过常用卷积运算之后得到104*104像素的特征图,其中把残差结构等归为一些常用卷积操作;
101.基于上一步得到的特征图,经过常用卷积运算之后得到52*52像素的特征图,其中把残差结构等归为一些常用卷积操作;
102.基于上一步得到的特征图,经过常用卷积运算之后得到26*26像素的特征图,其中把残差结构等归为一些常用卷积操作;
103.在附图的6处,得到的26*26像素的特征图用于后续的目标分类、目标检测等任务。
104.在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如软盘、硬盘、磁带)、光介质(例如dvd)、或者半导体介质(例如固态硬盘solid state disk(ssd))等。
105.以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献