一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于内外部引导的交互式图像分割方法及系统

2022-07-02 07:02:55 来源:中国专利 TAG:


1.本发明属于图像处理技术领域,具体涉及一种基于内外部引导的交互式图像分割方法及系统。


背景技术:

2.在过去的几年里,语义和实例分割在不同领域都有革命性的进步,例如一般场景、自动驾驶、航空影像、医疗诊断,成功的分割模型通常建立在大量高质量训练数据的基础上。然而,建立这些模型所需的像素级训练数据的创建过程通常是昂贵的、费力的和耗时的。因此,如何快速提取感兴趣的对象并减少注释工作量是此类任务中主要的研究课题之一。
3.交互式图像分割的目的是用最少的用户交互输入来分割出感兴趣的目标物体,交互式分割允许注释者通过提供一些用户输入,例如边界框或点击,来快速提取感兴趣的对象,这是减少注释工作量的一种有效的方法。它对于许多应用都有实际作用,如图像编辑和医疗图像分析。近年来,随着数据驱动的深度学习技术的普及,在某些领域,对与像素级别注释的需求急剧增加,如显著性物体检测,语义分割,实例分割,伪装物体检测,和图像视频处理。非常需要高效的交互式分割技术以减轻标注成本。因此,越来越多的研究者正在这一领域进行广泛的探索。
4.在早期,大多数传统的交互式分割方法主要利用手工提取的特征,一些研究方法非常关注边界性质。之后,基于图模型的方法变得更加流行,即将交互式分割任务建模为图分割优化问题,并用著名的最小割/最大流算法求解。其中基于图分割的经典方法就是grabcut,该算法以高斯混合模型为颜色模型,边界框为输入,简化了分割过程。后面又改进了随机游走算法,并引入了一种新的高阶公式,并附加了软标签一致性约束。然后提供了一种容错方法,允许用户进行一些错误的交互,这些基于低层特征的方法不能适应复杂多变场景下的目标分割。


技术实现要素:

5.本发明的目的在于提供一种基于内外部引导的交互式图像分割方法及系统,以克服现有技术的不足。
6.一种基于内外部引导的交互式图像分割方法,包括以下步骤:
7.s1,训练集数据预处理:利用ground truth生成待训练图片的内外部引导点作为模仿人工交互点,将待训练图片裁剪至外部引导点所形成的外接矩形框大小,然后为内部引导点和外部引导点生成2d高斯中心,为内部引导点和外部引导点创建两个独立的热图,得到的热图与rgb输入图像连接在一起,形成网络的5通道输入数据;
8.s2,将处理好的训练集数据输入至coarse-to-fine结构的网络模块中进行卷积处理,将卷积处理后的数据进行解码,并在最深层加入金字塔特征处理器进行全局语义的获取,同时将卷积处理的低级语义用跨层连接与同一下采样倍率下解码阶段的高级语义连接
起来,然后将解码后的各层特征经过一定数量的卷积操作之后进行融合,得到分割结果;
9.s3,在得到分割结果后对图像的修正操作将通过单独的修正模块输入模型中,修正分为外部引导点修正和内部引导点修正,然后为内部引导点和外部引导点生成2d高斯中心,为内部引导点和外部引导点创建两个独立的热图,将两个修正热图输入修正模块进行卷积操作,然后输入至网络最底层金字塔特征模块;
10.s4,利用解码并融合后的分割结果及对应的训练集训练网络分割模型,利用训练后的网络分割模型进行交互式图像的分割。
11.进一步的,使用反向传播策略优化网络的参数,根据损失函数的值更新网络参数,使得损失函数不断下降直到收敛至设定值,完成网络分割模型的训练。
12.进一步的,在网络编码与解码的过程中采用跨阶段特征聚合,从上一个阶段的下采样和上采样到目前阶段的下采样流程,引入了两种sepa速率信息流,在每个流程上都添加了1
×
1的卷积,从而可以更好地利用先验信息,提取出更多的判别特征。
13.进一步的,在模型中使用了通道注意力模块,显式的实现特征通道的依赖关系,通过自动学习的方式获取到每个通道特征的重要程度,然后用这个重要程度去给每一个特征通道赋予一个权重值,让网络关注某些特征通道,即提升对当前任务有用的特征通道,并抑制对当前任务用处不大的特征通道。
14.进一步的,在corsenet中的每一层都应用了特征金字塔模块,以更好地获取全局语义信息。
15.进一步的,采用随机裁切、高斯模糊、对比度增强或镜像翻转方式对数据集进行扩充。
16.进一步的,将用户修正模块与主网络进行分离,并对用户修正得到的热图输入到corsenet编码后的最底层中,这样更有利于传递用户意图到模型中。
17.进一步的,当用户输入信息不足时可以根据用户已输入的外部点进行扩充操作,再对象的四个极值点处向对象的外接矩形框的外部延申图片对角线长度的1%距离处自动生成新的外部引导点,同时在外部引导点外部即图片对角线长度的1%距离处自动生成新的外部引导点,自动生成的引导点可以为模型提供更多的先验知识以达到更好的分割结果。
18.进一步的,通过coarse-to-fine结构的网络模型对特征进行编码和解码,以更好的学习待分割对象的边界信息,有利于得到更好的分割结果。
19.一种基于内外部引导的交互式图像分割系统,包括数据预处理模块,分割模块,修正模块;
20.数据预处理模块利用ground truth生成待训练图片的内外部引导点作为模仿人工交互点,将待训练图片裁剪至外部引导点所形成的外接矩形框大小,然后为内部引导点和外部引导点生成2d高斯中心,为内部引导点和外部引导点创建两个独立的热图,得到的热图与rgb输入图像连接在一起,形成网络的5通道输入数据;
21.分割模块将处理好的训练集数据输入至coarse-to-fine结构的网络模块中进行卷积处理,将卷积处理后的数据进行解码,并在最深层加入金字塔特征处理器进行全局语义的获取,同时将卷积处理的低级语义用跨层连接与同一下采样倍率下解码阶段的高级语义连接起来,然后将解码后的各层特征经过一定数量的卷积操作之后进行融合,得到分割
结果,利用解码并融合后的分割结果及对应的训练集训练网络分割模型,利用训练后的网络分割模型进行交互式图像的分割;
22.修正模块用于用户对分割结果不满意的时候再进行分割。
23.户在得到分割结果后对图像的修正操作将通过单独的修正模块输入模型中,用户的修正分为外部引导点修正和内部引导点修正,然后为内部引导点和外部引导点生成2d高斯中心,为内部引导点和外部引导点创建两个独立的热图,将两个修正热图输入修正模块进行卷积操作,然后输入至网络最底层金字塔特征模块,之后网络进行训练输出最终的分割结果;
24.与现有技术相比,本发明具有以下有益的技术效果:
25.本发明一种基于内外部引导的交互式图像分割方法,通过对待训练图像进行预处理形成网络的5通道输入数据为训练集数据;将预处理后的训练集数据进行卷积处理,将卷积处理后的数据进行解码,再将解码后的各层特征经过卷积操作之后进行融合,得到分割结果;对得到的分割结果进行修正后输入值网络分割模型的最底层金字塔特征模块,然后利用得到的分割结果以及该分割结果对应的训练集训练修正后的网络分割模型,利用训练后的网络分割模型实现图像的分割,本发明利用解码并融合后的分割结果及对应的训练集训练网络分割模型,利用训练后的网络分割模型进行交互式图像的分割,在网络编码与解码的过程中采用跨阶段特征聚合,本发明适用于复杂多变场景下的目标分割,能够提高分割精度。
26.进一步的,在模型中使用了通道注意力模块,显式的实现特征通道的依赖关系,通过自动学习的方式获取到每个通道特征的重要程度,然后用这个重要程度去给每一个特征通道赋予一个权重值,让网络关注某些特征通道,即提升对当前任务有用的特征通道,并抑制对当前任务用处不大的特征通道。通过coarse-to-fine结构的网络模型对特征进行编码和解码,以更好的学习待分割对象的边界信息,得到更好的分割精度。
27.具体的,从上一个阶段的下采样和上采样到目前阶段的下采样流程,引入了两种sepa速率信息流,在每个流程上都添加了1
×
1的卷积,从而可以更好地利用先验信息,提取出更多的判别特征。
28.进一步的,通过联合使用交叉熵损失、iou损失与深度监督损失,促进梯度的回传,加强模型收敛,进一步提升模型训练效果。
附图说明
29.图1是本发明实施例中内外部引导的交互式图像分割方法的实现流程图。
30.图2是本发明实施例中内外部引导的交互式图像分割模型的网络结构图。
31.图3是本发明实施例中内外部引导的交互式图像分割模型的跨阶段特征聚合模块图。
32.图4是本发明实施例中内外部引导的交互式图像分割模型的通道注意力模块图。
33.图5是本发明实施例中内外部引导的交互式图像分割模型的分割效果图。
具体实施方式
34.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的
附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
35.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
36.如图1所示,一种基于内外部引导的交互式图像分割方法,以实现更好的分割精度,具体包括以下步骤;
37.s1,数据预处理:具体的,利用ground truth生成待训练图片的内部引导点和外部引导点作为模仿人工交互点,内部引导点即为待分割对象的最上、最下、最左和最右四个极值点,外部引导点即为待分割对象的最小外接矩形框的四个顶点,然后将待训练图片裁剪至外部引导点所形成的外接矩形框大小,然后为内部引导点和外部引导点生成2d高斯中心,为前景(内部引导点)和背景(外部引导点)创建两个独立的热图,将得到的热图与rgb输入图像连接在一起,形成网络的5通道输入数据,即预处理后的训练集数据;
38.s2,将处理好的训练集数据输入至coarse-to-fine结构的网络模块中进行卷积处理,将卷积处理后的数据进行解码,并在最深层加入金字塔特征处理器进行全局语义的获取,同时将卷积处理的低级语义用跨层连接与同一下采样倍率下解码阶段的高级语义连接起来,然后将解码后的各层特征经过一定数量的卷积操作之后进行融合,最终得到分割结果;
39.s3,在得到分割结果后对图像的修正操作将通过单独的修正模块输入模型中,修正分为外部引导点修正和内部引导点修正,然后为内部引导点和外部引导点生成2d高斯中心,为内部引导点和外部引导点创建两个独立的修正热图,将两个修正热图输入修正模块进行卷积操作,然后输入至网络分割模型的最底层金字塔特征模块;
40.具体的,用户在得到分割结果后对图像的修正操作将通过单独的修正模块输入模型中,用户修正分为外部引导点修正和内部引导点修正;将用户修正模块与主网络进行分离,并对用户修正得到的热图输入到corsenet编码后的最底层中,这样更有利于传递用户意图到模型中。
41.s4,利用解码并融合后的分割结果及对应的训练集训练输入修正热图的网络分割模型,利用训练后的网络分割模型进行交互式图像的分割。
42.训练过程中,使用反向传播策略优化网络的参数,使用损失函数帮助训练,根据损失函数的值,更新网络参数,使得损失函数不断下降直到收敛至设定值,此时训练结束,保存训练好的网络分割模型。
43.当用户输入信息不足时根据用户已输入的外部点进行扩充操作,再对象的四个极值点处向对象的外接矩形框的外部延申图片对角线长度的1%距离处自动生成新的外部引
导点,同时在外部引导点外部即图片对角线长度的1%距离处自动生成新的外部引导点,自动生成的引导点可以为模型提供更多的先验知识以达到更好的分割结果。
44.具体的,本技术采用公开数据集作为数据集,将数据集分为训练集和测试集。
45.在网络解码的过程中采用跨阶段特征聚合,从上一个阶段的下采样和上采样到目前阶段的下采样流程,引入了两种sepa速率信息流,在每个流程上都添加了1
×
1的卷积,从而可以更好地利用先验信息,提取出更多的判别特征。
46.在网络分割模型中使用通道注意力模块,显式的实现特征通道的依赖关系,通过自动学习的方式获取到每个通道特征的重要程度,根据每个通道特征的重要程度给每一个特征通道赋予一个权重值,让网络关注某些特征通道,即提升对当前任务有用的特征通道,并抑制对当前任务用处不大的特征通道。
47.分割模块设计:采用从粗分割到细分割的设计来解决分割算法分割边界不够精细的问题。其中采用了级联结构,具体来说,分割网络由两个子网组成。第一个子网,粗分割网络采用fpn的设计,通过横向连接,逐步将深层的语义信息与浅层的低级细节融合在一起。与cpn不同的是,还在最深层添加了一个金字塔场景解析模块,用全局上下文信息丰富表示。对于第二个子网细分割网络,它的目标是恢复丢失的边界细节。通过多尺度融合结构实现的,该结构通过上采样和级联操作在粗分割网络的不同级别上融合信息;对更深层的特征应用了更多的卷积块,以便在精度和效率之间进行更好的权衡。
48.同时将编码阶段的低级语义用跨层连接与同一下采样倍率下解码阶段的高级语义连接起来,最终解码得到分割结果。
49.采用随机裁切、高斯模糊、对比度增强或镜像翻转方式对数据集进行扩充。使用训练数据进行训练,训练过程中,使用反向传播策略优化网络的参数,使用损失函数帮助训练,其中使用的损失函数包括交叉熵损失、iou损失用于帮助训练,反向传播优化网络的参数。
50.交叉熵是图像分割算法中最常用的损失,它会将每个像素逐个与真值图进行对比,其公式表示如下:
[0051][0052]
式中:w
×
h为整个三维图像的像素数量,yi∈{0,1}为第i个元素的真实标签,其中0为背景,1为前景,pi∈[0,1]表示网络预测的该像素属于前景的概率。
[0053]
iou损失其公式表达如下:
[0054][0055]
式中:intersection为交集面积,union为并集部分面积。
[0056]
根据损失函数的值,更新网络参数,使得损失函数不断下降直到收敛至较小的值,此时训练结束,保存训练好的网络模型;使用保存的训练好的模型构成内外部引导的交互式图像分割网络模型。
[0057]
一种基于内外部引导的交互式图像分割系统,包括数据预处理模块,分割模块和修正模块;
[0058]
数据预处理模块利用ground truth生成待训练图片的内外部引导点作为模仿人
工交互点,内部引导点即为待分割对象的最上,最下,最左和最右四个极值点,外部引导点即为待分割对象的最小外接矩形框的四个顶点,然后将待训练图片裁剪至外部引导点所形成的外接矩形框大小,然后为内部引导点和外部引导点生成2d高斯中心,为前景即内部引导点和背景即外部引导点创建两个独立的热图,得到的热图与rgb输入图像连接在一起,形成网络的5通道输入数据;
[0059]
分割模块将处理好的训练集数据输入至coarse-to-fine结构的网络模块中进行卷积处理,将卷积处理后的数据进行解码,并在最深层加入金字塔特征处理器进行全局语义的获取,同时将卷积处理的低级语义用跨层连接与同一下采样倍率下解码阶段的高级语义连接起来,然后将解码后的各层特征经过一定数量的卷积操作之后进行融合,得到分割结果,利用解码并融合后的分割结果及对应的训练集训练网络分割模型,利用训练后的网络分割模型进行交互式图像的分割;
[0060]
修正模块用于用户对分割结果不满意的时候再进行分割,用户在得到分割结果后对图像的修正操作将通过单独的修正模块输入模型中,用户的修正分为外部引导点修正和内部引导点修正,然后为内部引导点和外部引导点生成2d高斯中心,为内部引导点和外部引导点创建两个独立的热图,将两个修正热图输入修正模块进行卷积操作,然后输入至网络最底层金字塔特征模块,之后网络进行训练输出最终的分割结果。
[0061]
本发明一种基于内外部引导的交互式图像分割方法,将数据集中图片根据ground truth生成待训练图片的内外部引导点,之后生成分割网络的5通道输入数据,分割网络采用了从粗分割到细分割的设计来解决分割算法分割边界不够精细的问题;其中采用了级联结构,分割网络由两个子网组成。
[0062]
第一个子网,粗分割网络采用类似fpn的设计,通过横向连接,逐步将深层的语义信息与浅层的低级细节融合在一起。与cpn不同的是,还在最深层添加了一个金字塔场景解析模块,用全局上下文信息丰富表示。
[0063]
第二个子网细分割网络,它的目标是恢复丢失的边界细节。这是通过多尺度融合结构实现的,该结构通过上采样和级联操作在粗分割网络的不同级别上融合信息。与cpn类似,还对更深层的特征应用了更多的卷积块,以便在精度和效率之间进行更好的权衡。
[0064]
通过联合使用交叉熵损失与iou损失,促进梯度的回传,加强模型收敛,进一步提升模型训练效果;
[0065]
本技术在公开数据集pascal上取得了具有竞争性的iou结果,性能优于几种流行的交互式图像分割方法。
[0066]
实施例
[0067]
一种基于内外部引导的交互式图像分割方法,包括以下步骤:
[0068]
s1.对pascal源数据进行预处理,使之适合用于模型的训练,并将其分为训练集和测试集。
[0069]
具体工作流程如下:
[0070]
(1.1)、采用公开数据集pascal作为数据集;
[0071]
(1.2)、对步骤(1.1)所述的数据集利用ground truth生成待训练图片的内外部引导点作为模仿人工交互点,内部引导点即为待分割对象的最上,最下,最左和最右四个极值点,外部引导点即为待分割对象的最小外接矩形框的四个顶点;
[0072]
(1.3)、将待训练图片裁剪至外部引导点所形成的外接矩形框大小;
[0073]
(1.4)、对于步骤(1.3)所处理后的数据为内部引导点和外部引导点生成2d高斯中心,为前景即内部引导点和背景即外部引导点创建两个独立的热图,得到的热图与rgb输入图像连接在一起,形成网络的5通道输入数据。
[0074]
s2.然后根据前处理后的数据集的特点,为使网络有更好的分割精度,网络采用coarse-to-fine结构的网络模块中进行处理。具体工作流程如下:
[0075]
(2.1)、针对步骤(1.4)所得到的输入数据,将输入数据先输入至corsenet中进行粗分割以提取更多通用特征;
[0076]
(2.2)、对于步骤(2.1)所述的corsenet,采用类似fpn的设计,通过横向连接,逐步将深层的语义信息与浅层的低级细节融合在一起。与cpn不同的是,还在最深层添加了一个金字塔场景解析模块,用全局上下文信息丰富表示;
[0077]
(2.3)、然后将corsenet的各层解码数据分别输入第二个子网络finenet进行细分割,它的目标是恢复丢失的边界细节;
[0078]
(2.4)、对于步骤(2.3)所述的finenet,这是通过多尺度融合结构实现的,该结构通过上采样和级联操作在粗分割网络的不同级别上融合信息。与cpn类似,还对更深层的特征应用了更多的卷积块,以便在精度和效率之间进行更好的权衡。
[0079]
s3.在网络编码与解码的过程中设计跨阶段特征聚合,从上一个阶段的下采样和上采样到目前阶段的下采样流程,引入了两种sepa速率信息流,在每个流程上都添加了1
×
1的卷积,从而可以更好地利用先验信息,提取出更多的判别特征,如图3所示。具体工作流程如下:
[0080]
(3.1)、对于每个尺度,从前一阶段的下采样和上采样单元到当前阶段的下采样过程,分别引入两个独立的信息流。需要注意的是,每个流上都添加了1
×
1的卷积,结合当前阶段的下采样特征,加入三个分量产生融合结果。通过这种设计,现阶段可以充分利用先验信息提取出更具判别性的表示;
[0081]
s4.设计通道注意力模块,显式的实现特征通道的依赖关系,通过自动学习的方式获取到每个通道特征的重要程度,然后用这个重要程度去给每一个特征通道赋予一个权重值,让网络关注某些特征通道,即提升对当前任务有用的特征通道,并抑制对当前任务用处不大的特征通道,如图4所示。具体工作流程如下:
[0082]
(4.1)、给定一个输入x,器特征通道数为c',通过一系列卷积(ftr)等一遍变换得到一个特征通道为c的特征。;
[0083]
(4.2)、squeeze(fsq),通过全局池化(global pooling),将每个通道的二维特征(hxw)压缩为一个实数,它是通过全局平均池化的方式实现的。这属于空间维度的一种特征压缩,因为这个实数是根据所有特征值计算出来的,所以在某种程度上具有平均感受野,保持通道数不变,所以通过squeeze操作后变为1x1xc;
[0084]
(4.3)、excitation(fex),通过参数来为每个特征通道生成一个权重值,这个权重值是如何生成的就很关键了,它是通过两个全连接层组成一个bottleneck结构去建模通道间的相关性,并输入和输出特征数同样的权重值。
[0085]
s5.对于数据经过步骤(2.2)所述操作得到的输出进行解码,同时将编码阶段的低级语义用跨层连接与同一下采样倍率下解码阶段的高级语义连接起来,最终解码得到分割
结果;
[0086]
s6.对于步骤s5所述的网络模型,训练过程中采用交叉熵损失与iou损失,来促进梯度回传,加强模型收敛,进一步提升训练效果;
[0087]
s7.对于训练好的内外部引导的交互式图像分割模型,将测试图像作为输入,得到分割的结果,如图2所示。具体工作流程如下:
[0088]
(7.1)、对于步骤s5所述的内外部引导的交互式图像分割模型,将步骤(1.4)所述的测试集作为输入,得到模型分割的结果;
[0089]
(7.2)、将步骤(7.1)所述的内外部引导的交互式图像分割模型的交互式分割得到的物体轮廓与真值标签进行对比,发现步骤(7.1)所述的内外部引导的交互式图像分割模型取得了极好的分割效果,在iou指标上表现尤其突出,如图5所示。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献