一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于高效多尺度上下文探索网络的显著性目标检测算法

2022-06-11 06:35:48 来源:中国专利 TAG:


1.本发明涉及图像处理和计算机视觉领域,具体来说,涉及了基于高效多尺度上下文探索网络的显著性目标检测算法。


背景技术:

2.本部分的陈述仅仅是涉及到了与本发明相关的背景技术,并不必然构成现有技术。
3.显著目标检测(sod)旨在检测图像中最具吸引力的对象或区域,作为一个预处理阶段使其作为一个预处理阶段广泛使用在许多计算机视觉任务作为一个预处理阶段,如图像检索,图像分割,视频压缩等。
4.早期的显著性目标检测(sod)方法主要使用手工特征和启发式先验预测显著目标。由于不能利用高级语义信息,无法有效定位复杂背景的显著目标。近来,卷积神经网络(cnns)和全卷积神经网络(fcns)成功的打破了传统显著性目标检测方法只能够利用手工特征和底层视觉先验特征的限制,其出色地提取高层次语义特征的能力,使得基于深度学习的方法开始广泛地应用于显著性目标检测领域。
5.最近,许多基于全卷积神经网络(fcn)的显著性目标检测方法被设计,其主要通过聚集多层次特征或集成各种上下文来检测和分割显著对象。具体来说,胡等人在hed结构中引入了短连接,用于传播来自多层次特征的信息,以预测显著性图,张等人在amulet网络中直接将多层次特征集成到多分辨率中,通过学习这些不同分辨率的聚集特征,以递归方式检测显著对象。初始的多层次特征不仅包含重要信息,还包含许多噪声信息,因此,直接聚合生成的显著性图的性能无法达到令人满意的结果。后来,张等人在bdmpm网络中提出了一种多尺度上下文感知特征提取模块,以获取丰富的上下文信息,用于多层次特征定位显著对象。在cpd网络中,吴等人受rfb模块的启发,设计了一个上下文模块,用于捕获全局对比度信息以预测显著性图。类似的李等人在suca网络中提出了一种并行扩张卷积(pdc)模块来提取上下文感知的多尺度多感受野特征,以提高初始多层次特征定位显著对象的能力。此外,庞等人在minet网络中设计了一种自交互模块(sim),以从集成特征中获得更多多尺度特征,从而用可变尺度分割显著对象。虽然上述方法考虑了上下文信息重要性,但它们致力于通过直接聚集多个独立的上下文感知信息来获得显著的对象信息,而很少考虑多尺度和多接收字段上下文信息的相关性,它不利于复杂背景下复杂结构的显著目标的有效检测和分割。


技术实现要素:

6.为了缓解上述问题,在本文中,我们提出了一种新的用于显著目标检测的高效多尺度上下文探索网络,名为emcenet。具体来说,emcenet方法由两个模块组成,即渐进式多尺度上下文提取(pmce)模块和层次化特征混合交互(hfhi)模块,前者旨在以渐进的方式高效地捕获和利用多尺度上下文感知信息,以提高初始多层次特征的性能,后者的目标是自
适应地、高效地融合多层次特征,生成高质量的特征表示,以便准确地预测和分割显著对象。大量的实验结果表明,在六个公共显著性检测基准数据集上,所提出的emcenet方法在不同的评价指标上与现有的13种sod方法相比具有很大的优势。
7.本发明的技术方案是提供了一种集成多源特征网络的显著性目标检测算法,该方法包括以下步骤:
8.1.输入rgb图像,将预训练好的resnet50网络作为主干网络用于提取初始多层次特征;
9.1.1)收集并整理显著性检测领域相关数据集,包含sod数据局,ecssd数据集,pascal-s数据集,dut-omron数据集,hku-is数据集和dust数据集。
10.1.2)考虑到模型训练需要大规模数据,本专利使用包含10553张图像的duts数据集作为训练数据集,利用ecssd,pascal-s,hku-is,dut-omron和duts-te数据集作为测试数据集,用于检测模型的泛化性能。
11.1.3)将预训练好的resnet50网络作为主干网络用于提取初始多层次特征i={ii|i=1,2,3,4,5}。
12.2.利用集成了组卷积操作、空洞卷积操作和不对称卷积操作的渐进式多尺度上下文探索模块实现高效地捕获多感受野多尺度特征,进而增加初始多层次特征中的显著性目标信息;
13.2.1)为了节省计算资源,我们首先使用一个可以以多分支的方式处理初始多级特征的1
×
1组卷积,来提高模型的精度,并且组设置为4,对于初始多级特征,我们将其重建为128个通道,然后我们使用卷积核大小为(1
×
(2n 1),(2n 1)
×
1)的非对称卷积来提取上下文信息,这里n表示在第i个阶段(i=1,2,3,4)。
14.2.2)随后,我们使用深度可分离卷积再次提取多尺度上下文信息,该卷积可以以较少的参数强有力地提取多尺度上下文信息,并且填充率设置为2n。此外,我们还引入了两种剩余连接(即直接剩余连接和间接剩余连接(使用大小为1
×
1卷积运算的卷积核再次处理输入特征))来增加输入特征的多样性。
15.2.3)使用从小感受野分支提取的上下文作为指导输入大感受野分支,以渐进方式增强多尺度多感受野上下文之间的相关性,进而捕获上下文信mn。相关公式如下所示:
[0016][0017]
这里σ表示降维运算,c1表示核大小为1
×
1的卷积运算,a表示核大小为(1
×
(2n 1)、(2n 1)
×
1)的非对称卷积运算,∑是元素加法运算,dn表示填充率为2n的深度可分离卷积。
[0018]
2.4)对这些上下文信息mn执行特征拼接操作,并引入残差特征来生成包含丰富重要信息的多层次特征q={qi|i=1,2,3,4,5}。特征q的定义如下:
[0019]
q=σ(σ(i),σ(cat(m1,...,mn))),n=4
ꢀꢀꢀꢀꢀ
(2)
[0020]
其中cat表示特征串联操作,σ和∑与方程1相似。请注意,每个初始多级特征i通过渐进式多尺度上下文探索模块生成相应的特征q。
[0021]
3.基于层次化特征混合交互模块自适应地交互多层次特征来生成高质量特征表示;
[0022]
3.1)我们使用的输入策略与dss网络中的输入类似,但与之不同的是,我们将渐进式多尺度上下文探索模块中生成的多层次特征q作为同一级别的指导一起输入。
[0023]
3.2)每个多层次特征q可以在层次化特征混合交互模块中四次交互信息,我们首先对所有输入特征执行元素乘法和元素加法运算。
[0024]
3.3)然后,为了提高多层次特征q的利用率,我们在第二阶段再次在特征q的指导下进行元素级加法和元素级乘法,在第三阶段,两组特征依次串联,最后,执行降维操作以生成高质量的特征表示p={pi|i=1,2,3,4,5},其公式定义为:
[0025][0026]
其中σ表示降维操作,cat表示特征拼接操作,∑和*表示按元素的加法和乘法运算。
[0027]
4.对高质量特征表示执行一系列降维激活操作来生成初始显著性图,并利用真值标签进行监督训练。
[0028]
4.1)在提出的方法中,我们使用二进制交叉熵(bce)损失函数和iou损失函数作为损失函数,并使用深度监督策略来训练模型。从数学上讲,损失函数计算如下:
[0029]
δ=δ
bce
δ
iou
ꢀꢀꢀꢀ
(4)
[0030]
其中δ
bce
表示二元交叉熵(bce)损失函数,它可以独立计算每个预测像素的损失,是分割和二元分类中广泛使用的损失。δ
iou
代表iou损失函数,它可以帮助改进训练过程,提高显著对象预测的可信度。
[0031]
本发明的优势:本发明充分利用了从预训练好的resnet50网络中提取的多层次特征,通过渐进式多尺度上下文探索模块来增加初始多层次特征中的显著性信息,然后层次化特征混合交互模块用于自适应交互多层次特征中的不同信息,从而生成高质量特征表示用于精准检测显著性目标。
附图说明
[0032]
图1网络流程图
[0033]
图2网络训练模式图
[0034]
图3视觉比较图
具体实施方式
[0035]
下面将结合本发明实例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,此外,所叙述的实施例仅仅是本发明一部分实施例,而不是所有的实施例。基于本发明中的实施例,本研究方向普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护范围。
[0036]
本发明的流程图框架如图1所示,本发明基于高效多尺度上下文探索网络的显著性目标检测方法,其具体操作说明如下:
[0037]
1.输入rgb图像,将预训练好的resnet50网络作为主干网络用于提取初始多层次特征;
[0038]
1.1)收集并整理显著性检测领域相关数据集,包含sod数据局,ecssd数据集,
pascal-s数据集,dut-omron数据集,hku-is数据集和dust数据集。
[0039]
1.2)考虑到模型训练需要大规模数据,本专利使用包含10553张图像的duts数据集作为训练数据集,利用ecssd,pascal-s,hku-is,dut-omron和duts-te数据集作为测试数据集,用于检测模型的泛化性能。
[0040]
1.3)将预训练好的resnet50网络作为主干网络用于提取初始多层次特征i={ii|i=1,2,3,4,5}。
[0041]
2.利用集成了组卷积操作、空洞卷积操作和不对称卷积操作的渐进式多尺度上下文探索模块实现高效地捕获多感受野多尺度特征,进而增加初始多层次特征中的显著性目标信息,如图1所示;
[0042]
2.1)为了节省计算资源,我们首先使用一个可以以多分支的方式处理初始多级特征的1
×
1组卷积,来提高模型的精度,并且组设置为4,对于初始多级特征,我们将其重建为128个通道,然后我们使用卷积核大小为(1
×
(2n 1),(2n 1)
×
1)的非对称卷积来提取上下文信息,这里n表示在第i个阶段(i=1,2,3,4)。
[0043]
2.2)随后,我们使用深度可分离卷积再次提取多尺度上下文信息,该卷积可以以较少的参数强有力地提取多尺度上下文信息,并且填充率设置为2n。此外,我们还引入了两种剩余连接(即直接剩余连接和间接剩余连接(使用大小为1
×
1卷积运算的卷积核再次处理输入特征))来增加输入特征的多样性。
[0044]
2.3)使用从小感受野分支提取的上下文作为指导输入大感受野分支,以渐进方式增强多尺度多感受野上下文之间的相关性,进而捕获上下文信mn。相关公式如下所示:
[0045][0046]
这里σ表示降维运算,c1表示核大小为1
×
1的卷积运算,a表示核大小为(1
×
(2n 1)、(2n 1)
×
1)的非对称卷积运算,∑是元素加法运算,dn表示填充率为2n的深度可分离卷积。
[0047]
2.4)对这些上下文信息mn执行特征拼接操作,并引入残差特征来生成包含丰富重要信息的多层次特征q={qi|i=1,2,3,4,5}。特征q的定义如下:
[0048]
q=σ(σ(i),σ(cat(m1,...,mn))),n=4
ꢀꢀꢀꢀꢀ
(2)
[0049]
其中cat表示特征串联操作,σ和∑与方程1相似。请注意,每个初始多级特征i通过渐进式多尺度上下文探索模块生成相应的特征q。
[0050]
3.基于层次化特征混合交互模块自适应地交互多层次特征来生成高质量特征表示,如图1所示;
[0051]
3.1)我们使用的输入策略与dss网络中的输入类似,但与之不同的是,我们将渐进式多尺度上下文探索模块中生成的多层次特征q作为同一级别的指导一起输入。
[0052]
3.2)每个多层次特征q可以在层次化特征混合交互模块中四次交互信息,我们首先对所有输入特征执行元素乘法和元素加法运算。
[0053]
3.3)然后,为了提高多层次特征q的利用率,我们在第二阶段再次在特征q的指导下进行元素级加法和元素级乘法,在第三阶段,两组特征依次串联,最后,执行降维操作以生成高质量的特征表示p={pi|i=1,2,3,4,5},其公式定义为:
[0054][0055]
其中σ表示降维操作,cat表示特征拼接操作,∑和*表示按元素的加法和乘法运算。
[0056]
4.对高质量特征表示执行一系列降维激活操作来生成初始显著性图,并利用真值标签进行监督训练,如图2所示。
[0057]
4.1)在提出的方法中,我们使用二进制交叉熵(bce)损失函数和iou损失函数作为损失函数,并使用深度监督策略来训练模型。从数学上讲,损失函数计算如下:
[0058]
δ=δ
bce
δ
iou
ꢀꢀꢀꢀ
(4)
[0059]
其中δ
bce
表示二元交叉熵(bce)损失函数,它可以独立计算每个预测像素的损失,是分割和二元分类中广泛使用的损失。δ
iou
代表iou损失函数,它可以帮助改进训练过程,提高显著对象预测的可信度。
[0060]
5.为了充分展示我们模型的高效性和泛化能力我们将我们提出的基于高效多尺度上下文探索网络的显著性目标检测算法与当下存在的一些算法进行定性和定量比较,如图3所示。
[0061]
以上所述为本技术优选实施而以,并不用于限制本技术,对于本领域的技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包括在本技术的保护范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献