技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于高显著特征逐步失活的弱监督语义分割方法  >  正文

一种基于高显著特征逐步失活的弱监督语义分割方法

  • 国知局
  • 2024-09-19 14:28:59

本发明涉及一种基于高显著特征逐步失活的弱监督语义分割方法,属于计算机视觉领域。

背景技术:

1、千兆级像素图像的像素个数往往在105×105数量级左右,每张图像的大小都在1g以上,甚至有的达到3-5g,对其进行操作和运算会耗费巨大的计算成本,因此使用千兆级像素图像进行语义分割是一件困难的工作。并且在千兆级像素图像上绘制像素级标签是非常昂贵和耗时的,所以我们使用一种基于高显著特征逐步失活的弱监督语义分割方法对千兆级像素图像进行分割。

2、目前对千兆级像素图像来说,常见的语义分割方法是先在图像上设置一个滑动窗口,将图像裁剪为多个切片,然后使用得到的切片训练分割网络。例如ronneberger等人[1]使用基于u-net的分割方法对切片图像进行语义分割,获得了较好的效果。另外,由于千兆级像素图像绘制像素级标签的成本过大,所以使用图像级标签进行弱监督语义分割是其中一个解决方法。使用图像级标签的弱监督分割方法需要拥有良好的类激活映射(classactivation map,cam),因此一些研究通过采用不同的策略优化最初生成的cam图,得到分割结果[2,3]。目前少有研究使用基于类激活映射的弱监督算法对千兆级像素图像进行分割,其中chan等人[4]使用gradient-weighted class activation mapping(grad-cam)方法生成初始分割结果,并采用全连接条件随机场对分割结果进行细化,但结果表明其准确性有待提高。一方面基于滑动窗口的方法没有考虑图像的上下文关系,另一方面基于cam图的方法中分类网络生成的cam图的显著区域会随着训练迭代次数的增多逐渐缩小到最具有鉴别性的区域,从而使得由cam图转化来的伪掩码与真实掩码之间存在很大差距,导致使用伪掩码训练出的分割网络准确性不高。

3、人们在观察千兆级像素图像时总是将图像调整到不同的倍率下观察目标,通过整合不同尺度的信息得出结论,为了符合这个观察逻辑,本发明利用全局和局部的信息监督分割,将不同尺度的图像输入到分割网络中。另外因为分类网络更聚焦于具有鉴别性的特征,会导致显著区域逐渐缩小,为解决这一问题,使得分类网络生成的cam图更接近真实值,本发明通过降低激活图中显著区域的激活值,促使分类网络更关注非优势区域,使分类网络生成更准确的cam图,进一步获得更精准的伪掩码。

4、参考文献:

5、[1]ronneberger,olaf,philipp fischer,and thomas brox."u-net:convolutional networks for biomedical image segmentation."medical imagecomputing and computer-assisted intervention–miccai 2015:18th internationalconference,munich,germany,october 5-9,2015,proceedings,part iii 18.springerinternational publishing,2015.

6、[2]chang,yu-ting,et al."weakly-supervised semantic segmentation viasub-category exploration."proceedings of the ieee/cvf conference on computervision and pattern recognition.2020.

7、[3]selvaraju,ramprasaath r.,et al."grad-cam:visual explanations fromdeep networks via gradient-based localization."proceedings of the ieeeinternational conference on computer vision.2017.

8、[4]chan,lyndon,et al."histosegnet:semantic segmentation ofhistological tissue type in whole slide images."proceedings of the ieee/cvfinternational conference on computer vision.2019.

技术实现思路

1、现有的关于千兆级像素图像的语义分割方法将图像通过滑动窗口进行切片,再分别进行训练,而单独的切片不能提供完整的语义信息,针对此问题,本发明设计了一个多尺度分割网络架构,由三个不同尺度的图像作为输入,提供充分的语义信息,其中包括最大尺度图像提供全局背景信息;中尺度图像提供结构信息并作为待分割图像;小尺度图像提供细节信息。然后将这三个尺度的图像特征进行融合,尽可能保证充分利用不同尺度图像特征。另外,对千兆级像素图像的像素级标注是非常费时费力的,所以本发明采用弱监督分割方法,将分类网络生成的cam图作为伪掩码用于分割网络的训练,但是因为分类网络生成的cam图中的显著区域会收缩到只包含最具辨别性的特征,所以在使用cam图作为分割网络的伪掩码时,分割网络的性能会受到很大影响。为改善这种情况,本发明通过降低显著区域的激活值促使分类网络更关注非优势区域,从而优化cam图。

2、本发明采用如下技术方案:首先将一张千兆级像素图像分为三个不同尺度:大尺度图像被定义为整张图像;将使用滑动窗口提取的切片即待分割区域作为中尺度图像;小尺度图像是通过中尺度图像裁剪得到,大小为中尺度图像的一半,并且中、小尺度图像具有相同的中心。本方法分为两个网络:分类网络和分割网络。其中分类网络输入的是中尺度图像,功能是生成cam图,我们在训练过程中通过使用改进的progressive dropoutattention(pda)方法减小cam中高显著特征的激活值,从而减少最具鉴别性区域的贡献,使得分类网络更关注其他区域的同时不会忽略最具鉴别性区域的特征,然后通过加权后的特征图进行分类,以此扩大分类网络生成的cam图的显著区域,从而得到更准确的cam图,最终分类网络的输出是优化的cam图。分割网络的输入是三个不同尺度的图像,其基于u-net网络,由3个编码器和1个解码器组成。在解码阶段,网络将三个尺度的特征进行融合,利用大、小尺度图像提供的上下文信息,获得更好的分割性能。分割网络的输出是最终的分割结果,其具体的网络结构如附图1所示。分割结果与cam图二值化后的伪掩码通过计算损失并反向传播来优化分割网络参数。

3、本发明的具体方案如附图2所示。

4、步骤1:图像预处理

5、图像预处理的主要任务是将数据集内的每一张图像裁剪为三个不同分辨率的图像,并统一这三张图像的尺寸。本发明所参考的数据集为千兆级像素数据,例如公开的乳腺病理切片图像数据集和遥感图像数据集。该步骤首先裁剪图像,将原图像作为大尺度图像;使用滑动窗口选定待分割图像作为中尺度图像;在中尺度图像中选取大小为其一半,并和中尺度图像具有相同中心的区域作为小尺度图像。然后将大尺度图像和小尺度图像分别通过下采样和上采样统一到和中尺度图像相同的尺寸。

6、步骤2:获得类激活图

7、该步骤针对中尺度图像训练一个分类网络,然后采用grad-cam算法生成cam图。

8、步骤2.1训练分类网络:本发明使用经典的卷积神经网络rsenet101作为分类网络,使用图像级分类标签作为监督信息,训练网络来预测类别信息(例如预测遥感数据集里的目标为飞机、轮船或者汽车)。

9、步骤2.2计算cam图:该步骤使用grad-cam算法生成cam图。我们首先提取步骤2.1中分类网络的最后一个卷积层的特征图;然后对各个预测类别的预测分数进行反向传播,得出预测分数相对最后一个卷积层输出特征的梯度信息;接着对梯度信息求均值得到对于一个类别而言最后一层特征的每个通道的权重;最后将权重和特征层加权求和再通过relu(rectified linear unit)激活得到输入图像的cam图。

10、步骤3:优化分类网络

11、该步骤在分类网络的训练阶段进行。首先本步骤通过降低分类网络生成的cam图中显著区域的激活值,得到注意力特征图;然后将其作为权重作用于分类网络最后一个卷积层输出的特征图上,防止模型过度关注特征明显、最具有判别性的区域,提供更全面的特征表示;最后对该加权后特征图进行预测,根据真实分类标签训练网络,优化网络参数。

12、步骤3.1降低cam图中显著区域的激活值:该步骤对cam使用改进的pda算法,降低cam中显著区域的激活值。本发明为了使网络更关注非显著特点的区域,通过设定阈值,减小cam图上置信度大于阈值的区域的值从而降低特征图上对应区域的权重,而不是直接将置信度大于阈值的区域的值置为零,这样可以令网络在更关注非优势区域的同时不会忽略这些具有高显著特征的区域。并且为了防止随着迭代次数的增加cam图中显著区域逐步缩小的趋势,本发明通过逐渐降低阈值来扩大要降低激活值的区域。

13、步骤3.2生成注意力特征图:针对步骤3.1生成的新的cam图,本步骤将其不同类别对应的cam图求和并计算平均值,得到注意力特征图。

14、步骤3.3优化网络参数:该步骤首先将步骤3.2生成的注意力特征图与分类网络最后一个卷积层输出的特征图相乘,得到加权后的特征图;然后使用该特征图进行后续的类别预测;最终与真实类别标签计算损失并反向传播更新网络参数。我们通过加权的特征图预测类别信息,使得分类网络更加关注显著区域之外的信息。由此优化后的网络生成的cam图会更接近真实值,而不是生成高显著特征中只包含最显著特点区域的cam图。

15、步骤4:训练、预测多尺度分割网络

16、在此步骤中我们首先使用步骤3训练好的分类网络生成中尺度图像的cam图,并将其转化为二值图作为伪掩码用于训练分割网络;然后将步骤1生成的三个不同尺度的图像输入到分割网络的三个编码器中,并在解码阶段通过跳跃连接和注意力融合模块进行特征融合、拼接,输出中尺度图像的语义分割结果;最后利用训练好的分割网络对测试集进行分割预测。

17、步骤4.1生成伪掩码:该步骤首先将待分割图像即中尺度图像输入到训练好的分类网络中得到中尺度图像对应的cam图;然后选择各个类别的cam图中相同像素位置的最大值所对应的类别值作为最终cam上该位置的值;最后将此cam图二值化得到伪掩码用于训练分割网络。

18、步骤4.2获得多尺度特征:我们将步骤1得到的三个不同尺度的图像输入到分割网络的三个不同的编码器中,得到三组不同尺度的特征。其中三个编码器选用u-net网络架构的编码器,由卷积和下采样组成。

19、步骤4.3特征融合:该步骤在分割网络的解码阶段进行,我们首先将上一卷积层的输出进行上采样,然后利用跳跃连接结构,将上采样后特征和三个编码器中相应层的特征输入到注意力融合模块中进行融合,融合后的特征再输入到卷积层,以此循环,逐层向上最终得到分割结果。

20、步骤4.4分割网络训练和预测:该步骤使用步骤4.1中获得的伪掩码训练分割网络,然后利用训练好的分割网络对测试集进行分割。

21、与已有技术相比,本发明有益效果在于:

22、一、本发明采用的基于高显著特征逐步失活的弱监督语义分割方法,有效的避免了全监督学习所需的像素级标签,降低了监督信息的要求标准,很大程度上减轻了数据的标注工作。

23、二、本发明采用的基于高显著特征逐步失活的弱监督语义分割方法,对cam使用改进的pda方法,使得分类网络更加关注图像的非显著性区域,同时不会忽略最具辨别性区域,防止cam图的显著区域收缩,进而得到更接近真实值的伪掩码。

24、三、本发明采用的基于高显著特征逐步失活的弱监督语义分割方法,将图像分为大中小三个不同的尺度,并在分割网络中进行特征图拼接、融合,使得分割网络能够得到尽可能充分的语义信息,包括大尺度图像提供全局背景信息;中尺度图像提供结构信息,并作为分割对象;小尺度图像提供细节信息,从而得到更加准确的分割结果。

本文地址:https://www.jishuxx.com/zhuanli/20240919/298341.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。