技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种新型基于信息熵采用池化和高斯上采样的加权特征融合CAM方法  >  正文

一种新型基于信息熵采用池化和高斯上采样的加权特征融合CAM方法

  • 国知局
  • 2024-09-14 14:33:05

本公开涉及计算机视觉和卷积神经网络的特征可解释性领域,具体涉及一种新型基于信息熵采用池化和高斯上采样的加权特征融合cam方法。

背景技术:

1、此部分的陈述仅仅提供与本公开有关的背景技术信息,并且这些陈述可能构成现有技术。在实现本发明过程中,发明人发现现有技术中至少存在如下问题。

2、随着科学技术与机器视觉(cv)的快速发展,深度神经网络在cv的多个领域,包括:图像分类、目标检测、实例分割等,取得了令人兴奋的进展。然而,深度神经网络虽然有大量非线性网路层提供复杂组合,能够从数据中获取高纬特征,但是其本质为端到端的“黑盒模型”,这使其决策和输出结果的可信度和可解释性大幅降低。这也是在安全性要求较高的行业和领域仍然采用人工或一些传统机器学习算法的原因。为了安全使用深度神经网络,这要求解释模型是如何输出的,或者输出逻辑是如何的。近年来,在这种研究背景下,深度神经网络的可解释性已经成为了研究热点。

3、在有关深度神经网络工作机制的解释方法中,包括:神经元可视化、网络传播、基于反向传播的可视化、区域扰动、类激活图(cam)等。早期方法通过直接可视化显著图形式的梯度来解释cnns,但由梯度直接可视化生成的显著图通常是包含噪声或低分辨率的。具体来说,类激活图通过计算cnns模型的目标层激活图的加权组合输出与输入图像所对应的热图。此外,cam常用于图像分类任务中,可以被看做每个像素对预测类别得分的贡献,通过可视化将对应类别的高贡献值像素进行显示表达。因此,在这项工作中关键在于如何获得像素级输入对于网络预测得分的贡献占比,从而突显网络模型对于输入图像最关注的区域。

4、近年来,对于深度卷积神经网络的可视化类激活图的方法层出不穷,其中包括,cam,grad-cam,grad-cam++,xgrad-cam,score-cam,group-cam,extended-cam等。其中大致分为两种类型:一种是基于梯度与激活图的线性加权平均,最后获得预测类别显著图的可视化方法,然而这些方法受到激活图分辨率以及梯度无关噪声信息等影响,使得生成的显著图分辨率过低或噪声过多。另一种是通过使用大量高斯扰动输入图像以获得组合,从而联合扰动结果生成最终的显著图。然而这些方法最大问题是消耗计算量较大,且结果细粒度不高。以上方法虽然能够取得较好的实验结果,但是在目标层获取激活图后,由于卷积结果的尺寸限制,映射到原始图像大小时出现显著图细粒度不够、噪声信息明显的问题。

5、针对上述问题,申请人的研究团队曾研发出“一种基于上采样机制和类激活映射的图像分类结果特征可视化方法”(申请号202310400157.2)。该方法虽然能在一定程度上减少了噪声,使分辨率提高,但其基于对得到的激活图进行池化和高斯上采样加权特征融合的步骤,会耗费较多时间,增加整体的时间成本。

6、故申请人希望能研发出一种方法,既能解决现有的cam方法中给出非目标区域带来无用梯度所导致的显著性图中包含不相关区域噪声、激活图的生成细粒度受限等问题,又能减少整体的时间成本,使效率更高。

技术实现思路

1、针对上述问题,本发明的目的在于解决现有技术中的一部分问题,或至少缓解这些问题。

2、一种新型基于信息熵采用池化和高斯上采样的加权特征融合cam方法,包括以下步骤:

3、将原始输入图片进行图片预处理,得到预处理后的输入图片;

4、将所述输入图片输入图像分类模型,保存模型判断图片最大类别索引为指定目标索引的图片进行前向传播,得到特征图;

5、从目标卷积层中提取得到所述特征图对应的特征图集合;

6、针对指定目标索引将所述特征图进行反向传播,并从目标卷积层中提取所述特征图对应的梯度矩阵集合;

7、针对所述特征图集合中的每张激活图进行高斯上采样和池化操作得到放大和缩小后的特征图集合,以获得三种不同尺度的激活图集合;

8、基于信息熵将三种不同尺度的激活图集合的信息融合,得到优化的激活图集合;

9、将优化的激活图集合和梯度矩阵集合上采样到原始输入图片分辨率,并按通道顺序累加后取平均,得到融合后特征图和融合后梯度矩阵;

10、将融合后梯度矩阵进行全局平均池化以作为权重;

11、将所述权重和融合后特征图按通道顺序对应相乘,得到初始掩膜集合;

12、将通道数平均划分为g组,将初始掩膜集合的初始掩膜按照通道相邻原则分组并累加得到掩膜,并将掩膜进行归一化处理,得到归一化处理后的掩膜m′l;

13、将输入图片进行高斯模糊后得到高斯模糊图片并将输入图片i、归一化处理后的掩膜m′l、高斯模糊图片按照计算公式计算得到扰动图片i′l;

14、将扰动图片i′l和高斯模糊图片输入图像分类模型中,获得目标类别索引的概率分数和掩膜权重

15、将所述掩膜权重和归一化处理后的掩膜m′l线性加权组合,并经过归一化得到显著图。

16、将所述输入图片输入图像分类模型,保存模型判断图片最大类别索引为指定目标索引的图片进行前向传播,得到特征图,包括如下步骤:

17、将输入图片数据集中的n张图片依次输入图像分类模型;

18、经过前向传播得到每张图片对应输出分数fc(i),作为softmax层之前的输出;其中,softmax层被用作神经网络输出层的激活函数;

19、指定目标类别索引c,将图像分类模型判断最大类别索引是目标类别索引的图片记为有效图片予以保留,以得到特征图;其他记为无效图片丢弃;所述无效图片的数量为d。

20、所述梯度矩阵集合g为:

21、

22、其中,a为特征图集合。

23、针对所述特征图集合中的每张激活图进行高斯上采样,得到高斯上采样agaussian:

24、

25、其中,x和y是一个像素的二维点,u,v=14,ω,h=224,和是2d高斯标准偏差。

26、针对所述特征图集合中的每张激活图进行池化操作,得到下池化apooling:

27、a{pooling}=pooling2d(a)

28、

29、式中,x为输入矩阵,(i,j)为池化窗口左上角的坐标,s是池化窗口的大小。

30、基于信息熵将三种不同尺度的激活图集合的信息融合,得到优化的激活图集合,包括如下步骤:

31、基于信息熵来计算每个尺度的激活图的权重

32、

33、其中,p(ai)是随机变量x取值ai的概率;

34、基于信息熵权重对下池化apooling,高斯上采样agaussian和特征图集合a进行加权平均,得到优化的激活图amodified:

35、

36、式中,h1,h2,h3为不同尺度激活图的信息熵权重。

37、所述初始掩膜集合中的初始掩膜mk为:

38、

39、其中,mk表示k个通道的掩模模式;是指对目标类别c的第k个通道的权重;

40、g组的初始掩膜ml为:

41、

42、其中,k为目标层特征图的通道数,l∈[0,1,…,g-1],e=k/g是每一组中的特征图的数量。

43、所述扰动图片i′l的计算公式为:

44、

45、其中,⊙是点乘运算,即对应像素位置直接相乘。

46、将扰动图片i′l和高斯模糊图片输入图像分类模型中,获得目标类别索引的概率分数和掩膜权重包括以下步骤:

47、将所有扰动图片i′l输入到图像分类模型中,得到对应的目标类别索引c的概率分数fc(i′l);

48、将高斯模糊后的图片输入到图像分类模型中,得到对应的目标类别索引c的概率分数

49、经过公式计算得到归一化处理后的掩膜m′l的权重

50、

51、使用relu在wpg-cam上进行以下处理:

52、

53、其中,relu是激活函数。

54、一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的新型基于信息熵采用池化和高斯上采样的加权特征融合cam方法的步骤。

55、本发明具有如下有益效果:

56、1、本发明可以有效地降低显著性映射中的噪声,提供更高分辨率的类映射,并专注于任务中感兴趣的目标区域,方法通过加权平均得到校正后的激活地图,其步骤耗费的时间少,减少了整体的时间成本;

57、2、本发明可以用于对图像分类卷积神经网络的预测结果进行特征可视化分析和分析神经网络的学习的特征模式,从而帮助相关开发人员进行调试。

本文地址:https://www.jishuxx.com/zhuanli/20240914/294708.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。