技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于级联融合与相关性增强的知识蒸馏方法与系统  >  正文

一种基于级联融合与相关性增强的知识蒸馏方法与系统

  • 国知局
  • 2024-08-05 11:39:46

本发明涉及深度学习模型压缩,具体涉及一种基于级联融合与相关性增强的知识蒸馏方法与系统。

背景技术:

1、近年来,随着大规模有标注数据集的可用性大幅增加与图形处理单元(gpu)的广泛应用,深度学习得到了快速发展,在解决复杂问题上的卓越能力使其成为了人工智能领域新兴的研究方向。其中卷积神经网络(convolutional neural network,cnn)在图像分类、目标检测和语义分割等计算机视觉任务上的成功应用使其成为了计算机视觉和人工智能领域的重要里程碑。

2、然而,基于cnn的深度学习模型实际部署仍然存在障碍。为了获得模型精度的提升,往往通过增加cnn模型深度和通道数的方式,但这也造成了模型参数量和计算量呈指数级的增加。同时,巨额的计算量带来了不能忽视的推理延时和能耗。在实际应用中,如医学影像诊断、自动驾驶车辆感知和人机交互表情识别等,模型需要被部署在终端和边缘设备上,而这些设备都存在着局限性:计算能力相对较低,限制了能够在设备上执行的复杂计算任务的类型和规模,会对深度学习等计算密集型任务的实时性产生挑战;存储容量有限,无法存储大规模模型;由移动式电源供电或有严格的能源预算,设备无法以高功率持续运行。考虑到这些限制,基于cnn的高精度模型将无法直接应用到实际生产中,因此,如何压缩cnn模型的参数量和计算量,成为了深度学习实际应用中亟需解决的问题。

3、深度学习模型压缩算法通过减小深度学习模型的参数量和计算量以提高在受限环境中的部署效率,主要包括剪枝、量化、轻量化网络设计和知识蒸馏。剪枝通过去除模型中的冗余连接或神经元来提高模型的效率,在剪枝后,通常需要通过微调以保持性能,因此非常耗时。量化通过减少模型参数位数来降低模型存储空间和计算复杂度,而模型参数的精度降低也影响了模型的性能。轻量化网络设计是指直接改进网络结构使其变得精简高效,往往需要大量的实验才能设计出有效的方案。知识蒸馏通过训练一个复杂的教师模型,该模型通常拥有较高的性能和更复杂的结构,然后将教师网络中的知识传递到精简的学生网络,使得精简学生网络利用较少的参数就能逼近复杂教师网络的性能,达到在实际部署中替代复杂教师网络的目的。

4、知识蒸馏主要包括三种:(1)经典知识蒸馏:从复杂的高性能教师网络将知识传递给精简学生网络;(2)协作知识蒸馏:具有相同架构的网络之间相互学习;(3)自我知识蒸馏:一个网络从自身的知识中学习。hinton等人首先提出了通过使用教师网络的响应来指导学生网络的训练,之后的研究则进一步探索了知识的广泛来源。cnn的多层卷积操作提供了丰富的多尺度特征,浅层的大尺度特征提供了丰富的位置信息和低级特征,深层的小尺度特征则提供了抽象的语义信息和高级特征。早期的研究主要关注在教师和学生两者之间相同尺度的中间层传递知识,这些一一对应的中间层由人为指定,但由于很难确定学生网络在不同阶段所需要的知识来源于教师的哪些阶段,因此这种方式可能会导致不恰当的知识传递。chen等人提出了多尺度特征知识蒸馏,即通过建立密集连接路径,并为每条路径分配注意力权重和损失函数,实现师生网络不同尺度特征之间的知识传递,但过多的路径导致了臃肿的整体损失,且损失函数数量会随着网络阶段的增加而增加,增加了学生网络的优化难度。除了特征知识外,关系知识也是知识蒸馏的来源之一。关系知识指的是网络输入的小批量样本之间的相似性关系,在现有工作中表现为样本的类内相似性和类间相似性,相比于传递教师网络的响应知识,样本之间的相似性关系知识可以让学生网络通过学习样本的类内相似性与类间相似性以做出更准确的预测。但这种教师网络的关系知识并不一定准确,在教师网络对样本预测错误的情况下,可能会对属于同一类别的两个样本给出完全不同的预测值,导致两者之间的类内相似性较低,这种错误的关系知识传递给学生网络会反而降低其精度。

5、综上所述,相关技术的知识蒸馏存在的主要问题:(1)知识的传递路径单一:特征知识的传递往往建立在两个网络同阶段之间,学生网络某一阶段无法学习教师网络的不同阶段的多尺度特征。(2)知识挖掘不够充分:仅通过使用kl散度和交叉熵来传递样本的个体知识,忽略了样本之间的整体性关系知识,以及标签中的先验关系知识。

技术实现思路

1、本发明针对上述问题,提出了一种基于级联融合与相关性增强的知识蒸馏方法与系统,旨在通过级联的方式融合不同尺度的特征,从更简单的路径传递多尺度特征知识,降低学生网络优化难度,通过相应标签的相关性进一步增强教师响应的关系知识,使学生网络对同一类别的样本产生更相似的响应。所述方法包括:

2、1)输入图像至教师网络与学生网络,得到中间特征与以及响应zt和zs;

3、2)对学生网络特征进行融合,得到对应的融合后特征fk;

4、3)将融合后特征fk对齐到教师网络特征空间,并传递特征知识;

5、4)用教师网络响应构建批次内相似性矩阵st,用学生网络响应构建批次内相似性矩阵ss,;

6、5)用标签构建先验相似性矩阵w;

7、6)用先验相似性矩阵w增强批次内相似性矩阵st,并在ss和st之间传递关系知识。

8、可选地,所述教师网络和学生网络为卷积神经网络,包括resnet系列、vgg系列和shufflenet系列网络。

9、可选地,所述对学生网络特征进行融合,具体包括:

10、从学生网络第n阶段起,将第n阶段的特征与第n-1阶段的特征送入跨尺度融合模块,得到第n-1阶段的融合后特征fn-1;第n-1阶段的融合后特征fn-1与第n-2阶段的特征送入跨尺度融合模块,得到第n-2阶段的融合后特征fn-1;以此类推,深阶段的特征不断向浅阶段传递,与浅阶段特征融合。

11、可选地,所述的跨尺度融合模块以学生网络当前阶段的特征图与后一个融合模块的输出特征图为输入,通过交叉注意力机制来捕获两个输入特征图之间的相互依赖性,实现在向前传递过程中保留后续模块输出特征的信息;学生网络当前阶段大尺度输出特征为后一阶段跨尺度融合模块的小尺度输出特征为首先调整fk+1的维度,使用1×1卷积将fk+1的通道数调整为与相一致,然后使用上采样将fk+1的大小调整到hl×cl:

12、uk=us(conv(fk+1)),

13、上式中,conv(·)表示1×1卷积,us(·)表示双线性插值函数;然后分别对uk和进行1×1卷积操作以细化特征,再将其展平得到3个不同的特征向量

14、q=rs(convq(uk)),

15、

16、

17、上式中,n=wl×hl,rs(·)表示展平操作:conv(·)表示1×1卷积;为了建立uk和之间的相互依赖性,对q和k做矩阵乘法来实现逐像素的信息交互:

18、ak=softmax(q×kt),

19、上式中,表示对两输入每一个像素点之间的依赖程度进行编码的注意力图,softmax函数将注意力图的每一行做归一化,归一化后每一行的值在0到1之间,该行值总和为1;为了凸显中与uk的依赖程度最高的区域,将的特征向量v用注意力图ak进行特征加权并相加:

20、fk=rs(ak×v)+uk,

21、上式中,rs(·)表示变形操作:将二通道转换为三通道,+表示短路连接。

22、可选地,所述将融合后特征fk对齐到教师网络特征空间中,具体为:先用1×1卷积将fk的通道数转换为与教师网络对应阶段相一致,再使用上采样或池化操作使两者大小相一致:

23、

24、上式中,resize(·)表示变形操作:是第k个学生阶段的融合模块对齐后特征;所述传递特征知识使用l2范数距离作为损失函数,教师网络和学生网络分别拥有k个阶段:

25、

26、上式中,lfd表示特征知识蒸馏损失,为第k个阶段教师网络的中间层特征,为第k个阶段融合模块与教师特征对齐后的结果,dist(·,·)为均方差函数;由于学生网络最后一个阶段特征没有对应的跨尺度融合模块输出,直接将此阶段的学生网络特征转换到对应的相同的空间维度,并计算两者之间的均方差损失,损失函数为:

27、

28、上式中,trans(·)为转换学生特征维度的函数。

29、可选地,所述用教师网络响应构建批次内相似性矩阵st,具体为:给定有m个类别样本的数据集,一个批次中包含b个样本,将教师网络的响应zt与其转置做矩阵乘法,得到批次内相似性矩阵st;所述用学生网络响应构建批次内相似性矩阵ss,具体为:给定有m个类别样本的数据集,一个批次中包含b个样本,将学生网络的响应zs与其转置做矩阵乘法,得到批次内相似性矩阵ss:

30、s=z×zt,

31、上式中,所得到的批次内相似矩阵中第i行第j列的元素与代表着第i个样本与第j个样本之间的相似性的大小,值越大则代表相似性越大,可分为两种:(1)当两个样本属于同一个类别时,与代表类内相似性;(2)当两个样本不属于同一个类别时,与代表类间相似性。

32、可选地,所述用标签构建先验相似性矩阵w,具体为:首先对该批次样本所对应的标签y={(yi丨i=1,2,…,b)}进行独热编码:

33、h=φ(y,m),

34、上式中,φ(·)表示独热编码函数,给定有m个类别样本的数据集,一个批次中包含b个样本,首先创建一个一维向量,长度为类别数b,然后将标签的类别索引映射到一维向量中,该索引对应的位置赋1,其余位置则赋0,得到编码矩阵然后将编码矩阵h与其转置做矩阵乘法,得到很朴素的先验相似性矩阵c:

35、c=h×ht,

36、上式中,c中第i行第j列的元素cij表示第i个样本与第j个样本之间的关系,cij的值为0或1,值为0则表示两个样本不属于同一个类别,值为1则表示两个样本属于同一个类别;为获得能增强批次内相似性矩阵st的权重矩阵,首先使用一个全1矩阵o减去c得到cinter:

37、cinter=o-c,

38、上式中,cinter表示类间权重矩阵,其中每一个值为1的位置即为st中建模类间相似性的位置,再去除c中对角线上的位置用于消除样本自相似性,并乘以一个重要因子ρ用于放大st中建模的类内相似性:

39、cintra=(c-e)×ρ,

40、上式中,e表示单位矩阵,cintra表示类内权重矩阵;

41、w=cintra+cintra,

42、上式中,e表示单位矩阵,w表示先验相似性矩阵。

43、可选地,所述用先验相似性矩阵w增强批次内相似性矩阵st,具体为:使用先验相似性矩阵w与教师网络的批次内相似性矩阵st做逐元素相乘操作;所述中传递关系知识使用l2范数距离作为损失函数:

44、lsd=mse(st·w,ss),

45、上式中,lsd表示先验相似性蒸馏损失,mse(·)表示均方差函数。

46、此外,本发明还提供一种基于级联融合与相关性增强的知识蒸馏系统,至少包括微处理器和存储器,该微处理器被编程或配置以执行所述基于级联融合与相关性增强的知识蒸馏方法的步骤,或者该存储器中存储有被编程或配置以执行所述基于级联融合与相关性增强的知识蒸馏方法的计算机程序。

47、此外,本发明还提供一种计算机可读存储介质,该计算机可读存储介质中存储有被编程或配置以执行所述基于级联融合与相关性增强的知识蒸馏方法的计算机程序。

48、和现有技术相比,本发明具有下述优点:本发明方法包括输入图像至教师网络与学生网络,得到中间特征与以及响应zt和zs;对学生网络特征进行融合,得到对应的融合后特征fk;将融合后特征fk对齐到教师网络特征空间,并传递特征知识;用教师网络响应构建批次内相似性矩阵st,用学生网络响应构建批次内相似性矩阵ss;用标签构建先验相似性矩阵w;用先验相似性矩阵w增强批次内相似性矩阵st,并传递关系知识;本发明旨在通过级联的方式融合不同尺度的特征,从更简单的路径传递多尺度特征知识,降低学生网络优化难度,通过相应标签的相关性进一步增强教师响应的关系知识,使学生网络对同一类别的样本产生更相似的响应。

本文地址:https://www.jishuxx.com/zhuanli/20240802/258673.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。