基于神经网络多专家分层逻辑融合的长尾图像识别方法
- 国知局
- 2024-10-09 14:47:29
本发明涉及模式识别及计算机视觉的,尤其是指一种基于神经网络多专家分层逻辑融合的长尾图像识别方法。
背景技术:
1、在人工智能领域,尤其是在图像识别、语音识别和自然语言处理等任务中,神经网络技术由于其出色的特征提取和模式识别能力,已成为主流方法。然而,在实际应用中,数据通常呈现长尾分布,即少数类别包含大量样本,而多数类别仅包含少量样本。数据的不均衡性常导致标准神经网络模型的识别性能下降,特别是在面对稀有事件或对象的分类任务时。
2、现有的技术多采用重采样、成本敏感学习或传统的数据平衡策略来解决长尾分布问题,类别重采样通过过采样少数类别或欠采样多数类别来平衡数据集,而成本敏感学习通过调整分类损失函数,赋予少数类别更高的错误分类成本,但这些方法往往会引入额外的噪声或导致模型过于关注少数类别,从而影响整体性能。一些研究聚焦于引入注意力机制、特征融合等,以增强模型对不频繁类别的识别能力。然而,这些方法未能充分利用数据的内在层次结构和类别之间的相关性,有时在增加模型复杂性的同时,仍然未能有效提升模型对长尾数据的处理能力。
3、另外,多模型或集成学习方法提出通过组合多个分类器的决策来提高识别性能。例如,bagging和boosting算法通过多个学习器的集成减少模型的方差或偏差。但是,现有集成方法往往没有考虑到各个分类器之间的逻辑关系,尤其是在处理长尾数据时,未能有效整合多个分类器的知识以弥补数据不足,因而在特定长尾场景下的性能提升有限。
4、最近的一些进展涉及到专家系统的设计,所谓的“专家系统”是指一系列训练有素的网络,每个网络针对特定的数据子集进行优化。在长尾识别任务中,可以设计专家网络针对长尾分布中的稀有类别进行专门化训练。然而,如何整合这些专家网络的知识,使之协同工作,是一个值得探索的问题。
技术实现思路
1、本发明的目的在于克服现有技术的不足,提供了一种基于神经网络多专家分层逻辑融合的长尾图像识别方法,可有效增强网络对长尾图像数据集中少数类图像的识别能力,并促进网络浅层与深层参数的协同更新。
2、为实现上述目的,本发明所提供的技术方案为:基于神经网络多专家分层逻辑融合的长尾图像识别方法,该方法是基于结合了多专家分层逻辑融合技术的神经网络实现长尾图像的有效识别,该神经网络包含一个多分支特征提取网络、两个多专家分层逻辑融合模块和作为分类器的全连接层,所述多分支特征提取网络包含一个共享的主干网络和三个独立的专家网络,所述共享的主干网络包含两个残差卷积模块,每个专家网络仅包含一个残差卷积模块,两个多专家分层逻辑融合模块用于将共享的主干网络的浅层逻辑输出与前两个专家网络的深层逻辑输出进行融合,逻辑融合能够有效增强网络对长尾图像数据集的识别能力,同时在专家网络的融合逻辑输出之间使用相互学习方法,相互学习不仅能促进三个专家网络传递信息并提升彼此的性能,也能促进主干网络参数的协同更新;
3、所述基于神经网络多专家分层逻辑融合的长尾图像识别方法的具体实施,包括:
4、将获取的长尾图像输入训练好的结合了多专家分层逻辑融合技术的神经网络进行以下操作:
5、长尾图像首先输入多分支特征提取网络,通过共享的主干网络的第一个残差卷积模块生成第一张浅层特征图,随后第一张浅层特征图输入共享的主干网络的第二个残差卷积模块,提取出第二张浅层特征图,第二张浅层特征图接着并行地输入到三个专家网络中,每个专家网络都通过一个残差卷积模块生成一张深层特征图;
6、在完成特征提取后,通过多专家分层逻辑融合模块将共享的主干网络的浅层逻辑输出与前两个专家网络的深层逻辑输出进行融合:首先,将所有输入多专家分层逻辑融合模块的特征图转化为逻辑输出,共享的主干网络的两张浅层特征图经由全连接层转化为两个浅层逻辑输出,三个专家网络的三张深层特征图经由全连接层转化为三个深层逻辑输出,然后通过第一个多专家分层逻辑融合模块将第一个浅层逻辑输出与第一个专家网络的深层逻辑输出进行融合,生成第一个专家网络的融合逻辑输出,通过第二个多专家分层逻辑融合模块将第二个浅层逻辑输出与第二个专家网络的深层逻辑输出进行融合,生成第二个专家网络的融合逻辑输出,而第三个专家网络的融合逻辑输出即为第三个专家网络的深层逻辑输出;
7、在获取到三个专家网络的融合逻辑输出后,进行网络的预测推理,在预测推理阶段,对三个专家网络的融合逻辑输出求均值,生成最终的融合逻辑输出,即网络的长尾图像类别的预测结果。
8、进一步,所述张浅层特征图和深层特征图的生成过程表示为:
9、fs1=θ1(x)
10、fs2=θ2(θ1(x))
11、f1=θ3_1(θ2(θ1(x)))
12、f2=θ3_2(θ2(θ1(x)))
13、f3=θ3_3(θ2(θ1(x)))
14、式中,θ1、θ2分别表示共享的主干网络中第一个和第二个残差卷积模块的参数表示,θ3_1、θ3_2和θ3_3分别表示第一个、第二个和第三个专家网络中残差卷积模块的参数表示,x表示输入长尾图像,fs1表示共享的主干网络的第一张浅层特征图,fs2表示共享的主干网络的第二张浅层特征图,f1、f2和f3分别表示第一个、第二个和第三个专家网络生成的深层特征图。
15、进一步,三个专家网络的融合逻辑输出的生成过程表示为:
16、
17、式中,和分别表示三个专家网络的融合逻辑输出,α1、α2都表示超参数,fc表示全连接层,用于将特征图转变为逻辑输出。
18、进一步,在训练阶段,通过向损失函数中引入相互学习,进一步提升三个专家网络的性能;
19、所述神经网络的损失函数l表示如下:
20、
21、式中,x、y分别表示输入长尾图像和标签,和分别表示第i个和第m个专家网络的融合逻辑输出,d表示训练数据集,m表示网络设定的专家数,kl表示计算两个融合逻辑输出间的蒸馏损失的函数,用于实现相互学习;
22、在预测推理阶段,对三个专家网络的融合逻辑输出求均值,生成最终的融合逻辑输出,即网络的长尾图像类别的预测结果;
23、所述最终的融合逻辑输出的生成过程表示为:
24、
25、式中,output表示最终的融合逻辑输出,即网络的长尾图像类别的预测结果。
26、本发明与现有技术相比,具有如下优点与有益效果:
27、1、增强了网络对不同长尾图像数据分布的适应能力。在传统的神经网络中,单一网络可能因为长尾图像数据集中的长尾效应而导致对长尾图像数据集的尾部类图像的识别能力不足,多专家网络可以针对不同的图像数据子集自适应的特化网络,从而在整体上提升对尾部类图像的预测准确性。
28、2、浅层和深层逻辑输出的融合策略有效地解决了信息丢失问题。在本发明中,低层网络捕获的细节信息经过层层传递和融合,能够在不同层级的网络上进行优化和调整,这有助于提取长尾图像中更加深层次的特征,从而提高网络的识别能力。
29、3、多专家网络的相互学习提高了网络整体的泛化能力。每个专家网络不仅从训练数据中学习,还通过模仿其它专家网络的预测来校正和优化自身的逻辑输出,不同专家网络之间的信息融合,使得每个专家网络都能从其它专家网络中学习到不同角度的知识,进一步增强网络整体的泛化能力。
本文地址:https://www.jishuxx.com/zhuanli/20241009/306521.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。