技术新讯 > 计算推算,计数设备的制造及其应用技术 > 图像分类装置、图像分类方法和图像分类程序、以及图像特征学习装置、图像特征学习方法和图像特征学习程序与流程 > 正文

图像分类装置、图像分类方法和图像分类程序、以及图像特征学习装置、图像特征学习方法和图像特征学习程序与流程

国知局
2024-09-11 14:37:44

本发明涉及图像分类技术和图像特征学习技术。

背景技术：

1、人能够通过长期的经验来学习新的知识，并能够维持不忘记过去的知识。另一方面，卷积神经网络(convolutional neural network(cnn))的知识依赖于学习中使用的数据集，为了适应数据分布的变化，需要对数据集整体进行cnn的参数的再学习。在cnn中，随着对新的任务进行学习，对过去的任务的推测精度降低。这样，如果在cnn中进行连续学习，则无法避免在新任务的学习中忘记过去任务的学习结果的灾难性遗忘(catastrophicforgetting)。

2、作为避免灾难性遗忘的方法，提出了持续学习(incremental learning或continual learning)。持续学习是指在产生了新的任务、新的数据时，不是从最初起学习模型，而是改善当前的学习完毕的模型来进行学习的学习方法。

3、另外，人能够从少量图像学习新的知识。另一方面，利用了使用卷积神经网络等深度学习的人工智能依赖于在学习中使用的大数据(大量的图像)。已知当以少量图像学习利用了深度学习的人工智能时，陷入局部性能良好但泛化性能差的过度拟合。

4、作为避免过度拟合的方法，提出了少样本学习(few shot learning)。少样本学习是在基本任务中利用大数据学习基本知识、利用基本知识从新任务的少量图像学习新知识的学习方法。

5、作为解决持续学习和少样本学习两者的问题的方法，有少样本类附加学习(fewshot class incremental learning)(非专利文献1)。另外，作为少样本学习的一个方法，有利用特征向量与权重向量的余弦距离的技术(非专利文献2)。

6、现有技术文献

7、非专利文献

8、非专利文献1：tao,xiaoyu,et al.“few-shot class-incremental learning.”proceedings of the ieee/cvf conference on computer vision and patternrecognition.2020.

9、非专利文献2：chen,wei-yu,et al.“a closer look at few-shotclassification.”arxiv preprint arxiv:1904.04232(2019).

技术实现思路

1、在现有技术中，存在相对于附加的学习或者少量图像的学习而图像的分类精度不够高的课题。

2、本发明是鉴于这样的状况而完成的，其目的在于提供一种能够针对附加的学习或者少量图像的学习提高图像的分类精度的图像分类技术以及图像特征学习技术。

3、为了解决上述课题，本实施方式的某个方式的图像分类装置包含：特征提取部，其提取输入图像的低分辨率的概要特征向量和高分辨率的详细特征向量；概要特征测距部，其保持各类的概要权重向量，根据所述概要特征向量和所述概要权重向量计算概要距离向量；详细特征测距部，其保持各类的详细权重向量，根据所述详细特征向量和所述详细权重向量计算详细距离向量；特征距离合成部，其将所述概要距离向量和所述详细距离向量合成而计算合成距离向量；以及分类部，其根据所述合成距离向量决定所述输入图像的类别。

4、本实施方式的其他方式也是图像分类装置。该装置包括：特征提取部，被配置为提取输入图像的特征向量；特征频率变换部，被配置为将特征向量转换到频域以生成低频特征向量和高频特征向量；低频特征测距部，被配置为保持每个类别的低频权重向量，并且根据低频特征向量和低频权重向量计算低频距离向量；高频特征测距部，被配置为保持每个类别的高频权重向量，并且根据高频特征向量和高频权重向量计算高频距离向量；特征距离合成部，被配置为合成低频距离向量和高频距离向量以计算合成距离向量；以及分类部，被配置为基于合成距离向量确定输入图像的类别。

5、本实施方式的又一方式也是图像分类装置。该装置包括：滤波器部，其将输入图像转换为频域以将输入图像划分为低频分量和高频分量；低频特征提取部，其从低频分量中提取低频特征向量；高频特征提取部，其从高频分量中提取高频特征向量；低频特征测距部，其保持每个类别的低频权重向量，并且从低频特征向量和低频权重向量计算低频距离向量；高频特征测距部，其保持每个类别的高频权重向量，并且从高频特征向量和高频权重向量计算高频距离向量；特征距离合成部，其合成低频距离向量和高频距离向量以计算合成距离向量；以及分类部，其基于合成距离向量确定输入图像的类别。

6、本实施方式的又一方式是图像分类方法。该方法包括：特征提取步骤，提取输入图像的低分辨率的概要特征向量和高分辨率的详细特征向量；概要特征测距步骤，保持各类的概要权重向量，根据上述概要特征向量和上述概要权重向量计算概要距离向量；详细特征测距步骤，保持各类的详细权重向量，根据上述详细特征向量和上述详细权重向量计算详细距离向量；特征距离合成步骤，合成上述概要距离向量和上述详细距离向量来计算合成距离向量；以及分类步骤，根据上述合成距离向量决定上述输入图像的类别。

7、为了解决上述课题，本实施方式的某个方式的图像分类装置包含：特征提取部，其提取输入图像的特征向量；基本类的特征测距部，其保持基本类的权重向量，根据所述特征向量和所述基本类的权重向量计算基本类的距离向量；附加类的特征测距部，其保持附加类的权重向量，根据所述特征向量和所述附加类的权重向量计算附加类的距离向量；缩放部，其使用根据所述基本类的距离向量和所述附加类的距离向量计算出的缩放值，对所述附加类的距离向量进行缩放；以及分类部，其根据所述基本类的距离向量和缩放后的所述附加类的距离向量，决定所述输入图像的类。

8、特征提取部可以提取输入图像的低分辨率概要特征向量和高分辨率详细特征向量。各类别的所述特征测距部可以包括：概要特征测距部，保持各类别的概要权重向量，根据所述概要特征向量和所述概要权重向量计算概要距离向量；以及详细特征测距部，保持各类别的详细权重向量，根据所述详细特征向量和所述详细权重向量计算详细距离向量。

9、所述图像分类装置还可以包括特征频率变换部，用于将所述特征向量变换到频域以生成低带特征向量和高带特征向量。每个类别的特征测量部可以包括：低频特征测量部，其保存每个类别的低频权重向量，并且根据低频特征向量和低频权重向量计算低频距离向量；以及高频特征测量部，其保存每个类别的高频权重向量，并且根据高频特征向量和高频权重向量计算高频距离向量。

10、图像分类装置还可以包括滤波器部，该滤波器部将输入图像转换为频域并将其划分为低频分量和高频分量。所述特征提取部可以包括：低频特征提取部，用于从所述低频分量中提取低频特征向量；以及高频特征提取部，用于从所述高频分量中提取高频特征向量，其中，各类别的所述特征测距部可以包括：低频特征测距部，用于保持各类别的低频权重向量，并且根据所述低频特征向量和所述低频权重向量来计算低频距离向量；以及高频特征测距部，用于保持各类别的高频权重向量，并且根据所述高频特征向量和所述高频权重向量来计算高频距离向量。

11、图像分类装置还可以包括学习部，该学习部针对基本类别的输入图像学习特征提取部和基本类别的特征距离测量部，并且针对附加类别的输入图像学习附加类别的特征距离测量部，使得从距离向量和输入图像的正解类别计算的损失最小化。

12、本实施方式的另一方式是图像分类方法。该方法包括：特征提取步骤，提取输入图像的特征向量；基本类的特征测距步骤，保持基本类的权重向量，根据所述特征向量和所述基本类的权重向量来计算基本类的距离向量；附加类的特征测距步骤，保持附加类的权重向量，根据所述特征向量和所述附加类的权重向量来计算附加类的距离向量；缩放步骤，使用基于所述基本类的距离向量和所述附加类的距离向量而计算的缩放值来缩放所述附加类的距离向量；以及分类步骤，基于所述基本类的距离向量和缩放后的所述附加类的距离向量来决定所述输入图像的类。

13、为了解决上述课题，本实施方式的某个方式的图像特征学习装置具有：特征提取部，其提取输入图像的低分辨率的概要特征向量和高分辨率的详细特征向量；以及概要特征测距部，其保持各类的概要权重向量，根据所述概要特征向量和所述各类的概要权重向量计算概要距离向量，详细特征测距部，保持各类别的详细权重向量，根据所述详细特征向量和所述各类别的详细权重向量计算详细距离向量；以及概要损失计算部，根据所述概要距离向量和所述输入图像的正确标签计算概要损失，根据所述详细距离向量和所述输入图像的正确标签计算详细损失，在对所述概要损失和所述详细损失进行加权时，使所述概要损失的权重大于所述详细损失的权重，损失加权加法部，其将加权后的所述概要损失与加权后的所述详细损失相加来计算合计损失，最优化部，其基于所述合计损失来学习所述特征提取部、所述概要特征测距部以及所述详细特征测距部。

14、本实施例的另一个方面是一种图像特征学习方法。该方法包括：特征提取步骤，提取输入图像的低分辨率的概要特征向量和高分辨率的详细特征向量；以及概要特征测距步骤，保持各类的概要权重向量，根据所述概要特征向量和所述各类的概要权重向量计算概要距离向量，详细特征测距步骤，保持各类别的详细权重向量，根据所述详细特征向量和所述各类别的详细权重向量计算详细距离向量；概要损失计算步骤，根据所述概要距离向量和所述输入图像的正确标签计算概要损失，详细损失计算步骤，根据所述详细距离向量和所述输入图像的正确标签计算详细损失；以及，包括：损失相加步骤，将加权后的所述概要损失与加权后的所述详细损失相加来计算合计损失；以及最优化步骤，基于所述合计损失来学习所述特征提取步骤、所述概要特征测距步骤以及所述详细特征测距步骤的参数。

15、另外，将以上的构成要素的任意组合、本实施方式的表现在方法、装置、系统、记录介质、计算机程序等之间进行变换后的方式，作为本实施方式的方式也是有效的。

16、根据本实施方式，能够提供能够针对附加的学习或少量图像的学习提高图像的分类精度的图像分类技术。