技术新讯 > 计算推算,计数设备的制造及其应用技术 > 图像分类模型的优化方法、装置、电子设备及存储介质与流程 > 正文

图像分类模型的优化方法、装置、电子设备及存储介质与流程

国知局
2024-07-31 23:19:33

本公开涉及图像处理人工智能，尤其涉及计算机视觉、深度学习、大模型等领域，可应用于图像处理、人工智能内容生成等场景，具体涉及图像分类模型的优化方法、装置、电子设备及存储介质。

背景技术：

1、基于数据驱动的深度学习逐渐趋向大数据和大模型方向发展，基于多模态预训练的方法可以实现文本特征和图像特征的对齐，进而使得开放类别分类方法得以实现。然而在实际应用场景，基于预训练的开放类别的分类器在特定任务上的分类效果尚不够完善。

技术实现思路

1、本公开提供了一种图像分类模型的优化方法、装置、电子设备及存储介质。

2、根据本公开的一方面，提供了一种图像分类模型的优化方法，其中，图像分类模型包括预训练的文本编码器和图像编码器，方法包括：

3、将所述文本编码器中可学习的第一提示信息通过可学习的投影函数映射为所述图像编码器的第二提示信息，以基于所述文本编码器和所述图像编码器确定目标图像的预测类别；其中，所述文本编码器处理所述目标图像的文本信息，所述文本信息基于所述目标图像的目标类别构建；所述图像编码器用于处理所述目标图像；

4、基于目标图像的预测类别和目标图像的真实类别，确定损失值；

5、在固定文本编码器和图像编码器的模型参数的情况下，基于损失值，优化第一提示信息和投影函数，以得到适应目标分类任务的图像分类模型。

6、根据本公开的另一方面，提供了一种图像分类模型的优化装置，其中，图像分类模型包括预训练的文本编码器和图像编码器，装置包括：

7、预测模块，用于将所述文本编码器中可学习的第一提示信息通过可学习的投影函数映射为所述图像编码器的第二提示信息，以基于所述文本编码器和所述图像编码器确定目标图像的预测类别；其中，所述文本编码器处理所述目标图像的文本信息，所述文本信息基于所述目标图像的目标类别构建；所述图像编码器用于处理所述目标图像；

8、损失确定模块，用于基于目标图像的预测类别和目标图像的真实类别，确定损失值；

9、调整模块，用于在固定文本编码器和图像编码器的模型参数的情况下，基于损失值，优化第一提示信息和投影函数，以得到适应目标分类任务的图像分类模型。

10、根据本公开的再一方面，提供了一种电子设备，包括：

11、至少一个处理器；以及

12、与所述至少一个处理器通信连接的存储器；其中，

13、所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行以上所述的方法。

14、根据本公开的再一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，该计算机指令用于使所述计算机执行以上所述的方法。

15、根据本公开的再一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现以上所述的方法。

16、本公开实施例提供的图像分类模型的优化方法，能够适应下游的具体分类任务，同时具备开集分类能力。

17、应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

技术特征：

1.一种图像分类模型的优化方法，其中，所述图像分类模型包括预训练的文本编码器和图像编码器，所述方法包括：

2.根据权利要求1所述的方法，其中，所述将所述文本编码器中可学习的第一提示信息通过可学习的投影函数映射为所述图像编码器的第二提示信息，以基于所述文本编码器和所述图像编码器确定目标图像的预测类别，包括：

3.根据权利要求2所述的方法，其中，所述第一提示信息中包括k组可学习参数，k为正整数；所述文本编码器中包括多个遵循transformer网络结构的文本编码模块；

4.根据权利要求3所述的方法，其中，所述图像编码器包括多个遵循transformer网络结构的图像编码模块；所述投影函数中包括k个可调整的函数项；

5.根据权利要求3所述的方法，其中所述投影函数用于实现非线性映射。

6.根据权利要求3-5中任一项所述的方法，还包括：

7.根据权利要求3-5中任一项所述的方法，还包括：

8.根据权利要求4所述的方法，其中所述函数项由至少一层全连接层构建。

9.根据权利要求3-8中任一项所述的方法，其中，所述文本编码器中的前k个文本编码模块中的各文本编码模块，满足以下条件：

10.一种图像分类模型的优化装置，其中，所述图像分类模型包括预训练的文本编码器和图像编码器，所述装置包括：

11.根据权利要求10所述的装置，其中，所述预测模块，包括：

12.根据权利要求11所述的装置，其中，所述第一提示信息中包括k组可学习参数，k为正整数；所述文本编码器中包括多个遵循transformer网络结构的文本编码模块；

13.根据权利要求12所述的装置，其中，所述图像编码器包括多个遵循transformer网络结构的图像编码模块；所述投影函数中包括k个可调整的函数项；

14.根据权利要求12所述的装置，其中所述投影函数用于实现非线性映射。

15.根据权利要求12-14中任一项所述的装置，还包括第一初始化模块，用于：

16.根据权利要求12-14中任一项所述的装置，还包括第二初始化模块，用于：

17.根据权利要求13所述的装置，其中所述函数项由至少一层全连接层构建。

18.根据权利要求12-17中任一项所述的装置，其中，所述文本编码器中的前k个文本编码模块中的各文本编码模块，满足以下条件：

19.一种电子设备，包括：

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-9中任一项所述的方法。

21.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-9中任一项所述的方法。

技术总结本公开提供了图像分类模型的优化方法、装置、电子设备及存储介质，涉及人工智能技术领域，尤其涉及计算机视觉、深度学习、大模型等领域，可应用于图像处理、人工智能内容生成等场景。具体实现方案为：将文本编码器中可学习的第一提示信息通过可学习的投影函数映射为图像编码器的第二提示信息，以基于文本编码器和图像编码器确定目标图像的预测类别；其中，文本编码器处理目标图像的文本信息；图像编码器用于处理目标图像；基于目标图像的预测类别和目标图像的真实类别，确定损失值；在固定文本编码器和图像编码器的模型参数的情况下，基于损失值，优化第一提示信息和投影函数，以得到适应目标分类任务的图像分类模型。技术研发人员：张国生,王珂尧受保护的技术使用者：北京百度网讯科技有限公司技术研发日：技术公布日：2024/7/29