技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于提示词学习的图像分类方法、装置、设备及介质 > 正文

基于提示词学习的图像分类方法、装置、设备及介质

国知局
2024-07-31 23:21:18

本发明涉及图像分类，尤其涉及一种基于提示词学习的图像分类方法、装置、设备及介质。

背景技术：

1、随着信息技术的发展，图像的应用越来越广泛，例如对于不同缺陷类型的工业产品的图像识别和分类。其中，如何快速准确地对图像进行分类和标注，以便后续对图像识别进行训练是非常重要的。

2、传统的图像分类主要是利用人工通过关键字对图像进行标注和分类，但是这种方式是非常耗费人力和时间的。相关技术中还通过将预训练的模型迁移到下游任务中进行图像分类，但是在迁移和训练的过程中，会影响原有的模型，削弱原有模型的表征能力，降低模型的性能，难以快速准确地实现图像分类。

技术实现思路

1、本发明实施例提供了一种基于提示词学习的图像分类方法、装置、设备及介质，以快速准确地实现图像分类。

2、第一方面，本发明实施例提供了一种基于提示词学习的图像分类方法，包括：

3、获取待分类图像、预设的多个标签和每个标签对应的多个初始提示词；

4、分别将每个标签和对应的多个初始提示词输入至预设分类模型的文本编码器中，得到所述文本编码器输出的每个标签对应的第一文本向量；

5、利用预设通道因子，对每个标签对应的第一文本向量进行调整，获得每个标签对应的第二文本向量；其中，所述预设通道因子用于修正所述文本编码器输出的文本向量的偏移；

6、根据待分类图像对应的第一图像向量，以及每个标签对应的第二文本向量，确定所述待分类图像与每个标签的相似度；

7、基于所述待分类图像与每个标签的相似度，对所述待分类图像进行分类。

8、在一种可能的实现方式中，所述预设分类模型还包括图像编码器；

9、在所述根据待分类图像对应的第一图像向量，以及每个标签对应的第二文本向量，确定所述待分类图像与每个标签的相似度之前，还包括：

10、将所述待分类图像输入所述预设分类模型的图像编码器中，得到所述图像编码器输出的所述待分类图像对应的第二图像向量；

11、利用所述预设通道因子，对所述第二图像向量进行调整，获得所述待分类图像对应的第一图像向量；其中，所述预设通道因子还用于修正所述图像编码器输出的图像向量的偏移。

12、在一种可能的实现方式中，在所述利用预设通道因子，对每个标签对应的第一文本向量进行调整，获得每个标签对应的第二文本向量之前，还包括：

13、获取训练样本，所述训练样本包括多个样本图像、多个标签、每个标签对应的初始提示词，以及每个样本图像与每个标签的真实相似度；

14、分别将每个样本图像、每个标签和对应的初始提示词输入至所述预设分类模型中，得到所述预设分类模型中输出的每个样本图像与每个标签的预测相似度；

15、基于每个样本图像与每个标签的预测相似度，以及每个样本图像与每个标签的真实相似度，确定所述预设通道因子。

16、在一种可能的实现方式中，文本向量包括多个维度的文本元素，图像向量包括多个维度的图像元素，所述预设通道因子包括多个维度的通道因子；

17、所述根据待分类图像对应的第一图像向量，以及每个标签对应的第二文本向量，确定所述待分类图像与每个标签的相似度，包括：

18、针对每个标签，根据该标签对应的第二文本向量中每一维度的文本元素、所述第一图像向量中对应维度的图像元素和对应维度的预设通道因子，计算所述待分类图像与该标签在每一维度上的相似分值；

19、根据所述待分类图像与每个标签在每一维度上的相似分值，分别计算所述待分类图像与每个标签的相似度。

20、在一种可能的实现方式中，基于每个样本图像与每个标签的预测相似度，以及每个样本图像与每个标签的真实相似度，确定所述预设通道因子，包括：

21、基于每个样本图像与每个标签的预测相似度，以及每个样本图像与每个标签的真实相似度，确定所述预设分类模型的损失函数值；

22、确定通道因子是否满足预设要求，其中，所述预设要求根据所述损失函数值设置；

23、若不满足预设要求，则根据梯度下降法和所述预设分类模型的损失函数，调整通道因子，并重新执行所述分别将每个样本图像、每个标签和对应的初始提示词输入至所述预设分类模型中的步骤，直至满足预设要求，得到最优通道因子，并将最优通道因子确定为预设通道因子。

24、在一种可能的实现方式中，所述文本编码器包括多个转换层，每个转换层中设置深度提示词；

25、将每个标签和对应的多个初始提示词输入至预设分类模型的文本编码器中，得到所述文本编码器输出的每个标签对应的第一文本向量，包括：

26、将每个标签转换为向量，并在该向量上拼接初始提示词，得到待输入向量；

27、将每个标签的待输入向量输入至预设分类模型的文本编码器中的第一个转换层，使所述待输入向量拼接上该转换层中设置的深度提示词，得到第一拼接向量，并输入至下一个转换层，直至得到最后一个转换层输出的第二拼接向量；

28、基于每个标签的第二拼接向量，得到所述文本编码器输出的每个标签对应的第一文本向量。

29、在一种可能的实现方式中，所述文本编码器包括多个转换层，每个转换层中设置深度提示词；

30、将每个标签和对应的多个提示词输入至预设分类模型的文本编码器中，得到所述文本编码器输出的每个标签对应的第一文本向量，包括：

31、将每个标签转换为向量，并在该向量上拼接初始提示词，得到待输入向量；

32、将每个标签的待输入向量输入至预设分类模型的文本编码器中的第一个转换层，以去掉所述待输入向量中预设数量的元素，并拼接上该转换层中设置的深度提示词，得到第三拼接向量，并输入至下一个转换层，直至得到最后一个转换层输出的第四拼接向量；

33、基于每个标签的第四拼接向量，得到所述文本编码器输出的每个标签对应的第一文本向量。

34、第二方面，本发明实施例提供了一种基于提示词学习的图像分类装置，包括：

35、获取模块，用于获取待分类图像、预设的多个标签和每个标签对应的多个初始提示词；

36、编码模块，用于分别将每个标签和对应的多个初始提示词输入至预设分类模型的文本编码器中，得到所述文本编码器输出的每个标签对应的第一文本向量；

37、修正模块，用于利用预设通道因子，对每个标签对应的第一文本向量进行调整，获得每个标签对应的第二文本向量；其中，所述预设通道因子用于修正所述文本编码器输出的文本向量的偏移；

38、计算模块，用于根据待分类图像对应的第一图像向量，以及每个标签对应的第二文本向量，确定所述待分类图像与每个标签的相似度；

39、分类模块，用于基于所述待分类图像与每个标签的相似度，对所述待分类图像进行分类。

40、第三方面，本发明实施例提供了一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上第一方面或第一方面的任一种可能的实现方式所述的方法的步骤。

41、第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上第一方面或第一方面的任一种可能的实现方式所述的方法的步骤。

42、本发明实施例与现有技术相比存在的有益效果是：

43、本发明实施例通过将每个标签和对应的多个初始提示词输入至文本编码器，得到每个标签对应的第一文本向量，以及利用预设通道因子对每个标签对应的第一文本向量进行调整，得到每个标签对应的第二文本向量，再根据待分类图像对应的第一图像向量，每个标签对应的第二文本向量，计算所述待分类图像与每个标签的相似度，可以充分考虑在预设分类模型迁移至具体的图像分类任务时，如不同种类的猫的分类，第一文本向量中每个维度的偏移，利用预设通道因子可以减少维度上的偏移，提高第二文本向量中重要的特征的权重，减少区分度不大的特征的权重，提高文本空间和图像空间的一致性，并且可以保证原有的预设分类模型的表征能力，从而提高计算待分类图像与每个标签的相似度的准确性，以便后续根据相似度准确地进行图像分类。