技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种搜索图像的方法、装置、存储介质和电子设备与流程  >  正文

一种搜索图像的方法、装置、存储介质和电子设备与流程

  • 国知局
  • 2024-09-05 14:29:54

本申请涉及图像处理,特别是涉及一种搜索图像的方法、装置、存储介质和电子设备。

背景技术:

1、图像库是用于存储图像的数据库。图像库通常配置有多层次的目录。传统方案中,当需要从图像库中搜索目标图像时,技术人员会先利用目录的层次结构,确定可以存储目标图像的目标文件夹;确定目标文件夹后,再人为地从目标文件夹中搜索出目标图像。

2、本申请发明人发现,当图像库中存储较多图像时,图像库对应的目录结构非常复杂,此时,基于目录的层次结构找到目标文件夹是非常耗时的;即使找到目标文件夹,人为地从目标文件夹中搜索出目标图像也是非常低效的。因此,需要一种解决方案,可以高效地从图像库中搜索出目标图像。

技术实现思路

1、基于上述问题,本申请提供了一种搜索图像的方法,用于高效地从图像库中搜索出目标图像。

2、本申请第一方面提供了一种搜索图像的方法,包括:

3、通过训练好的多模态大模型,将输入数据转换为第一特征向量;所述输入数据包括查询文本和/或查询图像;

4、从图像向量库中搜索与所述第一特征向量的相似性满足预设的第一相似性条件的特征向量,作为第二特征向量;所述图像向量库基于所述训练好的多模态大模型和图像库生成;所述向量库中的向量与所述图像库中的图像一一对应;

5、将所述图像库中与所述第二特征向量对应的图像,作为与所述输入数据对应的所述目标图像。

6、在一种可选的实现方式中,所述多模态大模型的训练步骤,包括:

7、获取多个样本三元组数据;所述样本三元组数据中包括样本图像对和样本查询文本;所述样本图像对中包括样本查询图像和样本目标图像;所述样本图像对中两张图像间的相似性满足预设的第二相似性条件;所述预设的第二相似性条件指示图像相似性大于或等于第一相似性阈值或元数据相似性大于或等于第二相似性阈值;所述样本查询文本中包括描述所述样本图像对中每张图像的特征的文本;所述元数据相似性用于描述两张图像各自对应的元数据间的相似程度;所述元数据是用于描述图像的文本数据;

8、对于所述多个样本三元组数据中的每个样本三元组数据,通过第一待训练模型,将该样本三元组数据中的样本查询图像和/或样本查询文本转换为第一样本特征向量;通过第二待训练模型,将该样本三元组数据中的样本目标图像转换为第二样本特征向量;

9、根据所述第一样本特征向量和所述第二样本特征向量之间的相似性与预设的第三相似相阈值的差异,对所述第一待训练模型的网络参数和所述第二待训练模型的网络参数进行调整,直至训练结束,将训练好的第一待训练模型作为所述多模态大模型。

10、在一种可选的实现方式中,所述获取多个样本三元组数据,包括:

11、基于样本数据库的目录的层次结构,将存储于所述样本数据库中的图像划分为多个图像集合;

12、对于所述多个图像集合中的每个图像集合,若该图像集合中任意两个图像间的相似性满足所述预设的第二相似性条件,则确定所述两个图像构成所述样本图像对;

13、对于每个所述样本图像对,基于该样本图像对中两张图像各自对应的元数据,构造该样本图像对对应的样本查询文本;

14、对于每个所述样本图像对,基于该样本图像对中的两张图像和与该样本图像对对应的样本查询文本,生成所述样本三元组数据。

15、在一种可选的实现方式中,所述基于样本数据库的目录的层次结构,将存储于所述样本数据库中的图像划分为多个图像集合,包括:

16、确定所述目录中位于最底层的子目录对应的文件夹,作为目标文件夹;

17、将所述样本图像库中存储于同一个所述目标文件中的图像划分到同一个集合,得到多个图像集合。

18、在一种可选的实现方式中,所述样本图像对中两张图像间的所述元数据相似性的获取步骤,包括:

19、对于所述样本图像对中的每张图像,通过开源的多模态大模型,生成该图像的元数据;

20、通过开源的多模态大模型,基于所述样本图像对中两个样本图像各自对应的元数据,获得所述样本图像对中两张图像间的所述元数据相似性。

21、在一种可选的实现方式中,所述对于每个所述样本图像对,基于该样本图像对中两张图像各自对应的元数据,构造该样本图像对对应的样本查询文本,包括:

22、通过开源的大语言模型,基于该样本图像对各自对应的元数据,生成该样本图像对对应的样本查询文本。

23、在一种可选的实现方式中,所述将所述样本图像库中存储于同一个所述目标文件中的图像划分到同一个集合,得到多个图像集合,包括:

24、将所述样本图像库中存储于同一个所述目标文件中的图像划分到同一个集合,得到多个原始图像集合;

25、对于每个所述原始图像集合,过滤掉该原始图像集合中的重复图像和图像质量低于预设的图像质量指标的图像,得到所述多个图像集合。

26、本申请第二方面提供了一种搜索图像的装置,包括:

27、第一特征向量获取模块,用于通过训练好的多模态大模型,将输入数据转换为第一特征向量;所述输入数据包括查询文本和/或查询图像;

28、第二特征向量获取模块,用于从图像向量库中搜索与所述第一特征向量的相似性满足预设的第一相似性条件的特征向量,作为第二特征向量;所述图像向量库基于所述训练好的多模态大模型和图像库生成;所述向量库中的向量与所述图像库中的图像一一对应;

29、目标图像获取模块,用于将所述图像库中与所述第二特征向量对应的图像,作为与所述输入数据对应的所述目标图像。

30、本申请第三方面提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面任一实现方式介绍的方法的步骤。

31、本申请第四方面提供了一种电子设备,包括:

32、存储器,其上存储有计算机程序;

33、处理器,用于执行所述存储器中的所述计算机程序,以实现第一方面任一实现方式介绍的方法的步骤。

34、相较于现有技术,本申请具有以下有益效果:

35、本申请公开的搜索图像的方法,包括:通过训练好的多模态大模型,将查询文本和/或查询图像组成的输入数据转换为第一特征向量;从图像向量库中搜索与第一特征向量的相似性满足预设的第一相似性条件的特征向量,作为第二特征向量;将图像库中与第二特征向量对应的图像,作为与输入数据对应的所述目标图像。其中,图像向量库是基于训练好的多模态大模型生成的;图像向量库中的向量与图像库中的图像一一对应。

36、这样,本申请中将基于输入数据搜索目标图像的问题,转换为通过输入数据对应的第一向量,找到与目标图像对应的第二向量的问题。由于基于现有技术可以高效便捷地计算出向量间的相似性,所以采用本申请中的方案可以高效地从图像库中搜索出目标图像。

技术特征:

1.一种搜索图像的方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述多模态大模型的训练步骤,包括:

3.根据权利要求2所述的方法,其特征在于,所述获取多个样本三元组数据,包括:

4.根据权利要求3所述的方法,其特征在于,所述基于样本数据库的目录的层次结构,将存储于所述样本数据库中的图像划分为多个图像集合,包括:

5.根据权利要求2所述的方法,其特征在于,所述样本图像对中两张图像间的所述元数据相似性的获取步骤,包括:

6.根据权利要求3所述的方法,其特征在于,所述对于每个所述样本图像对,基于该样本图像对中两张图像各自对应的元数据,构造该样本图像对对应的样本查询文本,包括:

7.根据权利要求4所述的方法,其特征在于,所述将所述样本图像库中存储于同一个所述目标文件中的图像划分到同一个集合,得到多个图像集合,包括:

8.一种搜索图像的装置,其特征在于,所述装置包括:

9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。

10.一种电子设备,其特征在于,包括:

技术总结本申请公开了一种搜索图像的方法、装置、存储介质和电子设备,涉及图像处理技术领域。包括:通过训练好的多模态大模型,将查询文本和/或查询图像组成的输入数据转换为第一特征向量;从图像向量库中搜索与第一特征向量的相似性满足预设的第一相似性条件的特征向量,作为第二特征向量;将图像库中与第二特征向量对应的图像,作为与输入数据对应的所述目标图像。这样,本申请中将基于输入数据搜索目标图像的问题,转换为通过输入数据对应的第一向量,找到与目标图像对应的第二向量的问题。由于基于现有技术可以高效便捷地计算出向量间的相似性,所以采用本申请中的方案可以高效地从图像库中搜索出目标图像。技术研发人员:金越受保护的技术使用者:太保科技有限公司技术研发日:技术公布日:2024/9/2

本文地址:https://www.jishuxx.com/zhuanli/20240905/286775.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。