图像特征提取模型的训练方法、图像检索方法及装置与流程

2022-07-10 03:34:38 来源：中国专利 TAG：

1.本公开涉及计算机技术领域，尤其涉及大数据、计算机视觉和深度学习技术领域。

背景技术：

2.随着深度学习的飞速发展，基于深度学习的图像检索技术得到了广泛应用。
3.通过图像检索技术，可以检索已知图像的相似图像，进而获取更多相关信息。

技术实现要素：

4.本公开提供了一种图像特征提取模型的训练方法、图像检索方法及装置。
5.根据本公开的一方面，提供了一种图像特征提取模型的训练方法，包括：
6.获取样本图像集，所述样本图像集包含多个具有第一标签的样本图像组，每一所述样本图像组包含多个具有第二标签的样本图像；所述第一标签表示所述样本图像组包含的样本图像是否为相同类别；所述第二标签表示所述样本图像的类别；其中，同一类别的样本图像具有相似的视觉特征且语义相同；
7.基于所述图像特征提取模型包含的第一网络结构提取所述样本图像组中样本图像的视觉语义融合特征；
8.根据所述视觉语义融合特征、所述样本图像组的第一标签以及预设的度量损失函数，计算视觉度量损失；
9.根据所述视觉语义融合特征、所述样本图像组中每一样本图像的第二标签，以及预设的分类损失函数，计算语义分类损失；
10.基于所述视觉度量损失和所述语义分类损失，对所述图像特征提取模型进行训练。
11.根据本公开的另一方面，提供了一种图像检索方法，包括：
12.获取目标图像；
13.采用预先训练的图像特征提取模型提取所述目标图像的视觉语义融合特征，基于所述视觉语义融合特征从检索库中检索相似图像；所述检索库中存储有待检索图像和检索索引；其中，所述检索索引是根据所述待检索图像的视觉语义融合特征构建的；所述待检索图像的视觉语义融合特征是预先采用所述图像特征提取模型提取的。
14.根据本公开的另一方面，提供了一种图像特征提取模型的训练装置，包括：
15.获取模块，用于获取样本图像集，所述样本图像集包含多个具有第一标签的样本图像组，每一所述样本图像组包含多个具有第二标签的样本图像；所述第一标签表示所述样本图像组包含的样本图像是否为相同类别；所述第二标签表示所述样本图像的类别；其中，同一类别的样本图像具有相似的视觉特征且语义相同；
16.特征提取模块，用于基于所述图像特征提取模型包含的第一网络结构提取所述样本图像组中样本图像的视觉语义融合特征；
17.第一计算模块，用于根据所述视觉语义融合特征、所述样本图像组的第一标签以
及预设的度量损失函数，计算视觉度量损失；
18.第二计算模块，用于根据所述视觉语义融合特征、所述样本图像组中每一样本图像的第二标签，以及预设的分类损失函数，计算语义分类损失；
19.训练模块，用于基于所述视觉度量损失和所述语义分类损失，对所述图像特征提取模型进行训练。
20.根据本公开的另一方面，提供了一种图像检索装置，包括：
21.获取模块，用于获取目标图像；
22.检索模块，用于采用预先训练的图像特征提取模型提取所述目标图像的视觉语义融合特征，基于所述视觉语义融合特征从检索库中检索相似图像；所述检索库中存储有待检索图像和检索索引；其中，所述检索索引是根据所述待检索图像的视觉语义融合特征构建的；所述待检索图像的视觉语义融合特征是预先采用所述图像特征提取模型提取的。
23.根据本公开的另一方面，提供了一种电子设备，包括：
24.至少一个处理器；以及
25.与所述至少一个处理器通信连接的存储器；其中，
26.所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行图像特征提取模型的训练方法或图像检索方法。
27.根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行图像特征提取模型的训练方法或图像检索方法。
28.根据本公开的又一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现图像特征提取模型的训练方法或图像检索方法。
29.应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
30.附图用于更好地理解本方案，不构成对本公开的限定。其中：
31.图1为本公开实施例提供的图像特征提取模型的训练方法的一种流程示意图；
32.图2是本公开实施例提供的图像特征提取模型的一种结构示意图；
33.图3为本公开实施例提供的图像检索方法的一种流程示意图；
34.图4(a)是本公开实施例提供的目标图像的一种示意图，图4(b)是采用相关技术进行图像检索的检索结果示意图，图4(c)是本公开实施例提供的图像检索结果示意图；
35.图5为本公开实施例提供的检索库构建方法的一种示意图；
36.图6为本公开实施例提供的图像检索方法的一种示意图；
37.图7是用来实现本公开实施例的图像特征提取模型的训练方法的装置的框图；
38.图8是用来实现本公开实施例的图像检索方法的装置的框图；
39.图9为本公开实施例提供的电子设备的框图。
具体实施方式
40.以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。
41.随着移动互联网的飞速发展，人们每天会接触大量数据，很多人希望从海量数据中筛选出对自己有价值的信息，比如，通过拍摄的图像来检索相似图像，从而获取与图像相关的信息，这就是常用的拍照搜索。拍照搜索的核心技术是以图搜图技术，相似图像检索是以图搜图技术的一个重要应用场景。
42.相似图像检索的目标是：返回的相似图像不仅要与检索图像相似，而且期望返回的相似图像的主体和检索图像的主体在类别上保持一致。也就是说，既要保证返回的相似图像与检索图像在视觉上相似，还要保证相似图像与检索图像的语义信息相同。
43.目前相似图像检索的相关技术方案如下：
44.首先通过视觉检索模型得到查询图像的视觉特征，然后通过语义检索模型得到查询图像的语义特征，拼接视觉特征和语义特征得到相似图检索特征，根据相似图检索特征从图库中检索预设数目的图像。
45.也就是说，需要训练一个视觉检索模型，用于提取图像的视觉特征；再训练一个语义检索模型，用于提取图像的语义特征。
46.然而，以上相关技术存在以下不足：
47.1)构造训练数据耗费资源较多：即需要针对两个模型分别挖掘不同类型的针对性训练数据。
48.2)模型训练消耗资源较多：即需要单独设计两个模型的结构，以及损失函数，然后分别训练，这不仅需要耗费很大的人力，也会耗费训练资源。
49.3)最大的不足之处在于：存在特征融合风险。即视觉检索模型和语义检索模型分别训练完成后，能够很好的提取图像的视觉特征和语义特征，但用这两个特征的拼接特征来检索相似图像，返回的相似图像难以兼顾视觉和语义两个方面。
50.此外，由于检索相似图的依据是视觉特征和语义特征的融合特征，因此对于检索库中的每个图像，都要分别提取视觉特征和语义特征，进行拼接并保存拼接特征。由于目前检索库中图像数据规模巨大，达到70亿级别，因此需要消耗大量资源，例如离线gpu(graphics processing unit，图形处理器)资源、hadoop(一种分布式计算平台)计算资源和hdfs(一种分布式文件系统)存储资源。
51.为了解决上述技术问题，本公开实施例提供了一种图像特征提取模型的训练方法，包括：
52.获取样本图像集，所述样本图像集包含多个具有第一标签的样本图像组，每一所述样本图像组包含多个具有第二标签的样本图像；所述第一标签表示所述样本图像组包含的样本图像是否为相同类别；所述第二标签表示所述样本图像的类别；其中，同一类别的样本图像具有相似的视觉特征且语义相同；
53.基于所述图像特征提取模型包含的第一网络结构提取所述样本图像组中样本图像的视觉语义融合特征；
54.根据所述视觉语义融合特征、所述样本图像组的第一标签以及预设的度量损失函数，计算视觉度量损失；
55.根据所述视觉语义融合特征、所述样本图像组中每一样本图像的第二标签，以及预设的分类损失函数，计算语义分类损失；
56.基于所述视觉度量损失和所述语义分类损失，对所述图像特征提取模型进行训练。
57.可见，本公开实施例中，在训练图像特征提取模型的过程中，提取样本图像组中样本图像的视觉语义融合特征。在视觉语义融合特征的基础上，一方面采用度量学习的损失函数计算视觉度量损失，视觉度量损失能够表征模型的视觉区分度；另一方面，采用分类算法的损失函数计算语义分类损失，语义分类损失能够表征模型的语义区分度。联合视觉度量损失和语义分类损失对图像特征提取模型进行训练，在训练过程中不断增强模型的视觉区分度和语义区分度，即同时进行视觉层面和语义层面的深度学习任务，属于多任务学习。由于视觉度量损失和语义分类损失都是在视觉语义融合特征的基础上计算得到的，因此经过一段的训练过程后，模型提取的视觉语义融合特征既能够表征图像的视觉信息，也能表征图像的语义信息。
58.从而，在相似图像检索过程中，采用模型提取的视觉语义融合特征作为检索相似图像的依据，使得召回的相似图像兼顾视觉和语义两个方面，即视觉上与检索图像相似，语义上与检索图像相同。
59.并且，无需单独训练、维护视觉检索模型和语义检索模型，也无需进行特征拼接，极大的降低了模型训练、特征提取、特征存储过程中所需的离线gpu资源、计算资源和存储资源。
60.下面对本公开实施例提供的图像特征提取模型的训练方法进行详细介绍。
61.参见图1，图1为本公开实施例提供的图像特征提取模型的训练方法的一种流程示意图，如图1所示，方法可以包括以下步骤：
62.s101：获取样本图像集，样本图像集包含多个具有第一标签的样本图像组，每一样本图像组包含多个具有第二标签的样本图像；第一标签表示样本图像组包含的样本图像是否为相同类别；第二标签表示样本图像的类别；其中，同一类别的样本图像具有相似的视觉特征且语义相同。
63.本公开实施例中，可以采用半监督聚类算法构造训练数据，用于训练图像特征提取模型。
64.其中，半监督聚类算法实质属于分类算法，具体为：从网络流量中获取随机图像，提取随机图像的特征，利用特征之间的拓扑关系将图像划分到不同的簇，一个簇对应一个实体类别。
65.为了保证训练数据的类别覆盖面足够广，可以获取不同垂类的图像数据，例如涵盖商品、植物等垂类。
66.作为一个示例，采用半监督聚类算法，对2000万左右的样本图像进行聚类，得到20万左右的类别，进而构建样本图像集。
67.本公开实施例中，可以将同类或不同类的样本图像进行组合，得到样本图像组，并根据样本图像组包含的样本图像是否为相同类别，为每个样本图像组标注第一标签。
68.作为一个示例，样本图像组为二元组，如果样本图像组的第一标签为“1”，表示样本图像组包含的两个样本图像是相同类别；如果样本图像组的第一标签为“0”，表示样本图像组包含的两个样本图像是不同类别。
69.此外，可以为每个样本图像标注第二标签，第二标签表示样本图像的类别。作为一个示例，对于第一个类别的样本图像，均标注id1，作为第二标签；对于第二个类别的样本图像，均标注id2，作为第二标签，以此类推。
70.本公开实施例中，同一类别的样本图像具有相似的视觉特征且语义相同。
71.具体的，由于各个类别的样本图像是通过聚类得到的，因此同一类别的样本图像必然具有相似的视觉特征，即图像相似度高于一定的阈值。此外，同一类别的样本图像的主体部分的语义是相同的。
72.例如，某类别的样本图像的主体部分都是xx型号的铅笔，也可以理解为这些样本图像的语义是相同的，均为：xx型号的铅笔。
73.s102：基于图像特征提取模型包含的第一网络结构提取样本图像组中样本图像的视觉语义融合特征。
74.本公开实施例中，采用度量学习算法提高模型的视觉区分度，采用分类算法提高模型的语义区分度，二者联合训练，且共用模型的backbone(主干网络)。
75.图像特征提取模型包含的第一网络结构即为主干网络，用于提取样本图像的特征。由于本公开实施例中，图像特征提取模型提取的特征既能够表征图像的视觉信息，也能表征图像的语义信息，因此将其记为视觉语义融合特征。
76.s103：根据视觉语义融合特征、样本图像组的第一标签以及预设的度量损失函数，计算视觉度量损失。
77.为了便于理解，对深度度量学习(deep metric learning)进行简单介绍。深度度量学习是度量学习的一种方法，目标是学习一个从原始特征到低维稠密的向量空间(称之为嵌入空间，embedding space)的映射，使得同类对象在嵌入空间距离比较近，而不同类对象在嵌入空间距离比较远。
78.深度度量学习的损失函数有多种，例如contrastive loss(对比损失)、triplet loss(三元组损失)、lifted struct loss等，本公开实施例中，可以预先选取度量损失函数。
79.本公开实施例中，图像特征提取模型的输入为样本图像组的样本图像，样本图像组具有第一标签，可用于计算视觉度量损失。
80.具体的，将各个样本图像组中样本图像的视觉语义融合特征映射到嵌入空间，将各个样本图像组中样本图像在嵌入空间的特征、各个样本图像组的第一标签代入度量损失函数，即可得到损失值，由于得到的损失值能够表征图像特征提取模型的视觉区分度，因此记为视觉度量损失。
81.本公开的一个实施例中，步骤s103，具体可以包括：
82.s11：基于图像特征提取模型包含的第二网络结构对视觉语义融合特征进行处理，得到样本图像组中各个样本图像的视觉特征。
83.s12：根据视觉特征、样本图像组的第一标签以及预设的度量损失函数，计算视觉度量损失。
84.具体的，第二网络结构可以是全连接层，用于对视觉语义融合特征进行处理，提取视觉特征。
85.容易理解的，在模型训练的初始阶段，第二网络结构并不具备从视觉语义融合特征中提取视觉特征的能力，但随着训练的进行，第二网络结构中的参数不断调整，逐渐具备上述能力，从而实现视觉特征的解耦，进而根据解耦的视觉特征计算视觉度量损失。
86.第二网络结构提取的视觉特征可以作为嵌入空间的特征，因此将各个样本图像组中样本图像的视觉特征、各个样本图像组的第一标签代入度量损失函数，得到损失值，由于得到的损失值能够表征图像特征提取模型的视觉区分度，因此记为视觉度量损失。
87.可见，本公开实施例中，图像特征提取模型中设置有第二网络结构，用于对视觉语义融合特征进行处理。随着训练的进行，第二网络结构中的参数不断调整，逐渐具备从视觉语义融合特征中提取视觉特征的能力，从而实现视觉特征的解耦，避免视觉语义融合特征中与语义相关的特征对视觉度量损失的影响。
88.s104：根据视觉语义融合特征、样本图像组中每一样本图像的第二标签，以及预设的分类损失函数，计算语义分类损失。
89.其中，分类损失函数可以是交叉熵损失函数，也可以是其他损失函数，对此不做限定。
90.具体的，根据视觉语义融合特征预测每一样本图像的类别，将每一样本图像的预测类别、每一样本图像的第二标签代入分类损失函数，即可得到损失值，由于得到的损失值能够表征图像特征提取模型的语义区分度，因此记为语义度量损失。
91.本公开的一个实施例中，步骤s103，具体可以包括：
92.s21：基于图像特征提取模型包含的第三网络结构对视觉语义融合特征进行处理，得到样本图像组中各个样本图像的语义特征，并基于语义特征确定样本图像组中各个样本图像的预测类别标签。
93.s22：基于预测类别标签、样本图像组中每一样本图像的第二标签，以及预设的分类损失函数，计算语义分类损失。
94.具体的，第三网络结构可以是全连接层，用于对视觉语义融合特征进行处理，提取语义特征。
95.容易理解的，在模型训练的初始阶段，第三网络结构并不具备从视觉语义融合特征中提取语义特征的能力，但随着训练的进行，第三网络结构中的参数不断调整，逐渐具备上述能力，从而实现语义特征的解耦，进而根据解耦的语义特征确定各个样本图像的预测类别标签。
96.例如，语义特征的维度等同于类别标签的数目，根据语义特征中各个维度的数值即可确定预测类别标签。
97.进而，将样本图像组中每一样本图像的预测类别标签、样本图像组中每一样本图像的第二标签，代入预设的分类损失函数，得到损失值，由于得到的损失值能够表征图像特征提取模型的语义区分度，因此记为语义分类损失。
98.可见，本公开实施例中，图像特征提取模型中设置有第三网络结构，用于对视觉语义融合特征进行处理。随着训练的进行，第三网络结构中的参数不断调整，逐渐具备从视觉语义融合特征中提取语义特征的能力，从而实现语义特征的解耦，避免视觉语义融合特征
中与视觉相关的特征对语义分类损失的影响。
99.s105：基于视觉度量损失和语义分类损失，对图像特征提取模型进行训练。
100.本公开实施例中，可以联合视觉度量损失和语义分类损失训练图像特征提取模型。
101.例如，将视觉度量损失和语义分类损失进行加权，得到总损失，基于总损失调整图像特征提取模型中的参数。其中，加权所采用的权重可以预先设定，也可以在训练过程中不断调整。
102.从而，随着训练的进行，视觉度量损失和语义分类损失都逐渐降低，当模型收敛或损失值降到预设阈值以下时，认为模型训练完成。训练完成的图像特征提取模型具有较强的视觉区分度和语义区分度，而视觉度量损失和语义分类损失都是在视觉语义融合特征的基础上计算的，因此可以认为：训练完成的图像特征提取模型所提取的视觉语义融合特征能够很好的兼顾图像的视觉信息和语义信息。
103.可见，本公开实施例中，在训练图像特征提取模型的过程中，提取样本图像组中样本图像的视觉语义融合特征。在视觉语义融合特征的基础上，一方面采用度量学习的损失函数计算视觉度量损失，视觉度量损失能够表征模型的视觉区分度；另一方面，采用分类算法的损失函数计算语义分类损失，语义分类损失能够表征模型的语义区分度。联合视觉度量损失和语义分类损失对图像特征提取模型进行训练，在训练过程中不断增强模型的视觉区分度和语义区分度，即同时进行视觉层面和语义层面的深度学习任务，属于多任务学习。由于视觉度量损失和语义分类损失都是在视觉语义融合特征的基础上计算得到的，因此经过一段的训练过程后，模型提取的视觉语义融合特征既能够表征图像的视觉信息，也能表征图像的语义信息。
104.从而，在相似图像检索过程中，采用模型提取的视觉语义融合特征作为检索相似图像的依据，使得召回的相似图像兼顾视觉和语义两个方面，即视觉上与检索图像相似，语义上与检索图像相同。
105.并且，无需单独训练、维护视觉检索模型和语义检索模型，也无需进行特征拼接，极大的降低了模型训练、特征提取、特征存储过程中所需的离线gpu资源、计算资源和存储资源。
106.为了便于理解，下面结合图2对本公开实施例提供的图像特征提取模型进行进一步说明。
107.参见图2，图2是本公开实施例提供的图像特征提取模型的一种结构示意图。如图2所示，图像特征提取模型包含第一网络结构，即用于提取特征的backbone，可以依次包括resnet50和两个全连接层(图2中分别表示为fc1和fc2)，其中，resnet50可以预先使用imagenet(一种图像识别数据库)进行预训练。
108.输入的训练数据为批量的样本图像组，且每个样本图像组具有第一标签，表示样本图像组包含的样本图像是否为相同类别；每个样本图像具有第二标签，表示样本图像的类别。
109.图像特征提取模型中的第一网络结构提取样本图像的视觉语义融合特征，随后分为两路，分别计算视觉度量损失和语义分类损失。
110.图2所示的第二网络结构对视觉语义融合特征进行处理，从中提取视觉特征，在视
觉特征的基础上，计算视觉度量损失；图2所示的第三网络结构对视觉语义融合特征进行处理，从中提取语义特征，在语义特征的基础上，计算语义分类损失。随后对视觉度量损失和语义分类损失进行加权，得到总损失，根据总损失调整图像特征提取模型中的参数。
111.作为一个示例，在训练过程中，可以采用warmup(预热)方法优化学习率，在一段时间后设置学习率阶梯式下降。语义分类损失的权重保持不变，采用warmup方法优化视觉度量损失的权重。
112.本公开的一个实施例中，为了让视觉度量损失和语义分类损失能够分布在同一个特征空间，可以在计算语义分类损失之前，通过一个bnneck网络结构对特征进行处理，也就是说，在第三网络结构之后添加一个bnneck网络结构，使得两个损失加权之后达到联合训练的效果。
113.参见图3，图3为本公开实施例提供的图像检索方法的一种流程示意图，如图3所示，方法可以包括以下步骤：
114.s301：获取目标图像。
115.目标图像可以是用户输入的任一图像，图像检索的目的是从检索库中召回目标图像的相似图像，满足视觉特征相似，语义相同。
116.s302：采用预先训练的图像特征提取模型提取目标图像的视觉语义融合特征，基于视觉语义融合特征从检索库中检索相似图像；检索库中存储有待检索图像和检索索引；其中，检索索引是根据待检索图像的视觉语义融合特征构建的；待检索图像的视觉语义融合特征是预先采用图像特征提取模型提取的。
117.本公开实施例中，可以预先采用图1所示步骤训练图像特征提取模型，从而用训练完成的图像特征提取模型提取目标图像的视觉语义融合特征，基于视觉语义融合特征从检索库中检索相似图像。
118.其中，检索库中存储有大量的待检索图像，并且预先采用图像特征提取模型提取这些待检索图像的视觉语义融合特征，并根据视觉语义融合特征构建索引。
119.其中，根据特征构建索引的过程可以参见相关技术，例如采用ann(近似最近邻，approximate nearest neighbor)的检索方法构建检索库的索引。
120.可见，本公开实施例中，联合视觉度量损失和语义分类损失对图像特征提取模型进行训练，在训练过程中不断增强模型的视觉区分度和语义区分度。由于视觉度量损失和语义分类损失都是在视觉语义融合特征的基础上计算得到的，因此经过一段的训练过程后，模型提取的视觉语义融合特征既能够表征图像的视觉信息，也能表征图像的语义信息。
121.从而，在相似图像检索过程中，采用模型提取的视觉语义融合特征作为检索相似图像的依据，使得召回的相似图像兼顾视觉和语义两个方面，即视觉上与检索图像相似，语义上与检索图像相同。
122.作为一个示例，参见图4(a)、图4(b)和图4(c)，其中，图4(a)是本公开实施例提供的目标图像的一种示意图，图4(b)是采用相关技术进行图像检索的检索结果示意图，图4(c)是本公开实施例提供的图像检索结果示意图。
123.可见，目标图像的主体部分是“吉他调音器”，也就是说目标图像的主体部分的语义为“吉他调音器”；图4(b)示出了采用相关技术进行图像检索的检索结果，尽管检索到的图像与目标图像在视觉特征上比较相近，但大多不符合语义相同的要求，例如检索到的图
像的主体部分有：“对讲机”、“空调遥控器”；采用本公开实施例提供的图像特征提取模型的训练方法、图像检索方法，图像检索结果如图4(c)所示，可见，检索到的图像与目标图像在视觉特征上比较相近，并且，检索到的图像兼顾了语义相同的要求，均为“吉他调音器”。
124.本公开实施例中，为了进一步提高图像检索效率，可以基于一定数量的图像对进行主成分分析，例如从相关技术的检索库中随机抽取3万-4万数目的图像对，并提取图像特征，以这些图像对的图像特征作为训练数据，采用主成分分析算法训练出映射矩阵，映射矩阵对图像特征进行处理，能够实现降维，从而降低检索库中索引的构建复杂度，并提高图像检索效率。
125.其中，主成分分析的具体方法可以参见相关技术，不再赘述。
126.相应的，对于相关技术的检索库中大量的待检索图像，在提取视觉语义融合特征之后，基于映射矩阵进行特征映射，再根据映射后的特征建立索引。
127.具体可以参见图5，图5为本公开实施例提供的检索库构建方法的一种示意图，如图5所示，相关技术的检索库中百亿级别的待检索图像，通过训练好的图像特征提取模型提取视觉语义融合特征，随后基于主成分分析过程得到的映射矩阵进行特征映射，再基于映射后特征建立索引，最终检索库中存储有索引和大量的待检索图像。
128.本公开的一个实施例中，检索库包含时效图像库，时效图像库是基于时效图像和时效图像的视觉语义融合特征构建的。
129.具体的，相关技术的检索库是一个固定的数据库，但在实际生活中，网络上每天都有海量的图片数据产生，这些数据都没有收录；因此，如果用户搜索时效性较强的图像，难以从固定的检索库返回相似图像，无法满足用户的需求，严重影响用户体验。
130.考虑到上述不足，本公开实施例中，不断收集时效图像，然后建立时效图像库，其中，根据图像建立检索库的具体过程可以参见图5，不再赘述。
131.作为一个示例，获取每天的时效数据，进而收集时效图像，保持时效图像的更新，例如保持最近50天收集的图像作为时效图像。
132.从而，在进行图像检索的过程中，从包含时效图像库的检索库中检索相似图像。
133.具体可以参见图6，图6为本公开实施例提供的图像检索方法的一种示意图，如图6所示，目标图像通过训练好的图像特征提取模型，得到视觉语义融合特征，随后基于主成分分析过程得到的映射矩阵进行特征映射，再基于映射后特征在包含时效图像库的检索库中检索相似图像，返回预设数目的相似图。
134.可见，本公开实施例中，基于时效图像建立时效检索库，进而能够提供时效性的检索服务，如果用户搜索时效性较强的图像，也能返回相似图像，从而满足用户需求，提升用户体验。
135.参见图7，图7是用来实现本公开实施例的图像特征提取模型的训练方法的装置的框图，包括以下模块：
136.获取模块701，用于获取样本图像集，所述样本图像集包含多个具有第一标签的样本图像组，每一所述样本图像组包含多个具有第二标签的样本图像；所述第一标签表示所述样本图像组包含的样本图像是否为相同类别；所述第二标签表示所述样本图像的类别；其中，同一类别的样本图像具有相似的视觉特征且语义相同；
137.特征提取模块702，用于基于所述图像特征提取模型包含的第一网络结构提取所
述样本图像组中样本图像的视觉语义融合特征；
138.第一计算模块703，用于根据所述视觉语义融合特征、所述样本图像组的第一标签以及预设的度量损失函数，计算视觉度量损失；
139.第二计算模块704，用于根据所述视觉语义融合特征、所述样本图像组中每一样本图像的第二标签，以及预设的分类损失函数，计算语义分类损失；
140.训练模块705，用于基于所述视觉度量损失和所述语义分类损失，对所述图像特征提取模型进行训练。
141.本公开的一个实施例中，所述第一计算模块703，具体用于：
142.基于所述图像特征提取模型包含的第二网络结构对所述视觉语义融合特征进行处理，得到所述样本图像组中各个样本图像的视觉特征；
143.根据所述视觉特征、所述样本图像组的第一标签以及预设的度量损失函数，计算视觉度量损失。
144.本公开的一个实施例中，所述第二计算模块704，具体用于：
145.基于所述图像特征提取模型包含的第三网络结构对所述视觉语义融合特征进行处理，得到所述样本图像组中各个样本图像的语义特征，并基于所述语义特征确定所述样本图像组中各个样本图像的预测类别标签；
146.基于所述预测类别标签、所述样本图像组中每一样本图像的第二标签，以及预设的分类损失函数，计算语义分类损失。
147.可见，本公开实施例中，在训练图像特征提取模型的过程中，提取样本图像组中样本图像的视觉语义融合特征。在视觉语义融合特征的基础上，一方面采用度量学习的损失函数计算视觉度量损失，视觉度量损失能够表征模型的视觉区分度；另一方面，采用分类算法的损失函数计算语义分类损失，语义分类损失能够表征模型的语义区分度。联合视觉度量损失和语义分类损失对图像特征提取模型进行训练，在训练过程中不断增强模型的视觉区分度和语义区分度，即同时进行视觉层面和语义层面的深度学习任务，属于多任务学习。由于视觉度量损失和语义分类损失都是在视觉语义融合特征的基础上计算得到的，因此经过一段的训练过程后，模型提取的视觉语义融合特征既能够表征图像的视觉信息，也能表征图像的语义信息。
148.从而，在相似图像检索过程中，采用模型提取的视觉语义融合特征作为检索相似图像的依据，使得召回的相似图像兼顾视觉和语义两个方面，即视觉上与检索图像相似，语义上与检索图像相同。
149.并且，无需单独训练、维护视觉检索模型和语义检索模型，也无需进行特征拼接，极大的降低了模型训练、特征提取、特征存储过程中所需的离线gpu资源、计算资源和存储资源。
150.参见图8，图8是用来实现本公开实施例的图像检索方法的装置的框图，包括以下模块：
151.获取模块801，用于获取目标图像；
152.检索模块802，用于采用预先训练的图像特征提取模型提取所述目标图像的视觉语义融合特征，基于所述视觉语义融合特征从检索库中检索相似图像；所述检索库中存储有待检索图像和检索索引；其中，所述检索索引是根据所述待检索图像的视觉语义融合特
征构建的；所述待检索图像的视觉语义融合特征是预先采用所述图像特征提取模型提取的。
153.可见，本公开实施例中，联合视觉度量损失和语义分类损失对图像特征提取模型进行训练，在训练过程中不断增强模型的视觉区分度和语义区分度。由于视觉度量损失和语义分类损失都是在视觉语义融合特征的基础上计算得到的，因此经过一段的训练过程后，模型提取的视觉语义融合特征既能够表征图像的视觉信息，也能表征图像的语义信息。
154.从而，在相似图像检索过程中，采用模型提取的视觉语义融合特征作为检索相似图像的依据，使得召回的相似图像兼顾视觉和语义两个方面，即视觉上与检索图像相似，语义上与检索图像相同。
155.根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
156.本公开提供了一种电子设备，包括：
157.至少一个处理器；以及
158.与所述至少一个处理器通信连接的存储器；其中，
159.所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行图像特征提取模型的训练方法或图像检索方法。
160.本公开提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行图像特征提取模型的训练方法或图像检索方法。
161.本公开提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现图像特征提取模型的训练方法或图像检索方法。
162.图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。
163.如图9所示，设备900包括计算单元901，其可以根据存储在只读存储器(rom)902中的计算机程序或者从存储单元908加载到随机访问存储器(ram)903中的计算机程序，来执行各种适当的动作和处理。在ram 903中，还可存储设备900操作所需的各种程序和数据。计算单元901、rom 902以及ram 903通过总线904彼此相连。输入/输出(i/o)接口905也连接至总线904。
164.设备900中的多个部件连接至i/o接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
165.计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及
任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如图像特征提取模型的训练方法或图像检索方法。例如，在一些实施例中，图像特征提取模型的训练方法或图像检索方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由rom 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到ram 903并由计算单元901执行时，可以执行上文描述的图像特征提取模型的训练方法或图像检索方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行图像特征提取模型的训练方法或图像检索方法。
166.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、复杂可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
167.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
168.在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
169.为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
170.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部
件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)和互联网。
171.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。
172.应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。
173.上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种面向互连裸芯与AXI主设备的转换接口及通信方法与流程

图像特征提取模型的训练方法、图像检索方法及装置与流程

相关文献

最热文献