一种基于多专家的图文模型生成方法、装置、设备及介质与流程

2022-06-11 13:12:49 来源：中国专利 TAG：

1.本技术涉及人工智能技术领域，尤其是涉及到一种基于多专家的图文模型生成方法及装置、存储介质、计算机设备。

背景技术：

2.当前大规模图文预训练通常用于解决如下几类问题，分别是图片检索任务、文字检索任务以及图片文字复杂推理任务。其中，图片检索任务包括根据图片检索图片以及根据图片检索文字两种，文字检索任务包括根据文字检索文字以及根据文字检索图片两种。
3.然而，现有技术中，预训练的图文模型通常为单专家模型，由不同的人员负责训练、部署、维护，增加了模型的训练成本和维护成本，同时占用了大量的计算机资源。

技术实现要素：

4.有鉴于此，本技术提供了一种基于多专家的图文模型生成方法及装置、存储介质、计算机设备，可以使初始图片专家模块、初始文本专家模块以及初始图片文本专家模块实现共同训练，能够节省模型的训练和维护成本，有效减少计算机资源的占用。
5.根据本技术的一个方面，提供了一种基于多专家的图文模型生成方法，包括：
6.获取训练样本集合，其中，所述训练样本集合包括多个训练样本，每个所述训练样本包括样本图片和样本文本，所述样本文本带有指示与所述样本图片之间关系的真实标签；
7.基于任一所述训练样本中的所述样本图片，确定初始图片向量，并将所述初始图片向量输入至预设图片文本模型的初始图片专家模块，得到第一目标向量；
8.基于所述任一所述训练样本中的所述样本文本，确定初始文本向量，并将所述初始文本向量输入至所述预设图片文本模型的初始文本专家模块，得到第二目标向量；
9.依据所述第一目标向量以及所述第二目标向量，确定图片文本目标向量，将所述图片文本目标向量输入至所述预设图片文本模型的初始图片文本专家模块，并基于输出结果以及全连接层，得到所述样本图片与所述样本文本之间的第一预测分值；
10.基于所述第一预测分值以及所述真实标签，确定所述预设图片文本模型的模型损失值，并基于所述模型损失值对所述预设图片文本模型进行训练，得到所述基于多专家的图文模型。
11.可选地，所述基于任一所述训练样本中的所述样本图片，确定初始图片向量，具体包括：
12.确定所述样本图片的图片维度，其中，所述图片维度包括图片高度和/或图片宽度；
13.基于预设划分尺寸，对所述样本图片的图片高度和/或图片宽度进行划分，得到与所述样本图片对应的子样本图片；
14.将所述子样本图片通过预设转换工具转换成与每个所述子样本图片对应的所述
初始图片向量。
15.可选地，所述基于所述任一所述训练样本中的所述样本文本，确定初始文本向量，具体包括：
16.基于预设字向量数据库，从所述预设字向量数据库中分别确定所述样本文本中每个字对应的字向量，并将所述样本文本中每个字对应的字向量进行拼接，得到所述初始文本向量。
17.可选地，所述依据所述第一目标向量以及所述第二目标向量，确定图片文本目标向量，具体包括：
18.将每个所述子样本图片对应的第一目标向量进行拼接，得到图片拼接向量；
19.将所述图片拼接向量与所述样本文本对应的所述第二目标向量进行拼接，得到所述图片文本目标向量。
20.可选地，所述基于所述第一预测分值以及所述真实标签，确定所述预设图片文本模型的模型损失值，并基于所述模型损失值对所述预设图片文本模型进行训练，得到所述基于多专家的图文模型，具体包括：
21.基于所述训练样本集合中的每个所述训练样本对应的所述第一预测分值以及所述真实标签，通过预设交叉熵损失函数确定所述预设图片文本模型的模型损失值；
22.当所述模型损失值大于预设损失阈值时，依据所述模型损失值调整所述预设图片文本模型中所述初始图片专家模块、所述初始文本专家模块以及所述初始图片文本专家模块中至少一个模块对应的模块参数，得到更新后的预设图片文本模型，通过所述更新后的预设图片文本模型以及所述全连接层，得到每个所述样本图片与所述样本文本之间的第二预测分值，并再次计算所述模型损失值；
23.当所述模型损失值小于或等于所述预设损失阈值时，得到所述基于多专家的图文模型。
24.可选地，所述得到所述基于多专家的图文模型之后，所述方法还包括：
25.接收待分析对象，并依据所述待分析对象的格式，从所述基于多专家的图文模型中确定对应的目标分析模块，其中，所述目标分析模块包括目标图片专家模块、目标文本专家模块以及目标图片文本专家模块中的至少一种；
26.将所述待分析对象转换成对应的目标输入向量，并将所述目标输入向量输入至所述所述目标分析模块中，得到与所述待分析对象对应的目标输出向量，以通过所述目标输出向量得到目标结果。
27.可选地，所述依据所述待分析对象的格式，从所述基于多专家的图文模型中确定对应的目标分析模块，具体包括：
28.当所述待分析对象的格式为图片格式时，将所述目标图片专家模块作为所述目标分析模块；
29.当所述待分析对象的格式为文本格式时，将所述目标文本专家模块作为所述目标分析模块；
30.当所述待分析对象的格式包括图片格式以及文本格式时，将所述目标图片专家模块、所述目标文本专家模块以及所述目标图片文本专家模块作为所述目标分析模块。
31.根据本技术的另一方面，提供了一种基于多专家的图文模型生成装置，包括：
32.样本获取模块，用于获取训练样本集合，其中，所述训练样本集合包括多个训练样本，每个所述训练样本包括样本图片和样本文本，所述样本文本带有指示与所述样本图片之间关系的真实标签；
33.第一输入模块，用于基于任一所述训练样本中的所述样本图片，确定初始图片向量，并将所述初始图片向量输入至预设图片文本模型的初始图片专家模块，得到第一目标向量；
34.第二输入模块，用于基于所述任一所述训练样本中的所述样本文本，确定初始文本向量，并将所述初始文本向量输入至所述预设图片文本模型的初始文本专家模块，得到第二目标向量；
35.预测模块，用于依据所述第一目标向量以及所述第二目标向量，确定图片文本目标向量，将所述图片文本目标向量输入至所述预设图片文本模型的初始图片文本专家模块，并基于输出结果以及全连接层，得到所述样本图片与所述样本文本之间的第一预测分值；
36.模型训练模块，用于基于所述第一预测分值以及所述真实标签，确定所述预设图片文本模型的模型损失值，并基于所述模型损失值对所述预设图片文本模型进行训练，得到所述基于多专家的图文模型。
37.可选地，所述第一输入模块，具体用于：
38.确定所述样本图片的图片维度，其中，所述图片维度包括图片高度和/或图片宽度；基于预设划分尺寸，对所述样本图片的图片高度和/或图片宽度进行划分，得到与所述样本图片对应的子样本图片；将所述子样本图片通过预设转换工具转换成与每个所述子样本图片对应的所述初始图片向量。
39.可选地，所述第二输入模块，具体用于：
40.基于预设字向量数据库，从所述预设字向量数据库中分别确定所述样本文本中每个字对应的字向量，并将所述样本文本中每个字对应的字向量进行拼接，得到所述初始文本向量。
41.可选地，所述预测模块，具体用于：
42.将每个所述子样本图片对应的第一目标向量进行拼接，得到图片拼接向量；将所述图片拼接向量与所述样本文本对应的所述第二目标向量进行拼接，得到所述图片文本目标向量。
43.可选地，所述模型训练模块，具体用于：
44.基于所述训练样本集合中的每个所述训练样本对应的所述第一预测分值以及所述真实标签，通过预设交叉熵损失函数确定所述预设图片文本模型的模型损失值；当所述模型损失值大于预设损失阈值时，依据所述模型损失值调整所述预设图片文本模型中所述初始图片专家模块、所述初始文本专家模块以及所述初始图片文本专家模块中至少一个模块对应的模块参数，得到更新后的预设图片文本模型，通过所述更新后的预设图片文本模型以及所述全连接层，得到每个所述样本图片与所述样本文本之间的第二预测分值，并再次计算所述模型损失值；当所述模型损失值小于或等于所述预设损失阈值时，得到所述基于多专家的图文模型。
45.可选地，所述装置还包括：
46.接收模块，用于所述得到所述基于多专家的图文模型之后，接收待分析对象，并依据所述待分析对象的格式，从所述基于多专家的图文模型中确定对应的目标分析模块，其中，所述目标分析模块包括目标图片专家模块、目标文本专家模块以及目标图片文本专家模块中的至少一种；
47.第三输入模块，用于将所述待分析对象转换成对应的目标输入向量，并将所述目标输入向量输入至所述所述目标分析模块中，得到与所述待分析对象对应的目标输出向量，以通过所述目标输出向量得到目标结果。
48.可选地，所述接收模块，具体用于：
49.当所述待分析对象的格式为图片格式时，将所述目标图片专家模块作为所述目标分析模块；当所述待分析对象的格式为文本格式时，将所述目标文本专家模块作为所述目标分析模块；当所述待分析对象的格式包括图片格式以及文本格式时，将所述目标图片专家模块、所述目标文本专家模块以及所述目标图片文本专家模块作为所述目标分析模块。
50.依据本技术又一个方面，提供了一种存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述基于多专家的图文模型生成方法。
51.依据本技术再一个方面，提供了一种计算机设备，包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述基于多专家的图文模型生成方法。
52.借由上述技术方案，本技术提供的一种基于多专家的图文模型生成方法及装置、存储介质、计算机设备，首先，可以获取训练样本集合，训练样本集合中可以包括多个训练样本，其中每个训练样本可以包括一个样本图片和一个样本文本。此外，样本文本还可以包括一个指示与样本图片之间关系的真实标签。对于训练样本集合中的每个训练样本，可以将训练样本中的样本图片进行转换，得到该样本图片对应的初始图片向量。接着，可以将初始图片向量输入到预设图片文本模型中的初始图片专家模块中，进而可以输出第一目标向量。此外还可以确定该训练样本中与样本图片对应的样本文本的初始文本向量。接着，可以将初始文本向量输入到预设图片文本模型中的初始文本专家模块中，进而可以输出第二目标向量。得到样本图片对应的第一目标向量以及样本文本对应的第二目标向量后，可以以第一目标向量和第二目标向量为基础，进一步确定图片文本目标向量。之后可以将图片文本目标向量作为输入，输入到预设图片文本模型的初始图片文本专家模块中，将初始图片文本专家模块的输出通过全连接层，输出样本图片和样本文本之间的第一预测分值。得到第一预测分值后，可以根据每个训练样本的第一预测分值和真实标签，确定预设图片文本模型的模型损失值，并以该模型损失值为基础，对预设图片文本模型进行训练，经过训练后可以得到基于图片专家、文本专家以及图片文本专家的多专家图文模型。本技术实施例可以使初始图片专家模块、初始文本专家模块以及初始图片文本专家模块实现共同训练，能够节省模型的训练和维护成本，有效减少计算机资源的占用。
53.上述说明仅是本技术技术方案的概述，为了能够更清楚了解本技术的技术手段，而可依照说明书的内容予以实施，并且为了让本技术的上述和其它目的、特征和优点能够更明显易懂，以下特举本技术的具体实施方式。
附图说明
54.此处所说明的附图用来提供对本技术的进一步理解，构成本技术的一部分，本技术的示意性实施例及其说明用于解释本技术，并不构成对本技术的不当限定。在附图中：
55.图1示出了本技术实施例提供的一种基于多专家的图文模型生成方法的流程示意图；
56.图2示出了本技术实施例提供的另一种基于多专家的图文模型生成方法的流程示意图；
57.图3示出了本技术实施例提供的一种基于多专家的图文模型生成装置的结构示意图。
具体实施方式
58.下文中将参考附图并结合实施例来详细说明本技术。需要说明的是，在不冲突的情况下，本技术中的实施例及实施例中的特征可以相互组合。
59.在本实施例中提供了一种基于多专家的图文模型生成方法，如图1所示，该方法包括：
60.步骤101，获取训练样本集合，其中，所述训练样本集合包括多个训练样本，每个所述训练样本包括样本图片和样本文本，所述样本文本带有指示与所述样本图片之间关系的真实标签；
61.本技术实施例提供的基于多专家的图文模型生成方法，可以使初始图片专家模块、初始文本专家模块以及初始图片文本专家模块实现共同训练，能够节省模型的训练和维护成本，有效减少计算机资源的占用。本技术的预设图片文本模型主要由三个部分组成，分别是初始图片专家模块、初始文本专家模块以及初始图片文本专家模块，当训练结束后可以对应生成目标图片专家模块、目标文本专家模块以及目标图片文本专家模块。首先，可以获取训练样本集合，训练样本集合中可以包括多个训练样本，其中每个训练样本可以包括一个样本图片和一个样本文本。此外，样本文本还可以包括一个指示与样本图片之间关系的真实标签，例如，该样本文本如果是样本图片的正样本，即样本文本是样本图片的解释，那么真实标签可以为1；该样本文本如果是样本图片的负样本，即样本文本不是样本图片的解释，那么真实标签可以为0。
62.步骤102，基于任一所述训练样本中的所述样本图片，确定初始图片向量，并将所述初始图片向量输入至预设图片文本模型的初始图片专家模块，得到第一目标向量；
63.在该实施例中，对于训练样本集合中的每个训练样本，可以将训练样本中的样本图片进行转换，得到该样本图片对应的初始图片向量。接着，可以将初始图片向量输入到预设图片文本模型中的初始图片专家模块中，进而可以输出第一目标向量。
64.步骤103，基于所述任一所述训练样本中的所述样本文本，确定初始文本向量，并将所述初始文本向量输入至所述预设图片文本模型的初始文本专家模块，得到第二目标向量；
65.在该实施例中，还可以确定该训练样本中与样本图片对应的样本文本的初始文本向量。接着，可以将初始文本向量输入到预设图片文本模型中的初始文本专家模块中，进而可以输出第二目标向量。
66.步骤104，依据所述第一目标向量以及所述第二目标向量，确定图片文本目标向量，将所述图片文本目标向量输入至所述预设图片文本模型的初始图片文本专家模块，并基于输出结果以及全连接层，得到所述样本图片与所述样本文本之间的第一预测分值；
67.在该实施例中，得到样本图片对应的第一目标向量以及样本文本对应的第二目标向量后，可以以第一目标向量和第二目标向量为基础，进一步确定图片文本目标向量。之后可以将图片文本目标向量作为输入，输入到预设图片文本模型的初始图片文本专家模块中，接着可以将初始图片文本专家模块的输出通过全连接层，输出样本图片和样本文本之间的第一预测分值，从第一预测分值中可以看出样本文本与样本图片之间的关联程度得分。
68.步骤105，基于所述第一预测分值以及所述真实标签，确定所述预设图片文本模型的模型损失值，并基于所述模型损失值对所述预设图片文本模型进行训练，得到所述基于多专家的图文模型。
69.在该实施例中，确定每个训练样本的样本图片和样本文本之间的第一预测分值后，可以根据每个训练样本的第一预测分值和真实标签，确定预设图片文本模型的模型损失值。接着，可以以该模型损失值为基础，对预设图片文本模型进行训练，经过训练后可以得到基于图片专家、文本专家以及图片文本专家的多专家图文模型。
70.通过应用本实施例的技术方案，首先，可以获取训练样本集合，训练样本集合中可以包括多个训练样本，其中每个训练样本可以包括一个样本图片和一个样本文本。此外，样本文本还可以包括一个指示与样本图片之间关系的真实标签。对于训练样本集合中的每个训练样本，可以将训练样本中的样本图片进行转换，得到该样本图片对应的初始图片向量。接着，可以将初始图片向量输入到预设图片文本模型中的初始图片专家模块中，进而可以输出第一目标向量。此外还可以确定该训练样本中与样本图片对应的样本文本的初始文本向量。接着，可以将初始文本向量输入到预设图片文本模型中的初始文本专家模块中，进而可以输出第二目标向量。得到样本图片对应的第一目标向量以及样本文本对应的第二目标向量后，可以以第一目标向量和第二目标向量为基础，进一步确定图片文本目标向量。之后可以将图片文本目标向量作为输入，输入到预设图片文本模型的初始图片文本专家模块中，将初始图片文本专家模块的输出通过全连接层，输出样本图片和样本文本之间的第一预测分值。得到第一预测分值后，可以根据每个训练样本的第一预测分值和真实标签，确定预设图片文本模型的模型损失值，并以该模型损失值为基础，对预设图片文本模型进行训练，经过训练后可以得到基于图片专家、文本专家以及图片文本专家的多专家图文模型。本技术实施例可以使初始图片专家模块、初始文本专家模块以及初始图片文本专家模块实现共同训练，能够节省模型的训练和维护成本，有效减少计算机资源的占用。
71.进一步的，作为上述实施例具体实施方式的细化和扩展，为了完整说明本实施例的具体实施过程，提供了另一种基于多专家的图文模型生成方法，如图2所示，该方法包括：
72.步骤201，获取训练样本集合，其中，所述训练样本集合包括多个训练样本，每个所述训练样本包括样本图片和样本文本，所述样本文本带有指示与所述样本图片之间关系的真实标签；
73.在该实施例中，首先，可以获取训练样本集合，训练样本集合中可以包括多个训练样本，其中每个训练样本可以包括一个样本图片和一个样本文本。此外，样本文本还可以包
括一个指示与样本图片之间关系的真实标签，例如，该样本文本如果是样本图片的正样本，即样本文本是样本图片的解释，那么真实标签可以为1；该样本文本如果是样本图片的负样本，即样本文本不是样本图片的解释，那么真实标签可以为0。
74.步骤202，确定所述样本图片的图片维度，其中，所述图片维度包括图片高度和/或图片宽度；
75.在该实施例中，可以对每个训练样本中的样本图片进行图片维度的确定，在这里，图片维度可以包括图片高度和图片宽度，此外还可以包括图片通道数。例如，样本图片对应的图片维度可以是h x w x c，其中h表示样本图片的图片高度，w表示样本图片的图片宽度，c表示样本图片的图片通道数。
76.步骤203，基于预设划分尺寸，对所述样本图片的图片高度和/或图片宽度进行划分，得到与所述样本图片对应的子样本图片；
77.在该实施例中，确定样本图片的图片维度后，可以根据预设划分尺寸对样本图片进行划分，在这里，可以仅对样本图片从图片高度方向进行划分，图片宽度保持不变，也可以对样本图片从图片宽度方面进行划分，图片高度保持不变，还可以同时从样本图片的图片高度和图片宽度两个方向对样本图片进行划分。划分后，可以得到与样本图片对应的多个子样本图片。例如，样本图片的图片维度为h x w x c，可以按照预设划分尺寸将样本图片划分为多个p x p x c的子样本图片，即每个子样本图片对应的图片维度为p x p x c。
78.步骤204，将所述子样本图片通过预设转换工具转换成与每个所述子样本图片对应的所述初始图片向量；
79.在该实施例中，得到每个样本图片对应的多个子样本图片之后，可以通过预设转换工具将每个子样本图片转换成与该子样本图片相对应的初始图片向量，即将每个子样本图片直接用该子样本图片对应的初始图片向量表示。在这里，预设转换工具可以是reshape。例如，每个子样本图片对应的图片维度为p x p x c，那么可以通过预设转换工具将每个子样本图片转换为维度为p2c的向量，这个p2c的向量即可以是初始图片向量。此外，还可以将每个子样本图片对应的p2c的向量通过降维的方式转换为指定维度的一维向量，将转化后的一维向量作为初始图片向量。通过降维得到初始图片向量，可以使得初始图片向量更加便利地参与到后面的运算中，可以减少后续运算的难度，增加运算的效率。
80.步骤205，将所述初始图片向量输入至预设图片文本模型的初始图片专家模块，得到第一目标向量；
81.步骤206，基于预设字向量数据库，从所述预设字向量数据库中分别确定所述样本文本中每个字对应的字向量，并将所述样本文本中每个字对应的字向量进行拼接，得到所述初始文本向量；
82.在该实施例中，将每个子样本图片对应的初始图片向量输入到预设图片文本模型的初始图片专家模块中，可以对应输出第一目标向量。此外，还可以对于样本文本中的每个字，从预设字向量数据库中找到每个字对应的字向量，接着，按照样本文本中每个字的顺序对每个字对应的字向量进行拼接，得到每个样本文本对应的初始文本向量。
83.步骤207，将所述初始文本向量输入至所述预设图片文本模型的初始文本专家模块，得到第二目标向量；
84.步骤208，将每个所述子样本图片对应的第一目标向量进行拼接，得到图片拼接向
量；将所述图片拼接向量与所述样本文本对应的所述第二目标向量进行拼接，得到所述图片文本目标向量；
85.在该实施例中，可以将初始文本向量输入到预设图片文本模型中的初始文本专家模块中，进而可以输出第二目标向量。得到样本图片对应的多个第一目标向量以及样本文本对应的第二目标向量后，可以以第一目标向量和第二目标向量为基础，对第一目标向量和地二目标向量进行拼接，进一步确定图片文本目标向量。
86.步骤209，将所述图片文本目标向量输入至所述预设图片文本模型的初始图片文本专家模块，并基于输出结果以及全连接层，得到所述样本图片与所述样本文本之间的第一预测分值；
87.在该实施例中，将图片文本目标向量作为输入，输入到预设图片文本模型的初始图片文本专家模块中，接着可以将初始图片文本专家模块的输出通过全连接层，输出样本图片和样本文本之间的第一预测分值，从第一预测分值中可以看出样本文本与样本图片之间的关联程度得分。
88.步骤210，基于所述训练样本集合中的每个所述训练样本对应的所述第一预测分值以及所述真实标签，通过预设交叉熵损失函数确定所述预设图片文本模型的模型损失值；
89.在该实施例中，得到每个训练样本对应的第一预测分值后，可以根据第一预测分值和对应的真实标签，通过预设交叉熵损失函数计算预设图片文本模型的模型损失值。在这里，预设交叉熵损失函数可以是这里，预设交叉熵损失函数可以是其中，是样本图片和样本文本之间的真实标签，可以是0或者1，是样本图片和样本文本之间的第一预测分值，n是训练样本集合中训练样本的数量。
90.步骤211，当所述模型损失值大于预设损失阈值时，依据所述模型损失值调整所述预设图片文本模型中所述初始图片专家模块、所述初始文本专家模块以及所述初始图片文本专家模块中至少一个模块对应的模块参数，得到更新后的预设图片文本模型，通过所述更新后的预设图片文本模型以及所述全连接层，得到每个所述样本图片与所述样本文本之间的第二预测分值，并再次计算所述模型损失值；
91.在该实施例中，计算得到模型损失值后，当模型损失值小于或等于预设损失阈值时，可以直接将预设图片文本模型作为最终的基于多专家的图文模型。当模型损失值大于预设损失阈值时，说明预设图片文本模型的准确度还没有达到预期，可以进一步对预设图片文本模型的参数进行调整，具体可以调整初始图片专家模块、初始文本专家模块、初始图片文本专家模块中的一个或几个模块的参数，参数调整后可以得到更新的预设图片文本模型。对预设图片文本模型进行参数调整得到更新后的预设图片文本模型后，可以进一步根据训练样本集合，得到每个训练样本对应的第二预测分值，接着可以根据第二预测分值和对应的真实标签，再次通过预设交叉熵损失函数计算更新后的预设图片文本模型的模型损失值。之后可以再次判断模型损失值和预设损失阈值之间的大小关系，并当模型损失值仍旧大于预设损失阈值时，再次对更新后的预设图片文本模型的参数进行更新，并继续计算第三预测分值，通过第三预测分值和真实标签计算模型损失值
……
重复进行调整预设图片文本模型的模型参数和计算模型损失值的过程，直至模型损失值小于或等于预设损失阈
值。
92.步骤212，当所述模型损失值小于或等于所述预设损失阈值时，得到所述基于多专家的图文模型。
93.在该实施例中，当模型损失值小于或者等于预设损失阈值时，说明模型精度已经达到了预期，此时即得到了基于多专家的图文模型，此时基于多专家的图文模型中包括训练完成的目标图片专家模块、目标文本专家模块以及目标图片文本专家模块。本技术在对预设图片文本模型进行训练时，同时对初始图片专家模块、初始文本专家模块和初始图片文本专家模块进行训练，每个模块相当于原始bert模型的transformer层，其中初始图片专家模块和初始文本专家模块可以对应f层，初始图片文本专家模块对应(l-f)层。因此，本技术实施例可以根据实际业务情况的资源和时间需求，在训练过程灵活自由的配置l和f的大小，以使模型的训练更贴近于实际的业务需求，且初始图片专家模块和初始文本专家模块在训练过程中共享了multi-head attention层的参数，极大程度上减少了模型的参数量，降低了模型在部署时对gpu显存的需求。
94.在本技术实施例中，可选地，步骤212之后，所述方法还包括：接收待分析对象，并依据所述待分析对象的格式，从所述基于多专家的图文模型中确定对应的目标分析模块，其中，所述目标分析模块包括目标图片专家模块、目标文本专家模块以及目标图片文本专家模块中的至少一种；将所述待分析对象转换成对应的目标输入向量，并将所述目标输入向量输入至所述所述目标分析模块中，得到与所述待分析对象对应的目标输出向量，以通过所述目标输出向量得到目标结果。
95.在该实施例中，得到基于多专家的图文模型后，后续可以直接根据待分析对象从基于多专家的图文模型中确定一个或多个模块加以使用。具体地，首先，可以接收待分析对象，在这里，待分析对象可以是图片，也可以是文本。接收待分析对象后，可以对待分析对象的格式进行分析，根据待分析对象的格式确定选用的模块。确定选用的模块后，可以先将待分析对象转换成对应的目标输入向量，之后将目标输入向量输入到目标分析模块中，可以输出和待分析对象对应的目标输出向量。这样，后续可以通过使用目标输出向量得到目标结果。例如，当待分析对象为文本格式时，得到与待分析对象对应的目标输出向量后，后续可以再通过相应的相似性指标求得最相似的向量，以实现查找待分析对象的相似文本或相似图片。在这里，待分析对象转换为对应目标输入向量时，可以同样采用将图片划分成子图片，进而转换为子图片对应的目标输入向量的方法，或者同样采用将文本中每个字找到对应字向量，最后将字向量拼接在一起转换为目标输入向量的方法。
96.在本技术实施例中，可选地，所述依据所述待分析对象的格式，从所述基于多专家的图文模型中确定对应的目标分析模块，具体包括：当所述待分析对象的格式为图片格式时，将所述目标图片专家模块作为所述目标分析模块；当所述待分析对象的格式为文本格式时，将所述目标文本专家模块作为所述目标分析模块；当所述待分析对象的格式包括图片格式以及文本格式时，将所述目标图片专家模块、所述目标文本专家模块以及所述目标图片文本专家模块作为所述目标分析模块。
97.在该实施例中，可以根据待分析对象的格式确定目标分析模块，当待分析对象的格式是图片格式时，可以将基于多专家的图文模型中的目标图片专家模块作为目标分析模块；当待分析对象的格式是文本格式时，可以将基于多专家的图文模型中的目标文本专家
模块作为目标分析模块；当待分析对象的格式不但包括图片格式，同时还包括文本格式时，可以将基于多专家的图文模型中的目标图片专家模块、目标文本专家模块以及目标图片文本专家模块均作为目标分析模块，这样将文本格式的待分析对象转换为目标输入向量后，通过目标文本专家模块得到对应的输出向量，将图片格式的待分析对象转换为目标输入向量后，通过目标图片文本专家模块得到对应的输出向量，最后将目标文本专家模块对应的输出向量与目标图片文本专家模块对应的输出向量进行拼接作为目标图片文本专家模块对应的输入，得到目标输出向量。当待分析对象中既包括图片格式的待分析对象，又包括文本格式的待分析对象时，先通过目标图片专家模块输出与图片格式的待分析对象对应的向量，再通过目标文本专家模块输出与文本格式的待分析对象对应的向量，之后进行拼接输入到目标图片文本专家模块中，可以提升目标图片文本专家的目标输出向量的准确度，有利于提升后续的使用效果。
98.进一步的，作为图1方法的具体实现，本技术实施例提供了一种基于多专家的图文模型生成装置，如图3所示，该装置包括：
99.样本获取模块，用于获取训练样本集合，其中，所述训练样本集合包括多个训练样本，每个所述训练样本包括样本图片和样本文本，所述样本文本带有指示与所述样本图片之间关系的真实标签；
100.第一输入模块，用于基于任一所述训练样本中的所述样本图片，确定初始图片向量，并将所述初始图片向量输入至预设图片文本模型的初始图片专家模块，得到第一目标向量；
101.第二输入模块，用于基于所述任一所述训练样本中的所述样本文本，确定初始文本向量，并将所述初始文本向量输入至所述预设图片文本模型的初始文本专家模块，得到第二目标向量；
102.预测模块，用于依据所述第一目标向量以及所述第二目标向量，确定图片文本目标向量，将所述图片文本目标向量输入至所述预设图片文本模型的初始图片文本专家模块，并基于输出结果以及全连接层，得到所述样本图片与所述样本文本之间的第一预测分值；
103.模型训练模块，用于基于所述第一预测分值以及所述真实标签，确定所述预设图片文本模型的模型损失值，并基于所述模型损失值对所述预设图片文本模型进行训练，得到所述基于多专家的图文模型。
104.可选地，所述第一输入模块，具体用于：
105.确定所述样本图片的图片维度，其中，所述图片维度包括图片高度和/或图片宽度；基于预设划分尺寸，对所述样本图片的图片高度和/或图片宽度进行划分，得到与所述样本图片对应的子样本图片；将所述子样本图片通过预设转换工具转换成与每个所述子样本图片对应的所述初始图片向量。
106.可选地，所述第二输入模块，具体用于：
107.基于预设字向量数据库，从所述预设字向量数据库中分别确定所述样本文本中每个字对应的字向量，并将所述样本文本中每个字对应的字向量进行拼接，得到所述初始文本向量。
108.可选地，所述预测模块，具体用于：
frequency，rf)电路，传感器、音频电路、wi-fi模块等等。用户接口可以包括显示屏(display)、输入单元比如键盘(keyboard)等，可选用户接口还可以包括usb接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、wi-fi接口)等。
122.本领域技术人员可以理解，本实施例提供的一种计算机设备结构并不构成对该计算机设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。
123.存储介质中还可以包括操作系统、网络通信模块。操作系统是管理和保存计算机设备硬件和软件资源的程序，支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信，以及与该实体设备中其它硬件和软件之间通信。
124.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本技术可以借助软件加必要的通用硬件平台的方式来实现，也可以通过硬件实现。首先，可以获取训练样本集合，训练样本集合中可以包括多个训练样本，其中每个训练样本可以包括一个样本图片和一个样本文本。此外，样本文本还可以包括一个指示与样本图片之间关系的真实标签。对于训练样本集合中的每个训练样本，可以将训练样本中的样本图片进行转换，得到该样本图片对应的初始图片向量。接着，可以将初始图片向量输入到预设图片文本模型中的初始图片专家模块中，进而可以输出第一目标向量。此外还可以确定该训练样本中与样本图片对应的样本文本的初始文本向量。接着，可以将初始文本向量输入到预设图片文本模型中的初始文本专家模块中，进而可以输出第二目标向量。得到样本图片对应的第一目标向量以及样本文本对应的第二目标向量后，可以以第一目标向量和第二目标向量为基础，进一步确定图片文本目标向量。之后可以将图片文本目标向量作为输入，输入到预设图片文本模型的初始图片文本专家模块中，将初始图片文本专家模块的输出通过全连接层，输出样本图片和样本文本之间的第一预测分值。得到第一预测分值后，可以根据每个训练样本的第一预测分值和真实标签，确定预设图片文本模型的模型损失值，并以该模型损失值为基础，对预设图片文本模型进行训练，经过训练后可以得到基于图片专家、文本专家以及图片文本专家的多专家图文模型。本技术实施例可以使初始图片专家模块、初始文本专家模块以及初始图片文本专家模块实现共同训练，能够节省模型的训练和维护成本，有效减少计算机资源的占用。
125.本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本技术所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。
126.上述本技术序号仅仅为了描述，不代表实施场景的优劣。以上公开的仅为本技术的几个具体实施场景，但是，本技术并非局限于此，任何本领域的技术人员能思之的变化都应落入本技术的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于链接相似度的同义词提取方法及系统

一种基于多专家的图文模型生成方法、装置、设备及介质与流程

相关文献

最热文献