技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于关系增强策略梯度和并行权重控制的跨模态检索方法 > 正文

基于关系增强策略梯度和并行权重控制的跨模态检索方法

国知局
2024-11-19 09:44:41

本发明涉及一种跨模态检索方法，具体涉及一种基于关系增强策略梯度和并行权重控制的跨模态检索方法。

背景技术：

1、随着多媒体的快速发展，互联网上有大量的信息，如图像、文本、视频、音频等。手工获取海量数据中不同模态之间的有用信息变得越来越困难。自然，我们需要一种强大的方法来帮助我们获得我们需要的文本、图像或视频。跨模态检索以数据的一种模态作为查询，检索另一种模态的相关数据。例如，我们可以使用文本来检索感兴趣的图像(就像我们在谷歌图像搜索上所做的那样)，或者使用图像来检索相应的文本。当然，模态不限于图像和文本，其他模态如语音、物理信号和视频也可以作为跨模态检索的一个组成部分。许多最近的跨模态检索方法使用预训练的目标检测器来处理图像特征。图像通常包含大量的视觉信息，但并不是所有的目标区域都会在图像描述中提到，所以需要控制每个目标区域特征在最终图像全局特征向量中的参与程度。以往的工作对每个区域特征采用直接平均的方法，即对所有目标区域都同等对待，但效果不佳。有工作提出利用注意机制确定每个区域特征对最终图像全局特征的重要程度，并取得了一些进展。然而，这些方法普遍缺乏对注意机制的有效监督，这使得跨模态检索任务注意机制的改进仍然有限。与图像分支类似，文本句子通常包含名词、动词、形容词、副词、介词等，并不是所有的单词都对最终文本的全局特征向量有贡献。所以需要控制每个单词特征在最终文本全局特征向量中的参与程度。

技术实现思路

1、为了更好地进行跨模态检索，本发明提供了一种基于关系增强策略梯度和并行权重控制的跨模态检索方法。

2、本发明的目的是通过以下技术方案实现的：

3、一种基于关系增强策略梯度和并行权重控制的跨模态检索方法，包括如下步骤：

4、步骤一、对于图像-文本对中的图像部分，使用bua(bottom up attention)作为图像分支的基础图像网络，选择图像-文本对中的图像作为图像分支的输入，针对每个图像i输出一组显著区域的特征v＝{v1,…,vi,…,vn}来表示该图像，其中：vi表示编码的第i个显著区域的特征向量，i＝1,…,n，n表示图像中显著区域的个数，d表示特征向量的维度；

5、步骤二、对于图像-文本对中的文本部分，使用词编码，将每个token编码为词向量，然后使用双向gru作为文本分支的基础文本网络，将单词序列转化为文本表示u＝{u1,…,ui,…,um}，其中：ui表示编码的第i个文本单词的特征向量，i＝1,…,m，m表示句子中单词的个数；

6、步骤三、利用自注意力机制建模任意图像区域特征与所有图像区域特征之间的关系，并使用策略梯度和并行权重控制来指导所有图像区域特征在最终图像全局特征中的权重大小，得到图像全局特征vgl；

7、步骤四、利用自注意力机制建模任意文本单词特征与所有文本单词特征之间的关系，并使用策略梯度和并行权重控制来指导所有文本单词特征在最终文本全局特征中的权重大小，得到文本全局特征ugl；

8、步骤五、利用图像全局特征和文本全局特征执行相似性匹配，并采用带有难负样本挖掘的铰链损失进行监督，利用离散连续策略梯度的优化目标，对图像区域特征和文本单词特征的权重进行监督。

9、相比于现有技术，本发明具有如下优点：

10、1、本发明利用自注意力机制对模态内任意局部特征与所有局部特征之间的关系进行建模，从而更准确地利用离散和连续的策略梯度来估计该局部特征在最终全局特征中的权重。

11、2、本发明提出的并行权重控制显著提高跨模态检索模型的训练和推理效率。

12、3、本发明的方法可以很好地进行跨模态检索，在多个数据库上取得了具有竞争力的结果，并且具有较高的训练和推理效率。

技术特征：

1.一种基于关系增强策略梯度和并行权重控制的跨模态检索方法，其特征在于所述方法包括如下步骤：

2.根据权利要求1所述的基于关系增强策略梯度和并行权重控制的跨模态检索方法，其特征在于所述步骤一的具体步骤如下：

3.根据权利要求1所述的基于关系增强策略梯度和并行权重控制的跨模态检索方法，其特征在于所述步骤二的具体步骤如下：

4.根据权利要求1所述的基于关系增强策略梯度和并行权重控制的跨模态检索方法，其特征在于所述步骤三的具体步骤如下：

5.根据权利要求1所述的基于关系增强策略梯度和并行权重控制的跨模态检索方法，其特征在于所述步骤四的具体步骤如下：

6.根据权利要求4所述的基于关系增强策略梯度和并行权重控制的跨模态检索方法，其特征在于所述步骤五的具体步骤如下：

技术总结本发明公开了一种基于关系增强策略梯度和并行权重控制的跨模态检索方法，所述方法如下：一、针对每个图像输出一组显著区域的特征来表示该图像；二、使用词编码将每个token编码为词向量，将单词序列转化为文本表示；三、使用策略梯度和并行权重控制指导所有图像区域特征在最终图像全局特征中的权重大小，得到图像全局特征；四、使用策略梯度和并行权重控制指导所有文本单词特征在最终文本全局特征中的权重大小，得到文本全局特征；五、利用图像全局特征和文本全局特征执行相似性匹配，采用带有难负样本挖掘的铰链损失进行监督，利用离散连续策略梯度的优化目标对图像区域特征和文本单词特征的权重进行监督。本发明可以很好地进行跨模态检索。技术研发人员：张力,杨忠生,杨亚虎,姚春丽受保护的技术使用者：哈尔滨工业大学技术研发日：技术公布日：2024/11/14