技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种视频文本检索方法、装置、电子设备和存储介质与流程 > 正文

一种视频文本检索方法、装置、电子设备和存储介质与流程

国知局
2024-10-21 14:24:47

本申请涉及人工智能领域，具体涉及一种视频文本检索方法、装置、电子设备和存储介质。

背景技术：

1、随着互联网技术的发展，人们利用互联网可以存储并获取内容极其丰富的视频数据，然而，庞大的数据存储会带来检索困难的问题，由于数据量过于庞大，从庞大的数据存储中确定希望获取的数据变得愈发困难，往往会由于检索系统的不够完善，使得无法从存储的数据中获取到准确的信息。

2、丰富的信息需要经过精准的筛选呈现在用户面前，对于检索系统，需要提供精准化的检索与服务。因此，跨模态检索系统成为了当今关注的热点。例如，视频文本跨模态检索是一个重要且具有挑战性的经典计算机视觉任务，而利用当前技术方案进行视频文本跨模态检索会出现文本描述内容与检索出的真实视频内容不完全匹配的问题，使得视频文本跨模态检索不够准确。

技术实现思路

1、本申请实施例提供一种视频文本检索方法、装置、电子设备和存储介质，可以提高视频文本检索的准确程度。

2、本申请实施例提供一种视频文本检索方法，包括：

3、获取待检索视频、以及请求文本，并获取所述待检索视频对应的视频特征、以及所述请求文本对应的文本特征；

4、确定所述待检索视频对应的第一视频注意力权重、以及第二视频注意力权重，并确定所述请求文本对应的第一文本注意力权重、以及第二文本注意力权重；

5、通过所述第一视频注意力权重调整所述文本特征，并通过所述第二视频注意力权重调整所述视频特征，得到信息交互后视频特征；

6、通过所述第一文本注意力权重调整所述视频特征，并通过所述第二文本注意力权重调整所述文本特征，得到信息交互后文本特征；

7、基于所述信息交互后视频特征与所述信息交互后文本特征之间的相似程度，确定所述待检索视频是否为所述请求文本对应的检索结果。

8、相应的，本申请实施例提供一种视频文本检索装置，包括:

9、获取单元，用于获取待检索视频、以及请求文本，并获取所述待检索视频对应的视频特征、以及所述请求文本对应的文本特征；

10、确定单元，用于确定所述待检索视频对应的第一视频注意力权重、以及第二视频注意力权重，并确定所述请求文本对应的第一文本注意力权重、以及第二文本注意力权重；

11、第一调整单元，用于通过所述第一视频注意力权重调整所述文本特征，并通过所述第二视频注意力权重调整所述视频特征，得到信息交互后视频特征；

12、第二调整单元，用于通过所述第一文本注意力权重调整所述视频特征，并通过所述第二文本注意力权重调整所述文本特征，得到信息交互后文本特征；

13、检索单元，用于基于所述信息交互后视频特征与所述信息交互后文本特征之间的相似程度，确定所述待检索视频是否为所述请求文本对应的检索结果。

14、可选的，在本申请的一些实施例中，所述确定单元用于确定所述待检索视频对应的在查询维度上的第一视频注意力权重、键维度上的视频键注意力权重、以及值维度上的视频值注意力权重，其中，所述第二视频注意力权重包括所述视频键注意力权重、以及所述视频值注意力权重；确定所述请求文本对应的在查询维度上的第一文本注意力权重、键维度上的文本键注意力权重、以及值维度上的文本值注意力权重，其中，所述第二文本注意力权重包括所述文本键注意力权重、以及所述文本值注意力权重。

15、可选的，在本申请的一些实施例中，所述第一调整单元用于通过所述第一视频注意力权重调整所述文本特征，得到第一文本特征矩阵；通过所述视频键注意力权重调整所述视频特征，得到第二视频特征矩阵；通过所述视频值注意力权重调整所述视频特征，得到第三视频特征矩阵；将所述第一文本特征矩阵、所述第二视频特征矩阵、以及所述第三视频特征矩阵进行信息交互，得到信息交互后视频特征。

16、可选的，在本申请的一些实施例中，所述第二调整单元用于通过所述第一文本注意力权重调整所述视频特征，得到第一视频特征矩阵；通过所述文本键注意力权重调整所述文本特征，得到第二文本特征矩阵；通过所述文本值注意力权重调整所述文本特征，得到第三文本特征矩阵；将所述第一视频特征矩阵、所述第二文本特征矩阵、以及所述第三文本特征矩阵进行信息交互，得到信息交互后文本特征。

17、可选的，在本申请的一些实施例中，所述获取单元包括获取子单元、输入子单元、以及调整子单元，如下：

18、获取子单元，用于获取待检索视频的视频帧；

19、输入子单元，用于将所述视频帧输入图像编码器，得到所述视频帧对应的初始视频特征；

20、调整子单元，用于基于所述初始视频特征进行自注意力权重计算，得到自注意力视频权重，并通过所述自注意力视频权重调整所述初始视频特征，得到视频特征。

21、可选的，在本申请的一些实施例中，所述输入子单元用于对所述视频帧进行图像分割，得到若干图像块；对每个所述图像块进行特征提取，得到每个所述图像块对应的初始图像块特征；对每个所述图像块对应的初始图像块特征添加位置编码信息，得到所述待检索视频对应的初始视频特征。

22、可选的，在本申请的一些实施例中，所述调整子单元用于确定所述初始视频特征中每个特征元素对应的自注意力视频权重；基于所述自注意力视频权重，确定所述特征元素对应的在查询维度上的第一特征矩阵、键维度上的第二特征矩阵、以及值维度上的第三特征矩阵；基于所述第一特征矩阵、以及所述第二特征矩阵，得到自注意力特征矩阵，所述自注意力特征矩阵表述所述视频帧中不同特征元素之间的相关程度；基于所述特征相关性、以及所述第三特征矩阵，得到视频特征。

23、可选的，在本申请的一些实施例中，所述获取单元用于获取请求文本；将所述请求文本输入文本编码器，得到所述请求文本对应的初始文本特征；基于所述初始文本特征进行自注意力权重计算，得到自注意力文本权重，并通过所述自注意力文本权重调整所述初始文本特征，得到文本特征。

24、本申请实施例提供的一种电子设备，包括处理器和存储器，所述存储器存储有多条指令，所述处理器加载所述指令，以执行本申请实施例提供的视频文本检索方法中的步骤。

25、此外，本申请实施例还提供一种存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现本申请实施例提供的视频文本检索方法中的步骤。

26、本申请实施例提供了一种视频文本检索方法、装置、电子设备和存储介质，可以获取待检索视频、以及请求文本，并获取视频特征、以及文本特征；确定第一视频注意力权重、以及第二视频注意力权重，并确定第一文本注意力权重、以及第二文本注意力权重；通过第一视频注意力权重调整文本特征，并通过第二视频注意力权重调整视频特征，得到信息交互后视频特征；通过第一文本注意力权重调整视频特征，并通过第二文本注意力权重调整文本特征，得到信息交互后文本特征；基于信息交互后视频特征与信息交互后文本特征，确定待检索视频是否为请求文本对应的检索结果。本申请可以提高视频文本检索的准确程度。

技术特征：

1.一种视频文本检索方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述确定所述待检索视频对应的第一视频注意力权重、以及第二视频注意力权重，并确定所述请求文本对应的第一文本注意力权重、以及第二文本注意力权重，包括：

3.根据权利要求2所述的方法，其特征在于，所述通过所述第一视频注意力权重调整所述文本特征，并通过所述第二视频注意力权重调整所述视频特征，得到信息交互后视频特征，包括：

4.根据权利要求2所述的方法，其特征在于，所述通过所述第一文本注意力权重调整所述视频特征，并通过所述第二文本注意力权重调整所述文本特征，得到信息交互后文本特征，包括：

5.根据权利要求1所述的方法，其特征在于，所述获取待检索视频，并获取所述待检索视频对应的视频特征，包括：

6.根据权利要求5所述的方法，其特征在于，所述将所述视频帧输入图像编码器，得到所述视频帧对应的初始视频特征，包括：

7.根据权利要求5所述的方法，其特征在于，所述基于所述初始视频特征进行自注意力权重计算，得到自注意力视频权重，并通过所述自注意力视频权重调整所述初始视频特征，得到视频特征，包括：

8.根据权利要求1所述的方法，其特征在于，所述获取请求文本，并获取所述请求文本对应的文本特征，包括：

9.一种视频文本检索装置，其特征在于，包括：

10.一种电子设备，其特征在于，包括存储器和处理器；所述存储器存储有应用程序，所述处理器用于运行所述存储器内的应用程序，以执行权利要求1至8任一项所述的视频文本检索方法中的操作。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至8任一项所述的视频文本检索方法中的步骤。

12.一种计算机程序产品，包括计算机程序或指令，其特征在于，该计算机程序或指令被处理器执行时实现权利要求1至8任一项所述的视频文本检索方法中的步骤。

技术总结本申请公开了一种视频文本检索方法、装置、电子设备和存储介质；该方法涉及人工智能领域中的计算机视觉方向，可以获取待检索视频、以及请求文本，并获取视频特征、以及文本特征；确定第一视频注意力权重、以及第二视频注意力权重，并确定第一文本注意力权重、以及第二文本注意力权重；通过第一视频注意力权重调整文本特征，并通过第二视频注意力权重调整视频特征，得到信息交互后视频特征；通过第一文本注意力权重调整视频特征，并通过第二文本注意力权重调整文本特征，得到信息交互后文本特征；基于信息交互后视频特征与信息交互后文本特征，确定待检索视频是否为请求文本对应的检索结果。本申请可以提高视频文本检索的准确程度。技术研发人员：裴唯一,曲直,谢晓辉,史勤受保护的技术使用者：腾讯科技（深圳）有限公司技术研发日：技术公布日：2024/10/17