技术新讯 > 计算推算,计数设备的制造及其应用技术 > 视频检索方法、装置、电子设备及可读存储介质与流程 > 正文

视频检索方法、装置、电子设备及可读存储介质与流程

国知局
2024-12-06 12:29:35

本申请属于计算机，具体涉及一种视频检索方法、装置、电子设备及可读存储介质。

背景技术：

1、随着互联网的高速发展以及短视频应用的广泛普及，视频数据的规模呈现指数级增长，越来越多的视频文件存储在云手机、云盘、在线视频等平台。面对形式各样、规模庞大的视频文件，单纯依靠手动查找并浏览内容的检索方式已无法满足用户的需求。在相关技术中，通过用户输入的检索文本与检索引擎进行交互的会话搜索形式实现视频检索。

2、但其只侧重检索文本与视频文件的视觉特征之间的相似性，或者分别针对视觉特征、文本特征等单模态特征进行检索再融合加权的方式进行决策，既忽略了视频文件的多模态特征信息之间的关联关系，也忽略了检索文本与视频文件之间的细粒度关系，从而影响了视频检索的效率和准确性。

技术实现思路

1、本申请实施例提供一种视频检索方法、装置、电子设备及可读存储介质，能够解决相关技术中既忽略了视频文件的多模态特征信息之间的关联关系，也忽略了检索文本与视频文件之间的细粒度关系，从而影响了视频检索的效率和准确性的问题。

2、第一方面，本申请实施例提供了视频检索方法，该方法包括：获取待检索文本对应的语句语义特征、待检索视频文件中各个关键帧的视觉语义特征以及各个所述关键帧的文本语义特征；根据所述视觉语义特征以及所述文本语义特征，确定所述待检索视频文件中各个事件场景分别对应的事件场景语义特征；根据所述语句语义特征以及所述事件场景语义特征，确定所述待检索视频文件与所述待检索文本之间的相似度；根据所述相似度，确定候选视频文件。

3、第二方面，本申请实施例提供了视频检索装置，该装置包括：获取模块，用于获取待检索文本对应的语句语义特征、待检索视频文件中各个关键帧的视觉语义特征以及各个所述关键帧的文本语义特征；第一确定模块，用于根据所述视觉语义特征以及所述文本语义特征，确定所述待检索视频文件中各个事件场景分别对应的事件场景语义特征；第二确定模块，用于根据所述语句语义特征以及所述事件场景语义特征，确定所述待检索视频文件与所述待检索文本之间的相似度；第三确定模块，用于根据所述相似度，确定候选视频文件。

4、第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

5、第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

6、第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法的步骤。

7、第六方面，本申请实施例提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序或指令，所述程序或指令被执行时实现如第一方面所述的方法的步骤。

8、在本申请实施例中，通过获取待检索文本对应的语句语义特征、待检索视频文件中各个关键帧的视觉语义特征以及各个所述关键帧的文本语义特征；根据所述视觉语义特征以及所述文本语义特征，确定所述待检索视频文件中各个事件场景分别对应的事件场景语义特征；根据所述语句语义特征以及所述事件场景语义特征，确定所述待检索视频文件与所述待检索文本之间的相似度；根据所述相似度，确定候选视频文件。实现了兼顾待检索视频文件的视觉语义特征和文本语义特征，基于该视觉语义特征和文本语义特征将待检索视频文件表达为事件场景语义特征，融合了视频文件的多模态特征信息，从而能够确定更准确的相似度以确定候选视频文件，提高了视频检索的效率和准确性。

技术特征：

1.一种视频检索方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述视觉语义特征以及所述文本语义特征，确定所述待检索视频文件中各个事件场景分别对应的事件场景语义特征，包括：

3.根据权利要求2所述的方法，其特征在于，所述针对第k个事件场景，根据所述全局特征以及第k-1个事件场景对应的事件场景语义特征，确定所述第k个事件场景对应的第三权重，包括：

4.根据权利要求1所述的方法，其特征在于，在所述根据所述相似度，确定候选视频文件之前，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，在所述获取待检索文本对应的语句语义特征、待检索视频文件中各个关键帧的视觉语义特征以及各个所述关键帧的文本语义特征之后，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，在所述基于所述文本语义特征对所述待检索视频文件进行聚类，得到多个视频聚类簇之后，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，在所述获取待检索视频文件中各个关键帧的视觉语义特征以及各个所述关键帧的文本语义特征之前，所述方法还包括：

8.根据权利要求1所述的方法，其特征在于，在所述根据所述相似度，确定候选视频文件之后，所述方法还包括：

9.根据权利要求1所述的方法，其特征在于，所述获取待检索文本对应的语句语义特征，包括：

10.根据权利要求1所述的方法，其特征在于，所述获取待检索视频文件中各个关键帧的视觉语义特征以及各个所述关键帧的文本语义特征，包括：

11.一种视频检索装置，其特征在于，包括：

12.一种电子设备，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1至10任一项所述的视频检索方法的步骤。

13.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1至10任一项所述的视频检索方法的步骤。

14.一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序或指令，所述程序或指令被执行时实现如权利要求1至10任一项所述视频检索方法的步骤。

技术总结本申请公开了一种视频检索方法、装置、电子设备及可读存储介质，该方法包括：获取待检索文本对应的语句语义特征、待检索视频文件中各个关键帧的视觉语义特征以及各个所述关键帧的文本语义特征；根据所述视觉语义特征以及所述文本语义特征，确定所述待检索视频文件中各个事件场景分别对应的事件场景语义特征；根据所述语句语义特征以及所述事件场景语义特征，确定所述待检索视频文件与所述待检索文本之间的相似度；根据所述相似度，确定候选视频文件。技术研发人员：郑正广,关矛,张杰,林立言,郑永欣,沈子璐受保护的技术使用者：中移互联网有限公司技术研发日：技术公布日：2024/12/2