视频检索方法、装置及计算机设备与流程
- 国知局
- 2024-11-25 15:18:01
本技术涉及计算机图形及图像视频处理,特别是涉及一种视频检索方法、装置及计算机设备。
背景技术:
1、视频检索是一种涉及在大规模视频数据库中定位、检索和获取用户感兴趣的视频内容的技术和方法,旨在帮助用户在海量视频资源中快速找到所需内容。视频检索系统在多个领域具有广泛的应用前景,包括但不限于:数字图书馆、影视娱乐、电子商务以及医疗辅助等领域。例如手术视频检索系统可以帮助医生检索到相似案例的手术视频,通过对手术录像的分析和处理,学习手术技巧和操作流程。随着技术的进步,相比于传统对视频人工打标签描述方式,出现了基于视频图像特征、音频特征等作为视频描述来进行检索的方案,提升了检索的准确性和效率。
2、在现有技术中,有的方案对视频进行了多模态特征提取,为了将多模态特征和检索文本的向量特征进行相似度比对,需要对多模态特征进行池化、对齐及多模态融合等操作,导致其提取的手术视频多模态特征缺乏语义描述性;还有的方案对视频流中的每帧图像提取特征,通过文本序列模型提取出每帧的文本描述,构建了每个视频的基于章节属性的映射关系。根据用户下发的文本检索信息,依次检索到目标章目标节,最终得到目标帧图片,其主要目的为在视频中检索出相关帧,且其采用传统视频检索方法,提取视频文本标签,与检索文本进行匹配,丢失手术视频本身的图像表征信息。
3、综上所述,现有的技术视频检索方案中,存在对视频的描述能力较差的问题,影响视频检索的准确性。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种能够提升视频描述能力,提高检索质量的视频检索方法、装置及计算机设备。
2、第一方面,本技术提出一种视频检索方法,所述方法包括:
3、针对待检索视频的每一视频帧进行要素检测,得到目标结构集合和目标器械集合;所述目标结构集合为包含目标结构要素的所述视频帧的集合,所述目标器械集合为包含目标器械要素的所述视频帧的集合;
4、从所述目标器械集合的视频帧中提取所述目标器械的操作信息;基于所述操作信息将所述待检索视频进行分段,得到动作分段集合;
5、基于所述目标结构集合和所述动作分段集合,建立所述待检索视频的第一结构化特征库;
6、在检索时,基于用户提供的检索数据和所述第一结构化特征库,得到检索结果。
7、在其中的一些实施例中,针对待检索视频的每一视频帧进行要素检测,得到目标结构的集合和目标器械的集合,包括:
8、分别基于器官检测模型、病灶检测模型以及器械检测模型,对待检索视频的每一视频帧进行要素检测,得到器官集合、病灶集合以及目标器械集合。
9、在其中的一些实施例中,从所述目标器械集合的视频帧中提取所述目标器械的操作信息,包括:
10、从所述目标器械集合的视频帧中提取关键区域视频;
11、从所述关键区域视频中,分别提取所述目标器械在空间上的移动信息、操作类别以及操作特征;
12、基于所述移动信息、所述操作类别以及所述操作特征,得到每一种所述目标器械在每一帧中的操作信息。
13、在其中的一些实施例中,从所述关键区域视频中,分别提取所述目标器械在空间上的移动信息、操作类别以及操作特征,包括:
14、将所述关键区域视频输入深度光流模型,预测得到前后两帧在x方向和y方向上的光流向量图,基于所述光流向量图得到所述目标器械在所述x方向和所述y方向上的移动量;
15、将所述关键区域视频输入深度估计模型,预测得到每个像素的深度值图,基于所述深度值图,得到所述目标器械在z方向上的移动量;
16、基于所述x方向、所述y方向、所述z方向上的所述移动量,得到所述目标器械在空间上的移动信息;
17、基于固定帧数及滑动步长将所述关键区域视频划分为视频段;将所述视频段输入三维卷积分类网络模型,输出各个所述视频段对应的操作类别和操作特征。
18、在其中的一些实施例中,基于所述操作信息将所述待检索视频进行分段,得到动作分段集合,包括:
19、基于所述操作信息中的所述操作类别,构建每一视频帧对应的操作编码向量;
20、遍历所述操作编码向量,当相邻两帧的所述操作编码向量不相等时,将前一帧作为分界点,对所述待检索视频进行分段,得到动作分段集合。
21、在其中的一些实施例中,基于所述目标结构集合和所述动作分段集合,建立所述待检索视频的第一结构化特征库,包括:
22、基于所述目标结构集合得到器官信息和病灶信息;
23、基于所述动作分段集合得到动作编码信息、时序归一化特征及动作评分;
24、基于所述器官信息、病灶信息、动作编码信息、时序归一化的特征及动作评分,建立所述待检索视频的第一结构化特征库。
25、在其中的一些实施例中,基于所述动作分段集合得到动作编码信息、时序归一化特征及动作分段评分,包括:
26、基于所述操作信息,获取各个所述动作分段的分段操作信息;
27、基于所述分段操作信息中的操作编码向量,得到动作编码信息;
28、基于所述分段操作信息中的移动信息,计算时序归一化的位移量特征;
29、基于所述分段操作信息中的操作特征,计算时序归一化的视觉特征;
30、将所述时序归一化的位移量特征和所述时序归一化的视觉特征进行拼接,得到拼接特征,将所述拼接特征输入训练完备的动作评估模型,得到动作评分。
31、在其中的一些实施例中,在检索时,基于用户提供的检索数据和所述结构化特征库,得到检索结果,包括:
32、当所述检索数据为检索条目时,基于所述检索条目与所述第一结构化特征库的匹配结果,得到目标视频;
33、当所述检索数据为参考视频时,建立所述参考视频的第二结构化特征库,将所述第二结构化特征库和所述第一结构化特征库进行比对,得到与所述参考视频匹配的目标视频,并输出结构化的比对结果。
34、第二方面,本技术还提供了一种视频检索装置,所述装置包括:
35、要素检测模块,用于针对待检索视频的每一视频帧进行要素检测,得到目标结构集合和目标器械集合;所述目标结构集合为包含目标结构要素的所述视频帧的集合,所述目标器械集合为包含目标器械要素的所述视频帧的集合;
36、动作分段模块,用于从所述目标器械集合的视频帧中提取所述目标器械的操作信息;基于所述操作信息将所述待检索视频进行分段,得到动作分段集合;
37、构建特征库模块,用于基于所述目标结构集合和所述动作分段集合,建立所述待检索视频的第一结构化特征库;
38、检索模块,用于在检索时,基于用户提供的检索数据和所述第一结构化特征库,得到检索结果。
39、第三方面,本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现第一方面所述的视频检索方法。
40、第四方面,本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的视频检索方法。
41、上述视频检索方法、装置及计算机设备,通过针对待检索视频的每一视频帧进行要素检测,得到目标结构集合和目标器械集合;所述目标结构集合为包含目标结构要素的所述视频帧的集合,所述目标器械集合为包含目标器械要素的所述视频帧的集合;从所述目标器械集合的视频帧中提取所述目标器械的操作信息;基于所述操作信息将所述待检索视频进行分段,得到动作分段集合;基于所述目标结构集合和所述动作分段集合,建立所述待检索视频的第一结构化特征库;在检索时,基于用户提供的检索数据和所述第一结构化特征库,得到检索结果;解决了对医疗目标视频的描述能力较差的问题,提高了视频检索的准确性。
本文地址:https://www.jishuxx.com/zhuanli/20241125/337216.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表