技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于视频问答的短视频标注方法与流程  >  正文

一种基于视频问答的短视频标注方法与流程

  • 国知局
  • 2024-11-21 12:05:24

本发明涉及视频问答,尤其是涉及一种基于视频问答的短视频标注方法。

背景技术:

1、视觉问答任务是人工智能领域一项具有挑战性和实用性的任务,属于一种多模态任务,主要是涉及计算机视觉和自然语言处理的一个交叉研究方向。视频问答(videoquestionanswering)是视觉问答中的一种任务类型,是用于处理视频与文本问题的多模态的推理任务。视频问答是指:给定一个视频和与该视频的相关问题,视频问答的目标是结合视频的视觉信息和问题文本内容,通过对视频和文本进行特征融合以及推理来获得问题的答案。

2、文本视觉问答(textvisualquestionanswering)是视觉问答中的一种任务类型,是用于处理图像与文本问题的多模态推理任务。文本视觉问答是指:给定一个图像和与该图像相关的问题,目标是通过识别图像中的场景文本和物体对象来进行联合推理以获得答案。与传统视觉问答任务不同的是,文本视觉问答更关注于图像的文本信息,而答案可以来自候选答案集,也可以来自图像中识别到的文本信息;

3、现有的影视桥段分割方法主要依赖于物理特征(如帧切换、镜头变化等)进行分割,然而这种方法忽略了视频内容的语义信息,导致分割精度不足,难以满足用户对高质量影视内容管理和推荐的需求。因此,迫切需要一种能够理解影视内容语义并自动分割桥段的方法,以提高分割的准确性和智能化水平。

技术实现思路

1、本发明的目的在于提供一种基于视频问答的短视频标注方法,以解决上述背景技术中提出的问题。

2、为实现上述目的,本发明提供如下技术方案:一种基于视频问答的短视频标注方法,包括如下步骤:

3、s1、从多个短视频平台按照不同视频类型,收集短视频素材,针对不同类型视频结合每个视频的时长设定每个类型视频提取帧频率;

4、s2、针对每个视频帧提取视觉对象和场景文本的高维特征表示,利用多模态变压器提取不同模态的特征向量序列;

5、s3、通过预训练的深度学习模型,识别视频帧中的物体结合场景检测模型进一步识别视频中场景变化;

6、s4、提取物体、场景信息后,生产相应的问答对模板,通过自然语言生成技术自动生成问答对;

7、s5、根据问答对生成视频标签,将标签与视频进行关联,存储至数据库中。

8、具体而言,所述s1中短视频素材类型包括动作类、静态类、访谈类以及风景类和安全监控类视频,将上述不同类型视频时长划分为多个时间段,并根据视频类型设定基础帧提取频率,同时根据视频时长动态调整帧提取频率,随后计算每段时间的帧提取间隔。

9、具体而言,所述基础帧提取频率设定,根据视频类型设定帧提取频率:

10、

11、其中ft为视频类型对应的基础帧提取频率,每秒提取帧数,所述时场调整系数设定,视频总时长t调整帧提取频率:

12、

13、其中,tmax是一个最大时长参考值,参考值为3600秒,其中fd时长调整系数,随着视频时长增加,提取频率的调整因子。

14、具体而言,所述动态帧提取频率计算,结合基础帧提取频率和时长调整系数,计算动态帧提取频率:

15、fdynamic=ft×fd

16、所述帧提取间隔计算根据动态帧提取频率计算帧提取间隔:

17、

18、其中,n视频总时长。

19、具体而言,所述s2中:对于提取帧,采用fasterr-cnn对象检测模型对每个视频解码,并根据设定的帧提取频率提取帧序列,将视频帧输入模型,获取检测结果包括检测到的对象边界框和类别标签,帧对象检测配合卷积网络神经提取每个检测到的对象的高位特征表示,使用fasterr-cnn模型的骨干网络直接提取特征表示;

20、采用ocr技术在每个视频帧中检测并识别场景文本,使用预训练模型将识别的文本编码呈高位特征表示;具体为解码视频文件并根据设定的帧提取频率提取帧序列,使用预训练的ocr模型,将视频帧输入ocr模型,获取检测到的文本区域和识别的文本内容,使用预训练的文本嵌入模型将识别的文本编码为高维特征表示,对识别的文本进行分词,并通过bert模型将其编码为高维特征表示。

21、具体而言,所述多模态特征融合中,将视觉对象特征和场景文本特征组合成多模态特征向量,然后多模态特征向量序列化,作为输入数据供多模态变压器模型使用,其次通过多模态变压器处理,对输入的多模态特征向量序列进行位置编码,使用多模态变压器处理输入的多模态特征向量序列,提取不同模态之间的关联特征。

22、具体而言,所述视觉对象特征包括:使用fasterr-cnn模型从每个视频帧中提取视觉对象特征,具体步骤如下:

23、输入预处理:将视频帧输入到fasterr-cnn模型中进行预处理,包括归一化和尺寸调整;

24、对象检测:使用fasterr-cnn模型检测视频帧中的对象,得到对象的边界框和类别信息;

25、特征提取:从检测到的对象区域中提取特征向量,通常使用resnet深度卷积神经网络提取高维特征;

26、所述场景文本特征提取包括,使用ocr即光学字符识别技术从每个视频帧中提取场景文本特征,具体步骤如下:

27、文本检测:使用文本检测算法(如east文本检测器)检测视频帧中的文本区域;

28、文本识别:使用ocr技术识别检测到的文本区域,获取文本内容;

29、特征表示:将识别到的文本进行编码,生成文本的高维特征表示,使用预训练的词嵌入模型或语言模型将文本转化为特征向量;

30、然后进行特征融合:

31、将视觉对象特征和场景文本特征进行融合,生成多模态特征向量,具体步骤如下:

32、特征对齐:对视觉对象特征和场景文本特征进行对齐,采用位置对齐、时间对齐策略,确保特征在同一时间点或空间区域上对应;

33、特征拼接:将对齐后的视觉对象特征和场景文本特征进行拼接,形成一个统一的特征向量,使用向量拼接、加权求和以及其他特征融合方法:

34、fmulti=[fvisual,ftext]

35、其中,fmulti是多模态特征向量,fvisual是视觉对象特征向量,ftext是场景文本特征向量;

36、具体而言,所述特征序列化:将多模态特征向量进行序列化,形成多模态特征向量序列,作为输入到多模态变压器模型中进行处理,具体步骤如下:

37、特征向量序列化:将每个视频帧的多模态特征向量按照时间顺序排列,形成特征向量序列:

38、s={fmulti,1,fmulti,2,…,fmulti,t}

39、其中,s是多模态特征向量序列,fmulti,1是第tt帧的多模态特征向量,t是视频帧的总数,然后输入到多模态变压器模型:将特征向量序列作为输入,送入多模态变压器模型中进行处理,生成不同模态的特征向量序列。

40、具体而言,将其输入到多模态变压器模型中处理,按照以下步骤进行,主要分为两个部分:多模态特征向量序列化以及通过多模态变压器处理输入的多模态特征向量序列;

41、所述多模态变压器处理:位置编码:

42、在将特征向量序列输入到变压器模型之前,需要对其进行位置编码,以便模型能利用顺序信息;

43、位置编码公式如下:

44、

45、其中,pos是位置,i是维度索引,d是特征向量的维度

46、将位置编码与多模态特征向量序列相加:

47、finput,t=fmulti,t+pet

48、多模态变压器处理:

49、使用多模态变压器模型对输入的多模态特征向量序列进行处理,提取不同模态之间的关联特征;

50、具体步骤如下:

51、多头自注意力机制:计算输入序列中每个位置的特征向量与其他位置特征向量的注意力权重;

52、

53、其中,q是查询向量,k是键向量,v是值向量,dk是特征向量的维度;

54、前馈神经网络:每个位置的特征向量通过两层前馈神经网络,进行非线性变换;

55、ffn(x)=max(0,xw1+b1)w2+b2

56、层归一化和残差连接:在多头自注意力和前馈神经网络之后,进行层归一化和残差连接;

57、foutput,t=layernorm(x+ffn(attention(q,k,v)))。

58、具体而言,所述根据视频时长和帧率提取视频帧,设定视频的总帧数为n,帧率为f,则第i帧的视频帧可以表示为:

59、framei=v(i),i=1,2,…,n;

60、利用预训练的对象检测模型,对于每个视频帧,模型输出包含物体类别、边界框和置信度,设第i帧检测到的物体类别集合为ci,边界框集合为bi:

61、

62、所述利用预训练的场景检测模型(如places365)对每个视频帧进行场景检测,每个视频帧会被分类到一个场景类别,设第i帧的场景类别为si,场景概率向量为pi,则有:

63、si=argmaxpi

64、pi={pi1,pi2,…,pim}

65、结合物体检测和场景检测的结果,识别视频中的场景变化和物体变化,通过统计每个帧中检测到的物体和场景,来分析视频中的变化趋势;

66、计算每个物体类别在所有帧中的出现次数:

67、

68、其中,δ为指示函数,当c=cij时,δ(c,cij)=1,否则δ(c,cij)=0;

69、通过将物体检测和场景检测的结果结合起来,可以得到每个视频帧的综合分析结果;可以计算每个视频帧的特征向量,综合物体和场景信息:

70、fi=[ci,si]

71、最终,视频帧的特征向量序列可以表示为:

72、f={f1,f2,…,fn}。

73、与现有技术相比,本发明的有益效果是:

74、1.本发明提供了一种基于影视内容语义分析的影视桥段自动分割方法,通过多模态数据采集、预处理、语义分析、多模态融合和桥段分割等步骤,实现了对影视内容的精准分割。该系统能够在复杂的影视内容中准确识别语义边界,具有广泛的应用前景和市场价值;

75、2.本发明的基于影视内容语义分析的影视桥段自动分割方法在特征标准化、特征融合和时间同步方面均进行了改进,显著提高了系统的分割精度和智能化水平,具有更广泛的应用前景和市场价值;

76、3.本发明将视觉对象特征和场景文本特征组合成多模态特征向量,并使用多模态变压器模型提取不同模态之间的关联特征。这样能够有效地利用多模态信息,提高视频内容的理解和分析能力。

本文地址:https://www.jishuxx.com/zhuanli/20241120/334225.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。