基于自进化扰动机制的长视频文本描述方法
- 国知局
- 2024-07-31 22:44:15
本发明涉及计算机视觉,具体涉及到一种基于长视频文本描述方法。
背景技术:
1、长视频文本描述任务旨在为包含多个事件的、未经修剪的视频生成连贯的多句子描述。由于该技术在智能监控、行人异常行为检测,人员搜救等领域有极高的应用价值,引发了工业界的广泛关注与研究。但是长视频中通常包含多个事件,这要求模型既要检测出视频中的时间,并对每个事件生成适当的文本描述。这给长视频文本描述带来了很大的困难。
2、现有的两阶段方法是先检测视频中的事件,然后为每个事件生成描述,但是事件检测模型的精确度以及模型计算开销大等制约着智能监控等的实际应用。近年来,一阶段方法因其省略事件检测阶段,并直接从未经修剪的长视频中生成描述而变得流行。尽管这种方法减少了计算代价,但是当前的一阶段方法生成的段落与视频内容的相关性较差,这为这个任务的实际应用引入了新的问题。
技术实现思路
1、为了克服现有技术的不足,本发明提供一种基于自进化扰动机制的长视频文本描述方法,该方法实现了自适应提取关键信息和实时处理的要求。
2、本发明解决其技术问题所采用的技术方案包括以下步骤:
3、步骤1:一个长视频首先被分成若干个不重叠的视频片段,对于每一个视频片段,经过预训练的3dcnn卷积神经网络后,提取得到一个特征图(feature map),其中表示视频片段的数量,表示第一个视频片段提取得到的特征, 表示第二个视频片段提取得到的特征,表示第l个视频片段提取得到的特征;
4、步骤2:利用transformer编码器对提取的视频片段的特征图进行编码;将每个视频片段得到的特征图都作为一个token输入到transformer的编码器中,得到编码后的视频特征为:
5、
6、其中表示前馈神经网络,表示多头注意力机制;
7、步骤3:在解码器部分引入了自进化扰动机制,包括层内扰动和层间扰动两个方面;核心思路是在解码器的每一层自注意力计算时,通过可学习的扰动项自适应调整注意力权重分布,使其更关注对当前生成词语重要的视频片段;同时,利用解码器不同层次的特征感受野差异,通过自蒸馏损失函数促进不同层次特征的融合,以捕捉视频的长程和短程依赖。两种自进化扰动的协同作用,使得解码器能够自适应地挖掘视频的关键信息,生成与视频内容更加贴合的描述文本;
8、步骤4:加入扰动的目的是为了以自进化的方式识别出长视频中的关键帧,所以更重要的视频片段的移除对最终损失的影响应该越大,使用负的mle损失对扰动生成器进行更新,扰动损失为:
9、
10、其中, 表示视频段落描述的损失函数,表示扰动生成器的参数,为平衡正则项和扰动损失的超参数,正则项用来稳定训练过程;
11、步骤5:在得到解码器第t个时间步的扰动项后,扰动项指导原始的注意力权重分布的调整,从而更好地捕捉到长视频中的关键帧;
12、步骤6:在步骤4中进行了层内的扰动后,利用transformer解码器不同层学习到的信息差异,进行层间的自进化扰动;由于transformer的浅层倾向于捕捉短程依赖,而深层能够建模更长远的依赖关系,因此通过层间的信息交互和融合,增强模型对长视频中长程和短程关系的建模能力;
13、步骤7:最终,将自蒸馏损失与原始的交叉熵损失相加,得到总的训练目标为:
14、
15、其中,为交叉熵损失,为自蒸馏损失,为平衡两个损失项的权重系数;通过联合优化两个损失函数,使模型在生成准确、连贯的文本描述的同时,能够自适应地挖掘长视频中的关键信息,提高生成文本与视频的相关性。
16、所述步骤3中,对于transformer编码器生成的特征,在decoder每一层自注意力计算中引入自进化扰动,具体的,在计算注意力权重时,首先生成一个可学习的扰动器:
17、
18、其中代表sigmoid函数,代表点乘,q和k分别代表注意力计算中的查询向量query和键向量key,查询向量query代表当前正在处理的词语的特征向量,键向量key代表编码器输出的每个视频片段的特征向量,表示查询向量和键向量的维度; 扰动项与原始注意力权重形状相同,其元素值经过sigmoid函数映射到0到1之间,将扰动项与原始注意力权重按照以下方式融合:
19、
20、其中,表示元素之间的点乘,表示均匀分布的初始权重,扰动项的值越大,融合后的权重就越接近原始权重;反之;融合后的权重就越接近均匀分布;通过融合操作;扰动项自适应地调整每个时间步的注意力权重分布;经过训练优化后;扰动项能够学会根据当前生成词语的需要;有选择性地关注对其更重要的视频片段;赋予它们更高的权重;融合后的注意力权重再参与后续的注意力聚合计算;得到聚合后的视频特征;用于指导当前词语的生成。
21、所述步骤5中,本发明设计了三种融合方法将扰动项和原始注意力权重进行融合,适用于不同的场景;三种融合方法根据具体任务需求和数据特点进行选择,或将不同方式的结果进行集成:
22、步骤5.1线性结合: 将扰动项和原始注意力权重进行线性组合,得到调整后的注意力权重为:
23、
24、其中,是一个超参数,控制扰动项的影响强度,为扰动项,当越接近1时,扰动项的影响越小,调整后的权重越接近原始权重;反之;扰动项的影响越大;调整后的权重与原始权重差异越大;为线性结合后的新注意力权重;
25、步骤5.2.门控选择机制:利用门控单元控制扰动项和原始权重的融合比例:
26、
27、
28、其中,是门控单元的参数矩阵,表示向量拼接;为门控信号矩阵,
29、为门控融合后的新注意力权重,门控单元根据扰动项和原始权重的值自适应地决定两者的融合比例,从而更灵活地调整注意力权重分布;
30、步骤5.3.渐进融合:随着训练的进行,逐步增大扰动项的影响,使模型先稳定训练,再逐渐适应扰动:
31、
32、
33、其中,为扰动项影响的权重,step表示当前训练步数,是一个预设的阈值,阈值取值根据具体任务和数据集而定,设置为总训练步数的1/10至1/5;t为总训练步数,随着训练的进行,扰动项的权重从0逐渐增加到1,使模型平稳地适应扰动带来的影响。
34、在实际应用中,根据以下原则选择融合方法,选取其中一个即可:
35、1.当需要3层以上解码器模型时,选择渐进融合,使模型训练更加稳定;
36、2.当任务要求精度达到所要求指标时,选择门控选择机制,自适应调节融合比例;
37、3.当任务要求计算效率的推理速度达到每秒20个字符以上时,选择线性结合,计算简单高效。
38、融合后的注意力权重再用于后续的注意力聚合,得到调整后的视频特征,用于指导最终的词语生成。
39、所述步骤6中,在解码器的最后一层引入一个自蒸馏损失(self-distillationloss)实现层间扰动,设解码器共有n层,将第n层的输出视为"教师"(teacher),将前面层的输出视为"学生"(student),通过最小化学生和教师之间的差异,促进不同层之间的信息融合与互补;
40、自蒸馏损失的计算公式为:
41、
42、其中,表示解码器第n层在第t个时间步的输出,表示解码器最后一层第n层在第t个时间步的输出,t为序列长度,表示kl散度,用于衡量两个分布之间的差异;
43、在模型训练时,通过梯度下降算法最小化自蒸馏损失,促使解码器的浅层输出向深层输出看齐,使得浅层也能学习到一定的长程依赖信息;同时,也鼓励深层输出中蕴含更多的局部信息,以充分利用不同层的互补性;在反向传播时,自蒸馏损失为每一层提供额外的监督信号,帮助模型更好地融合不同层的信息,从而实现了层间的自进化扰动。
44、本发明的有益效果在于针对目前一阶段视频描述框架生成文本与视频相关性不高的问题,提出了一种基于自进化扰动的新颖框架。相比现有方法,本发明具有以下突出的优势和有益效果:
45、1.通过在transformer编码器中引入自进化扰动机制,有效捕捉了长视频中的关键信息。与传统的注意力机制不同,本发明采用可学习的扰动项来自适应地调整注意力权重分布,使得模型能够更准确地识别出对当前生成词语最重要的视频片段,从而提取到更加相关和关键的视频信息。
46、2.摆脱了对事件提取模型的依赖,大大降低了计算开销。传统的两阶段框架需要先通过单独的事件提取模型来检测视频中的关键事件,然后再对每个事件进行描述,这不仅增加了计算复杂度,也限制了模型的实时性。而本发明采用端到端的一阶段框架,通过自进化扰动机制直接从原始视频中提取关键信息,无需事先进行事件提取,因此大大提高了处理效率,满足了实时处理的需求。
47、3.通过在transformer解码器中引入层间自进化扰动,增强了模型对长视频中长程和短程依赖的建模能力。不同于以往方法只关注局部信息或者只关注全局信息,本发明利用transformer解码器不同层的特性,通过自蒸馏损失促进不同层之间的信息交互与融合。这使得模型能够兼顾局部细节和全局语义,生成更加准确、连贯、与视频相关性更高的文本描述。
48、4.整体框架简单有效,易于实现和扩展。本发明的自进化扰动机制可以无缝地集成到现有的transformer编解码框架中,只需对注意力计算过程进行微小的修改,并引入额外的损失项,即可实现对关键信息的自适应提取和融合。这种简洁的设计使得本发明易于实现和推广,并且可以方便地与其他技术模块结合,进一步提升性能。
49、5.在多个数据集上的实验结果表明,本发明显著优于现有的一阶段和两阶段视频描述方法,在生成文本与视频的相关性、连贯性等指标上取得了新的最优表现。这证明了本发明在捕捉视频关键信息、建模长短期依赖等方面的有效性,为长视频描述任务提供了一种新的高效解决方案。
50、综上所述,本发明通过自进化扰动机制有效解决了一阶段视频描述框架面临的关键问题,在提高生成文本质量的同时,兼顾了计算效率和实时性需求。这些优势使得本发明在智能视频理解、视频摘要、视频检索等多个领域具有广阔的应用前景。
本文地址:https://www.jishuxx.com/zhuanli/20240730/194375.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。