技术新讯 > 电子通信装置的制造及其应用技术 > 一种基于掩码Transformer的端到端密集视频描述生成方法 > 正文

一种基于掩码Transformer的端到端密集视频描述生成方法

国知局
2024-10-15 10:06:18

本发明实施例涉及计算机视觉领域，具体涉及一种基于掩码transformer的端到端密集视频描述生成方法。

背景技术：

1、近些年来，随着互联网信息技术的高速发展，人类已经进入了大数据时代，我们生活的方方面面都充斥着各种多媒体数据信息，视频这种信息载体已经成为人类学习和获取知识的重要来源之一。考虑到每天都在爆炸式增长的视频数据，如何使它们更容易、更高效地被人类理解成为了当下的研究热点，实现这个问题的一种方法就是以保留视频语义的方式对其进行压缩。在这种情况下，密集视频描述——用描述性自然语言描述视频中的事件的任务应运而生。

2、密集视频描述任务大多可以分解为两个部分，即事件检测和事件描述。现有方法通常利用事件提案模块和描述生成模块分别来解决这两个子任务。其性能高度依赖于生成的事件提案的质量，限制了两个子任务的相互促进。而且考虑到合适的事件数是密集视频描述质量的重要指标，太多的事件会导致重复的标题和糟糕的可读性；检测到的事件太少意味着信息缺失和故事不完整。

技术实现思路

1、本发明的目的在于克服上述不足，提出一种基于掩码transformer的端到端密集视频描述生成方法，能够利用视频中的语言信息来影响产生的事件提案，并且针对如何选取合适的事件生成数设计了一个事件计数器以提高密集视频描述任务的性能指标。

2、本发明是提出一种基于掩码transformer的端到端密集视频描述生成方法，该方法包括以下步骤：

3、(1)将视觉内容的输入通过卷积神经网络编码为一组连续的表示；

4、(2)将生成的连续表示前馈到编码层，在视频编码器中使用自注意力对时间步信息进行编码，通过前馈神经网络后对残差输出进行层归一化，最后提取得到视觉特征以及所有的嵌入向量；

5、(3)从提案解码器获取由视频解码器输出的视觉特征，采用锚点偏移机制为提案设计一组显式锚点，计算得到基于锚点的事件提案并输出；

6、(4)描述解码器同时获取视频编码器输出的视觉特征表示和提案解码器输出的事件提案，使用自注意力对信息进行编码后，通过掩码函数将视觉表示集中在描述当前提案上，通过多头注意力，通过多头注意力对单词与视觉内容之间的关系进行输出；

7、(5)通过前馈神经网络、层归一化，通过使用softmax激活的线性层来预测当前提案的下一个单词，最终生成对事件提案的内容描述；

8、(6)将生成的提案事件的最显著信息压缩成一个全局特征向量，输入至事件计数器中，通过从所有事件中选择具有准确边界和良好描述内容的前nset个作为最终的输出。

9、视频编码器主要包括使用卷积神经网络cnn、运用自注意力机制编码信息、双层前馈神经网络以及对残差输出进行层归一化。视频编码器主要任务是将视频内容输入经过编码输出视觉特征表示以及所有的嵌入向量以便后续处理，视频编码器的具体方法如下：

10、(1)通过卷积神经网络将输入的视频的每一帧进行编码，得到一组连续的视觉表示

11、(2)然后利用自注意力机制，在每个时间步将卷积神经网络编码成的视觉表示作为对注意力层的查询，输出它的权重和；

12、(3)将自注意力层输出的编码信息结果经由一个第一层为relu非线性层的双层前馈神经网络，然后对残差进行层归一化，输出视频的视觉特征以及所有嵌入向量以便后续处理。

13、提案解码器采用了锚点偏移机制，设计了一组k个显式锚点用于提案分段，提案解码器的具体方法如下：

14、(1)首先为提案设计一组k个显式锚点，锚点长度为lk(k＝1，2，...，k)，锚点中心覆盖包括了所有视频帧；

15、(2)每个基于锚点的提案由事件提案得分pe，提案中心偏移量θc，提案长度偏移量θl构成，事件提案得分表示锚点成为提案的可能性，偏移量用于调整提案事件的边界；

16、(3)在提案边界处对视频编码进行零填充，得到大小为k×l的分数矩阵和偏移量矩阵，输出的提案模块大小为k×l×3；

17、(4)每个提案事件的边界(sp，ep)由锚点位置偏移量决定。设关联锚点的长度为la，中心为ca，则提案中心提案长度lp＝|aexp{θl}，则sp＝cp-lp/2，ep＝cp+lp/2。由此计算得到事件提案边界。这样就得到了一个事件提案元组<sp，ep，pe>。

18、描述解码器同时获取视频编码器和提案解码器的输出，对提案事件进行描述生成。描述解码器的具体方法如下：

19、(1)掩码函数fm(sp，ep)，使视觉表示集中在描述当前事件上。与生成的连续表示fl进行逐元素乘法，再次前向传播。得到

20、(2)将获取的词向量集合对自身进行自注意力计算，得到新的词嵌入向量作为查询，与作为键和值进入多头注意力层进行传播，进入前馈层；

21、(3)对残差进行层归一化后，使用softmax激活的线性层预测当前提案的下一个单词。根据公式表示词汇表中每个单词在t+1时刻出现的概率。

22、事件计数器用于优化选择合适的生成事件数量，它含有一个最大池化层和一个带softmax激活的fc层，它的具体方法如下：

23、(1)通过最大池化层将提案事件的最显著信息压缩到一个全局特征向量；

24、(2)预测一个固定大小向量rlen，每个值表示特定数字的可能性；

25、(3)在推理阶段，根据公式nset＝argmax(rlen)得到预测事件数nset

26、(4)通过从所有事件中选择具有准确边界和良好生成描述的前nset个提案事件作为最终输出，每个事件的置信度计算公式为其中γ为纠正描述长度影响的调节因子，μ为平衡因子，mj为句子长度，为查询事件提案的本地化置信程度。

技术特征：

1.一种基于掩码transformer的端到端生成密集视频描述的方法，其特征在于，包括步骤：

2.如权利要求1所述的基于掩码transformer的端到端生成密集视频描述的方法，其特征在于，步骤s1中利用卷积神经网络将输入视频内容的每一帧编码，得到一组连续的视觉表示。

3.如权利要求1所述的基于掩码transformer的端到端生成密集视频描述的方法，其特征在于，步骤s2中使用基于transformer设计的视频编码器，对视觉表示进行进一步的特征提取以及编码，包括步骤：

4.如权利要求1所述的基于掩码transformer的端到端生成密集视频描述的方法，其特征在于，步骤s3中通过基于锚点偏移机制设计的提案解码器，为视频内容生成一系列的事件提案元组，包括步骤：

5.如权利要求1所述的基于掩码transformer的端到端生成密集视频描述的方法，其特征在于，步骤s4中通过基于transformer设计的描述生成器，起了解码器的作用，它同时获取视频编码器以及提案解码器的输入，与掩码函数相结合以最大程度地将视觉表示集中在描述当前事件上，通过transformer的解码器部分对每一个提案事件进行解码并生成描述，步骤包括：

6.如权利要求1所述的基于掩码transformer的端到端生成密集视频描述的方法，其特征在于，步骤s5中通过事件计数器，计算输出事件提案的数量，选择合适数量的事件提案描述输出，优化视频描述质量，步骤包括：

技术总结本文提供了一种基于掩码的Transformer网络的端到端的视频描述生成方法，包括步骤：视频内容编码，通过卷积神经网络将输入视频内容帧编码为一组连续的视觉表示；特征提取与编码，利用设计的视频编码器提取视觉特征，并对视觉特征进行编码得到视觉信息编码；事件提案生成，利用锚点偏移机制为视频生成事件提案元组；视频描述生成，通过生成的事件提案元组与视频编码器输出的视觉信息加上掩码函数后，利用Transformer网络的解码器部分对每一个提案事件进行解码并生成描述；最后通过事件计数器，选择合适数量的事件提案描述输出，优化视频描述质量。与现有的使用Transformer网络的视频描述方法相比，通过加入掩码函数可以将模型的接受区域更好地限制在当前片段上，将视觉表示更好地集中在描述当前事件上；通过在输出端口添加了一个事件计数模块，帮助模型输出合适数量的提案描述，优化了生成事件太多或太少造成的糟糕可读性以及信息缺失问题。技术研发人员：陆良伟,刘斌受保护的技术使用者：南京工业大学技术研发日：技术公布日：2024/10/10