技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于动态自适应掩码和词元稀疏的超高清视频分类方法与流程 > 正文

基于动态自适应掩码和词元稀疏的超高清视频分类方法与流程

国知局
2024-11-06 14:55:24

本发明涉及超高清视频图像处理，特别涉及基于动态自适应掩码和词元稀疏的超高清视频分类方法。

背景技术：

1、目前由于城市道路的广泛使用，导致城市道路交通拥堵状况越来越严重。

2、近几年来，视觉变换器由于其出色的效果已成为计算机视觉工业界与学术界的重要研究方向之一。相比于早先流行的卷积神经网络(convolutional neural network,cnn)模型，vit得益于自注意力机制的引入，使其更能建立图像块中全局语义的依赖，因此能够实现更高的模型精度，但同时也面临着比cnn更高的计算复杂度。与此同时，随着当下超高清视频产业的发展，超高清视频越来越成为了当前视频领域的主要数据来源。而相比于更低分辨率的标清视频，超高清视频具备3840x2160及以上像素的分辨率，面临着更高的计算资源消耗。因此，如何有效的改善现有vit模型在超高清视频上的处理速度，同时尽可能保持较高的模型精度，是当前深度神经网络技术在超高清视频处理技术中的重点难题之一。

3、在这之前，卷积神经网络(cnn)一直是处理图像与视频的标准范例。cnn的特点在于它的局部连接和权值共享机制，这种设计使得cnn能够有效地识别并捕捉图像中的空间特征，通过多层卷积和池化操作逐步提取从低级到高级的抽象特征。例如，cnn的滤波器(filters)可以从像素级别的细节开始，逐渐学习边缘、形状和纹理等中级特征，直至识别出更复杂的对象和场景。

4、近几年，随着深度学习的进步，视觉变换器(vit)逐渐崭露头角。vit独特地采用了自注意力机制，这允许模型在全局范围内捕获图像元素之间的相互作用，而非局限于局部区域，从而实现了对图像全局语义的深度理解。正因为这种能力，vit在某些视觉任务中展现出了优于cnn的分类精度。然而，这种增强的性能并非没有代价。相比cnn，vit通常伴随着更高的计算复杂度。以vit-base和resnet-34这两款常见的模型为例，虽然vit-base在某些分类任务上可能取得更优结果，但它需要更多的计算资源和时间来进行训练和推理。这对于一般的硬件设备而言，可能是个不小的压力。特别地，当面对超高清视频这样的大数据源时，这个问题变得更加突出。超高清视频的数据规模更大，其高分辨率导致每个帧包含的像素数量呈平方倍增长，加剧了vit的计算复杂度。这意味着即使对于最先进的系统，实时处理超高清视频也会变得异常困难。因此，寻求既能保持或提升分类精度，又能在计算效率上占优的方法，成为了当下计算机视觉领域亟待解决的关键问题之一。

5、由于变换器(transformer)模型特有的自注意力机制，导致其整体的计算复杂度与输入序列的长度呈二次相关。因此，现有的vit模型在处理超高清视频会有极大的资源消耗。改善这个问题最直接的一个方法是对输入图像的词元(token)序列进行稀疏化，从而对不重要的图像token进行移除，即可缓解由于超高清视频过长的token序列导致的计算性能瓶颈。然而，尽管基于词元稀疏(token sparsity)加速能直接实现对于网络模型的加速，由于或多或少的信息损失，很容易导致模型精度性能的下降。因此，现有的基于vit技术很难在超高清视频的处理上实现又快又好的推理性能。

技术实现思路

1、本发明的目的在于提供基于动态自适应掩码和词元稀疏的超高清视频分类方法，旨在解决基于vit的视频帧分类方法在处理超高清视频中面临的计算资源与计算时间的瓶颈问题。

2、本发明解决其技术问题，采用的技术方案是：

3、基于动态自适应掩码和词元稀疏的超高清视频分类方法，包括如下步骤：

4、利用随机掩码对超高清视频帧按照一定比例进行随机的掩码，并将掩码后的视频帧输入到编码器中，得到中间的视觉特征，完成对动态自适应掩码自编码器变换器的无监督预训练，使得动态掩码分支能够分辨重要视觉词元；

5、对编码器得到的中间的视觉特征进行分类，完成超高清视频帧的微调；

6、按照决策概率和动态掩码移除当前变换层不重要的视觉词元，将剩下的重要的视觉词元传递给后续的变换层进行处理，完成超高清视频中的某一视频帧分类；

7、在完成某一视频中的全部帧的分类后，对每一帧单独得到的结果进行直接的合并归纳，投票选取类别最多的类作为最终的超高清视频分类结果。

8、作为进一步优化，所述利用随机掩码对超高清视频帧按照一定比例进行随机的掩码之前，还包括：

9、设超高清视频数据集中的某一视频样本为用代表中的某一帧,其中，n代表视频帧的数量，h，w，c分别代表输入视频帧的高度、宽度以及通道数；

10、将视频帧样本x进行网格化的切片，使其成为patch序列其中，p代表视频帧patch的像素大小,n代表patch的数量，即输入序列的长度；

11、将xp通过一个线性层映射为d维的空间中得到

12、作为进一步优化，所述利用随机掩码对超高清视频帧按照一定比例进行随机的掩码，并将掩码后的视频帧输入到编码器中，得到中间的视觉特征，是指：

13、令预训练输入的随机掩码为mp∈{0，1}n,通过对视频帧按照一定的比例进行随机的掩码，获得掩码后的视频帧

14、掩码后的视频帧输入到由12个transformer层组成的编码器encoder中，得到中间的视觉特征xvis＝encoder(x′e)。

15、作为进一步优化，将动态自适应掩码层通过预先设置插入到encoder中对应transformer层的位置，用于在预训练过程中实现动态的自适应掩码策略；

16、在预训练过程中，采用gumbel-softmax对分数分布进行采样，得到词元的重要性决策掩码md∈{0，1}n。

17、作为进一步优化，在预训练过程中，被掩码的词元不参与到注意力的计算过程中，采用多头自注意力公式对不重要的视觉词元进行封锁操作，所述多头自注意力公式表示为：

18、

19、其中，q，k，v分别代表着标准transformer层的查询、键和值,w为对应的多头注意力的各自子空间映射的权重，dk为各子空间的维度。

20、作为进一步优化，在将获得的中间的视觉特征xivs输入到解码器decoder之前，将其映射为原始的视频帧长度，得到

21、

22、其中，pe代表位置编码信息，[mask]代表一个特殊的占位词元。

23、作为进一步优化，得到后，将中间的视觉特征xvis输入到解码器decoder中，decoder输出xdec：

24、

25、在得到xdec后，通过以下动态自适应预训练的损失函数进行训练：

26、

27、

28、其中，na是动态掩码分支的数量，ρi代表对应第i个动态掩码分支的目标裁剪率，视作对动态掩码分支的正则。

29、作为进一步优化，在所述超高清视频帧的微调过程中，引入全连接层ecn对编码器得到的中间的视觉特征进行分类，该过程表示为：

30、

31、其中，avg代表平均池化操作，softmax代表归一化指数函数；

32、在得到后，微调阶段的目标函数为：

33、

34、其中，yc代表标签,代表重建损失，代表预测的被动态掩码的词元。

35、作为进一步优化，所述按照决策概率和动态掩码移除当前变换层不重要的视觉词元，将剩下的重要的视觉词元传递给后续的变换层进行处理，完成超高清视频中的某一视频帧分类，包括：

36、令第i个动态掩码层的裁剪率为ρi，则对得到的决策概率π进行排序，得到其从大到小的词元重要性的索引；

37、对前(1-ρi)n个的元素进行选取，得到用于当前变换层输入的动态掩码md∈{0，1}n，具体公式如下：

38、md＝argsort(argsort(π：，1))＞ρin

39、基于动态掩码md，直接得到剩下的重要度较高的词元序列，并将其传递给后续的变换层，完成超高清视频中的某一视频帧分类。

40、本发明的有益效果是：通过上述基于动态自适应掩码和词元稀疏的超高清视频分类方法，一方面，通过一种自适应的词元稀疏技术动态地从每一层变换层移除非重要的图像词元，以达到加速的目的，降低计算资源与计算时间；另一方面，为了弥补由于动态稀疏带来的模型精度损失，并尽可能地提高最终的任务精度，本发明提出了一种基于动态的掩码图像建模的vit训练方式，实现了比原始vit更快更准的高清视频图像处理效果。