技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于长短期时间差分的动作识别视觉转换方法  >  正文

一种基于长短期时间差分的动作识别视觉转换方法

  • 国知局
  • 2024-09-19 14:36:28

本发明涉及动作识别,尤其涉及一种基于长短期时间差分的动作识别视觉转换方法。

背景技术:

1、在过去的几年里,众多研究者广泛关注时间建模,近期,基于transformers的方法在处理基于2d图像的视觉任务方面取得了显著进展,当前主要的高效视频理解方法是将时间信息表达在一张图上,然后直接使用2d卷积神经网络(2dcnn)对其识别,但对于单帧上的2d cnn来说,不能很好的对时间信息进行建模,且在视频动作识别任务中,最大的挑战是如何捕捉时间序列中的动态信息。

2、然而,对于基于3d视频的任务,如动作识别,直接应用时空变换的视频数据会导致补丁数量以及自注意计算的二次复杂度的大幅增加,从而会导致计算和内存负担加重。

3、因此,为视频数据建立高效、准确的3d自注意模型成了transformers面临的重大挑战,本研究提出了一个有效的长短期运动差分(lsmd)方法,即将短期运动信息引入图像,将连续几帧的差值加权到图像中,使原始图像具备短期运动建模能力。同时添加可捕捉长期运动信息的模块,将跨段的时间差通过运动激励直接集成到模型中,增强模型的长期运动建模能力,大量的实验结果表明,所提出的lsmd在多个基准(例如ucf101、hmdb51)上均保持了高识别精度。

技术实现思路

1、本发明的目的在于提供一种基于长短期时间差分的动作识别视觉转换方法,解决了现有的基于3d视频的任务,如动作识别,如果直接应用时空变换的视频数据会导致补丁数量以及自注意计算的二次复杂度的大幅增加,从而会导致计算和内存负担加重的技术问题。

2、为实现上述目的,本发明提供了一种基于长短期时间差分的动作识别视觉转换方法,包括以下步骤:

3、步骤一:输入视频,利用整个视频信息的视频级学习动作模型建立长短期运动差值(lsmd)框架;

4、步骤二:在图像模型的框架的基础上,利用时间差算子来捕获短期和长期运动信息;

5、步骤三:将所述短期运动信息的融合放置到图像模型输入之前,形成短期运动信息图像(smif);

6、步骤四:在所述图像模型中增加长期运动信息模块(lmim),通过时间差因子获取长期运动信息;

7、步骤五:将输入的所述视频通过所述smif变成所述图像模型的框架的图片形式,再将其送入到所述添加lmim的图像模型中。

8、其中,所述步骤一中的所述lsmd是一种在2d transformers结构中促进有效时空自我注意力(sa)建模的策略,能够提供高效的图像表示。

9、其中,所述步骤三中的所述smif作用于网络输入,通过融合时间差异信息,用于提取段内图像的运动信息,使得单帧rgb能够感知局部运动。

10、其中,所述步骤三中的所述smif的具体操作方式为:对于每一采样帧ii,我们在一个以ii为中心的局部窗口中提取了上下两帧做短期图像集合si=[ii-2,ii-1,ii,ii+1,ii+2],在短期图像集合中两两互相作差,做短期时间差分:

11、[di-2,di-1,di,di+1]=[ii-2-ii-1,ii-1-ii,ii-ii+1,ii+1-ii+2]

12、短期时间差分由于图像噪声干扰以及光照变化,尽管只有人物本身产生变换,但远离人物的地方仍会就算出一些微小的变化,此类变化不应该被认为反映真实的运动,为了舍弃这些小的变化,根据sstsa提出的运动聚焦思想,我们提出时差抑制(tdi)方法,具体来说,在帧差图像d上应用一个阈值,将低于阈值的像素变成0,达到抑制干扰的目的:

13、

14、其中α是阈值1≥α≥0,k=xmax-xmin是反映输入像素强度值的输入的缩放因子,即若当输入d未进行归一化时,k=255,β是加强运动信息的增强因子,在图像中,将移动过的像素增强β倍,以加强抑制干扰的效果。对于来自i段的ii帧,我们将其同一段的相邻帧表示为ii-1和ii+1。因此,我们可以得到前向时间差和后向时间差为:

15、

16、

17、sstsa研究表明,通过双向计算分析相邻帧,捕捉前视图和后视图的动态动作趋势,该模型能够很好地捕捉当前帧中的运动细节,而无需大量参数,为方便计算,后面和前面分别添加了零映射,确保帧数恢复到初始状态,为了分析两个方向的时间趋势,集体时间方差的处理方法如下:

18、

19、然后沿时间通道维度sd(ii)=[di-2,di-1,di,di+1,di+2]进行平均帧差操作。

20、d(ii)=avg(di-2,di-1,di,di+l,di+2)

21、其中avg表示将四张帧差图像平均求和成一张短期抑制帧差图像d(ii),最后再将d(ii)添加到原始输入片段x中,便可得到短期信息帧差图像。

22、其中,所述步骤四中的所述lmim是一个与现有2d transformers相融合的模块,它的显著特点在于能够捕获视频活动的长期时间动态,而无需额外参数或增加计算需求。

23、其中,所述步骤四中的所述lmim在插入到block l中,除了考虑到计算成本,长期运动信息帧间的空间位置变换也是一个问题,因此,设计了缩减特征维数的模块,首先,将特征维数缩减到原来的1/r,通过相邻段计算对齐后的时间差:

24、

25、其中c(fi,fi+1)表示段fi对齐后的时间差,和是缩减特征数后的帧级特征,从而缓解长期运动对齐缺失问题,由于相邻帧的相减只产生t-1个时间差,所以我们需要在cf的起始和cb的结束部分分别添加零映射,补偿因相邻帧减少而导致的时间差减少,然后,采用双向跨期时差法,利用对齐的时差优化段间特征,具体如下:

26、

27、其中⊙为基于元素的乘法,我们还结合了原始帧级表示,并通过上述公式所示的残差连接增强表示,所述smif会与所述lmim相互补充,互相提供信息,辅助模型对特征的提取。

28、其中,所述基于长短期时间差分的动作识别视觉转换方法的具体操作方式为:由于每段视频长短不一,将视频v分成t段,不重叠,我们从每段中选取帧表示为x,形状为[n,t,c,h,w],其中n是同时处理的视频数,t是帧序列大小,c是特征通道,h和w分别是每帧的长度和宽度,每帧之间间隔相同,总共得出t帧i=[i1,...,it],其中i的形状为[t,c,h,w],smif旨在为图像提供局部运动信息,以提高其表达能力:

29、

30、其中,表示短期运动信息图像,它从ii的相邻帧中提取局部运动信息,d表示帧差图像,f表示将这些帧送入2d transformer中提取到的帧级特征,其中f=[f1,...,ft],长期运动模块主要利用跨段时间结构来增强帧级特征表示:

31、

32、其中,l表示lmim模块,在长期运动信息中,在每个长期时间建模中只考虑相邻帧的信息,通过多个lmim叠加,模型能够捕获长期运动中的时间结构。

33、本发明的一种基于长短期时间差分的动作识别视觉转换方法,本发明通过建立长短期运动差值(lsmd)框架,并在该lsmd框架的设计过程中遵循了图像模型,同时,在该图像模型中分别设计了长期运动信息模块(lmim)和短期运动信息图像(smif),使得两种不同但互补的方式能够使图像模型获得长短期时间信息,从而使得该图像模型获得时空建模能力,进而减少了因省略片段之间的时间差而产生的噪声干扰,能够更有效地捕捉短期时间元素,同时,能够捕获视频活动的长期时间动态,而无需额外参数或增加计算需求,解决了现有的基于3d视频的任务,如动作识别,直接应用时空变换的视频数据会导致补丁数量以及自注意计算的二次复杂度的大幅增加,从而会导致计算和内存负担加重的技术问题。

本文地址:https://www.jishuxx.com/zhuanli/20240919/299122.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。