技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于TSN模型的群体-个体多人视频行为识别方法与流程  >  正文

一种基于TSN模型的群体-个体多人视频行为识别方法与流程

  • 国知局
  • 2024-10-21 15:07:26

本发明属于计算机视觉,尤其涉及一种基于tsn模型的群体-个体多人视频行为识别方法。

背景技术:

1、行为识别是计算机视觉领域的研究热点,在实际场景中,个体的行为或动作通常相互影响,且在群体层面共同构成了群体活动。群体行为识别研究在这类场景下准确识别群体行为(group activities)及个体动作(individual actions)。在视频监控分析、体育视频分析和社交行为理解等领域具有许多实际应用。

2、在人类行为识别中,视频被分为空间和时间信息,simonyan等人在《two-streamconvolutional networks for action recognition in videos》提出双流cnn网络,其由两条分支组成,分别处理空间的rgb图像帧信息和时间维度的若干个图像帧之间的光流场信息;wang等人在《temporal segment networks:towards good practices for deepaction recognition》中提出在双流网络的基础上加入分段和稀疏化采样的思想,提出具有四种输入模态的时域段网络;但在二维卷积神经网络中,2d特征图仅仅处理视频当中的空间信息,丢失了动作之间的关联性,而捕获视频的时间特征尤为重要,zhao等人在《two-stream rnn/cnn for action recognition in 3d videos》中提出结合rnn和cnn的优势,提出基于门控循环单元的双流神经网络,空间分支采用3d cnn网络,时间分支采用rnn网络;donahue等人在《long-term recurrent convolutional networks for visualrecognition and description》中提出一种结合cnn和lstm的新型网络结构,即长期循环卷积网络(lrcn),通过cnn网络提取空间信息,lstm网络提取视频中的时间长期依赖性,最后实现分类。

3、根据查阅,目前已有发明的方法有:①李岩山等人发明了一种视频行为识别方法:利用深度全卷积网络对目标对象的roi进行初检测再利用马尔科夫随机场进行roi的微调,获得最终目标对象的roi集合,最后基于最终目标对象的roi集合分别同时进行单人行为识别和群体行为识别;②李玲等人在《一种基于级联transformer的视频群体行为识别方法》提出使用基于级联transformer的方法进行行为识别,将视频经过三维骨干网络提取三维时空特征,选取关键帧图像空间特征图;对关键帧图像空间特征图进行预处理后送入人体目标检测transformer,输出关键帧图像中的人体目标框;然后映射筛选后人体目标框在关键帧图像特征图上所对应的子特征图,结合关键帧图像周围帧特征图计算query/key/value,输入群体行为识别transfomer,输出群体级别时空编码特征图,最后,经过多层感知机对群体行为进行分类;③李楠楠等人在《一种基于关系图分析的群体行为识别方法》中首先使用目标检测网络检测人体目标,通过卷积网络提取单帧人体目标特征,再根据单个个体之间外貌和位置关系构建图模型,利用图卷积神经网络提取单帧群体行为表示特征,最后对多帧群体行为特征进行融合得到视频群体行为表征特征。但缺点在于图卷积网络提取单帧群体空间特征时,未对群体中具有判别性的个体特征进行突出,且在视频时间特征维度仅进行简单的加权融合,无法较好的提取视频时序特征。

4、现有基于深度学习的视频行为识别方法,在深度学习过程中存在信息量稀缺、信息重复度高以及类间相似性大等不足,从而导致动作类表达能力弱和行为识别中错误分类,针对目前基于双流网络的群体行为识别无法充分提取视频级特征问题,亟需提出一种基于tsn模型为基本架构的群体-个体多人视频行为识别模型。

技术实现思路

1、本发明的目的在于提出一种基于tsn模型的群体一个体多人视频行为识别方法,进一步提升了识别效果。

2、为实现上述目的,本发明提供了一种基于tsn模型的群体一个体多人视频行为识别方法,包括:

3、采用tsn稀疏采样的策略对公共行为识别视频数据集中的视频数据进行分割;

4、采用预设注意机制网络,分别学习分割后的视频数据的视频级特征和图像帧特征;

5、将所述视频级特征和图像帧特征进行融合,获取时空特征;

6、利用cnn模型提取所述视频数据中的全局运动特征;

7、将全局运动特征与时空特征进行融合,获取个体-群体行为所属类别。

8、可选地,采用tsn稀疏采样的策略对公共数据集中的视频数据进行分割包括:

9、在对视频进行分割后,随机抽取一些帧,然后综合各个采样段的信息,获取整个视频的预测结果;

10、所述整个视频的预测结果为:

11、tsn(t1,t2,...,tk)=h(g(f(t1,w),f(t2,w),...,f(tk,w)))

12、其中,(t1,t2,...,tk)为一个片段序列集,tk为片段序列集中随机选择的片段序列,f(tk,w)为一个参数为w的卷积网络,h为一个得到整个视频的各种行为的预测概率的softmax函数,g为综合各段预测分数的函数;

13、函数g的交叉熵损失定义为:

14、

15、其中,c为行为分类的个数,yi是实际的类别标签,l(y,g)为函数g的交叉熵损失,i和j均为索引变量,gi为某个行为类别的预测分数,gj为片段tk的预测分数。

16、可选地,所述预设注意机制网络包括:空间卷积网络和时间卷积网络;

17、所述空间卷积网络,通过输入在分割后的视频数据的每一段中随机选取的红外图像和相应的光流图像,学习视频图像的静态内容信息,提取所述视频级特征;

18、所述时间卷积网络,通过输入所述视频级特征,提取所述图像帧特征。

19、可选地,所述空间卷积网络包括:两个bn-incision子网络;

20、第一个bn-incision子网络的输入为分割视频中的红外图像是红外图像,通过多层卷积核和池化操作,从红外图像中提取出与行为识别相关的静态内容信息,即图像帧特征;

21、第二个bn-incision子网络的输入为与红外图像对应的光流图像,通过多层卷积核和池化操作,从光流图像中提取出与行为识别相关的运动信息,即视频级特征;

22、在两个子网络分别提取出红外图像和光流图像的特征信息后,将提取的特征信息在网络的预设节点处进行融合,获取所述视频级特征;其中,预设节点处进行融合是在bn-inception子网络处理完各自输入之后,在它们的输出节点处进行的。

23、可选地,所述视频级特征为:

24、

25、其中,分别表示红外图像网络流和光流图像网络流第l层的输入,分别表示各自网络流的学习权参数,表示融合红外图像内容特征和光流图像运动特征得到红外图像网络流l+1层输入,表示红外图像网络流对输入数据的处理过程,表示光流图像网络流对输入数据的处理过程。

26、可选地,所述时间卷积网络包括:小尺度lstm子网络、时间权值生成层和时间特征融合层;

27、所述小尺度lstm子网络采用双向lstm网络;

28、所述小尺度lstm子网络,通过输入所述视频级特征,分为正反两个方向,经过双向lstm网络处理,获取对应的正向隐藏状态和反向隐藏状态;

29、所述时间权值生成层,利用所述正向隐藏状态和反向隐藏状态,计算时间序列权值分布;

30、所述时间特征融合层,基于时间序列权值分布,对所述正向隐藏状态和反向隐藏状态进行融合,获取所述图像帧特征。

31、可选地,所述时间特征融合层的表达式为:

32、

33、其中,wα、bα为全连接层的可学习参数,αt为时刻t的定时权值,ht代表时间步长t的隐藏状态,hi表示隐藏状态序列中的任意一个隐藏状态,t为时间步长。

34、可选地,所述视频级特征为:

35、

36、其中,γ为视频级特征。

37、可选地,利用cnn提取所述视频数据中的全局运动特征包括:

38、利用预训练的inception-v3模型提取rgb差分图像的空间特征;

39、利用所述空间特征对lstm网络进行训练,利用训练后的lstm模型提取预设时空特征;

40、采用图像自适应阈值二值化方法将rgb图像提取为二值图像;

41、对这些二值图像进行异或运算,获取二值异或图像;

42、使用预训练的inception-v3模型从所述二值异或图像中,提取初始全局运动特征;

43、将所述预设时空特征与所述初始全局运动特征进行融合,获取最终的所述全局运动特征。

44、本发明具有以下有益效果:

45、(1)通过融合空间和时间注意机制,以及利用cnn提取的全局运动特征,网络能够从多个角度、多个时间尺度对视频数据进行全面理解和特征提取,从而提高了对视频行为的抽象表达能力。

46、(2)将空间、时间和全局运动特征进行融合处理,实现了对视频数据多层次、多尺度信息的整合,使得网络在行为识别任务中能够更加全面地捕捉行为的空间和时间特征,提高了对复杂场景下行为的准确性和鲁棒性。

47、(3)本发明首先根据行为的时间特征,设计时间注意池层,将cnn模型提取的图像帧特征与叠加的光流特征融合;其次,利用图像帧和叠加光流的互补性,将两种特征进行融合,建立融合特征的时间关注模型;最后融合多模态视频特征。整个网络结构加强了对视频数据的理解与表达能力,提高了视频行为识别的性能,为视频监控、智能分析等领域带来了更精准和可靠的应用前景。

本文地址:https://www.jishuxx.com/zhuanli/20241021/320611.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。