群体行为识别方法、系统和存储介质
- 国知局
- 2024-08-08 17:04:44
本发明属于视频分析,具体是指一种群体行为识别方法、系统和存储介质。
背景技术:
1、群体行为识别是计算机视觉领域中备受关注的研究方向之一,涉及机器学习、社会学和心理学等多个学科的交叉研究,旨在理解和分析集体中多个个体的行为模式、交互及动态变化,探索人群在不同情境下的行为特征和规律。
2、目前许多方法致力于构建多人场景下个体之间的互动关系,以准确推断出群体行为。早期基于循环神经网络(rnn)的方法可有效探索长时间段内的运动规律。现有方法常使用卷积神经网络(cnn)与图卷积网络(gnn)模拟个体关系,并结合注意力机制,精细化提取人物的关系信息,搭建关系交互图。这些方法有效探索了集体中多个个体间的互动线索,为群体行为识别的发展起到了促进作用。
3、尽管上述方法取得了良好的效果,但仍存在以下问题:(1)忽略场景上下文信息,致使行为识别精度较低。在识别群体行为时,场景上下文信息指人物所在场景中有助于判断个体与群体动作的环境和背景信息。例如在排球运动中,排球的运动轨迹通常会决定运动员的位置与行为倾向,对运动员群体行为的判断起重要作用。另外,场景的布局与结构、其他人物的动态变化也会对目标人物的行为识别准确度产生一定的影响。然而,现有方法侧重于个体间的关系建模,很少探索场景中与人物相关的线索。这些方法通常直接从原始图像中提取包含了场景信息的全局特征,然后基于标注的人物位置,使用roi align对该特征进行感兴趣区域映射,获取包含了人物细节信息的个体特征,并最终利用个体特征预测群体行为的类别。若仅利用人物细节特征,则会忽略其与全局场景的联系,影响最终的行为识别效果。
4、(2)图片中存在人物遮挡的情况,致使缺失部分人物信息,无法精确地获取外观细节。若仅利用其个体特征进行群体行为推理,则会由于信息缺失而影响行为识别的精度。
5、(3)难以确定关键人物,致使分类结果被无关个体干扰。场景中每个个体对群体行为的影响程度不同,只有明确关键人物才能实现更加精确的群体行为分类。若选择与群体行为无关的人物进行群体行为的预测,则会使分类结果出错。
技术实现思路
1、为了解决现有技术存在的问题,本发明提供了一种群体行为识别方法及系统,能够提高群体行为识别精度。
2、本发明所要解决的技术问题是通过以下技术方案实现的:
3、第一方面,提供了一种基于特征融合的群体行为识别方法,包括:获取待识别的视频帧;
4、根据视频帧,基于预训练好的群体行为识别模型,得到群体行为类别;
5、所述群体行为识别模型包括:骨干网络、融合模块、嵌入层、关系推理模块、图卷积网络、全局平均池化层以及分类器。
6、结合第一方面,进一步的,所述骨干网络为vgg-16或者inception-v3。
7、结合第一方面,基于骨干网络,将视频帧作为输入得到全局特征;
8、根据全局特征采用区域兴趣对齐得到个体特征;
9、基于融合模块,将全局特征和个体特征作为输入进行融合,得到融合模块最后输出的融合特征;
10、基于嵌入层,将个体特征作为输入,再将嵌入层的输出与融合模块最后输出的融合特征进行残差计算得到融合模块最后输出的融合特征;
11、基于关系推理模块,根据最终的融合特征得到个体间的关系交互图;
12、基于预训练好的图卷积网络,以个体间的关系交互图与最终的融合特征作为输入,将图卷积网络的输出与个体特征进行残差计算后再依次经过全局平均池化层和分类器得到最终的群体行为类别。
13、结合第一方面,所述根据最终的融合特征得到个体间的关系交互图包括:
14、
15、
16、其中,为最终的融合特征在时空维度上的单个个体特征,为时间步长,为单张图片上的目标个体数量,为融合函数,为个体与个体之间的外观相似度,为个体与个体之间的位置关系,、分别为最终的融合特征在时空维度上个体和个体的外观特征;分别为最终的融合特征在时空维度上个体和个体的位置特征;为个体与个体之间的关系交互图。
17、结合第一方面,进一步的,获取群体行为类别的表达式如下:
18、
19、其中,为最终得到的群体行为类别,为分类器,为全局平均池化层,为图卷积网络的输出。
20、结合第一方面,进一步的,所述融合模块包括:卷积层、注意力机制模块、线性嵌入层、softmax层、层归一化层以及前馈网络;
21、针对个体特征和全局特征分别进行位置编码以添加位置信息,再将位置编码后的个体特征和全局特征通过卷积层进行通道规划,表达式如下:
22、
23、其中,表示位置编码,表示1×1卷积核的pointwise卷积层,表示位置编码后的个体特征或全局特征,经过上式计算后输出,对应于个体特征时表示为,对应于全局特征时表示为;
24、基于注意力机制模块,对经过卷积层的个体特征和全局特征添加通道注意机制,表达式如下:
25、
26、其中,表示通道注意力机制,为添加通道注意机制后的个体特征或全局特征,对应于个体特征时表示为,对应于全局特征时表示为;表示维度大小为的权重矩阵;
27、将添加通道注意机制后的个体特征通过线性嵌入层后得到,表达式如下:
28、
29、其中,表示线性嵌入层;
30、将通过线性嵌入层的个体特征和添加通道注意机制后的全局特征进行乘积融合,并通过softmax层得到中间特征,表达式如下:
31、
32、其中,softmax表示softmax层;
33、再将中间特征与添加通道注意机制后的全局特征进行乘积融合后再与通过线性嵌入层后的个体特征进行残差计算得到融合特征,表达式如下:
34、
35、再将融合特征进行层归一化后经过前馈网络再进行层归一化得到表征能力增强的融合特征,表达式如下:
36、
37、其中,表示层归一化层,表示前馈网络;
38、再将表征能力增强的融合特征经过卷积层得到融合模块最后输出的融合特征,表达式如下:
39、
40、第二方面,本发明还提供了一种群体行为识别系统,包括:
41、数据获取模块,用于获取待识别的视频帧;
42、行为识别模块,用于根据视频帧,基于预训练好的群体行为识别模型,得到群体行为类别;
43、所述群体行为识别模型包括:骨干网络、融合模块、嵌入层、关系推理模块、图卷积网络、全局平均池化层以及分类器。
44、结合第二方面,进一步的,所述行为识别模块执行的操作包括:
45、基于骨干网络,将视频帧作为输入得到全局特征;
46、根据全局特征采用区域兴趣对齐得到个体特征;
47、基于融合模块,将全局特征和个体特征作为输入进行融合,得到融合模块最后输出的融合特征;
48、基于嵌入层,将个体特征作为输入,再将嵌入层的输出与融合模块最后输出的融合特征进行残差计算得到最终的融合特征;
49、基于关系推理模块,根据最终的融合特征得到个体间的关系交互图;
50、基于预训练好的图卷积网络,以个体间的关系交互图与最终的融合特征作为输入,将图卷积网络的输出与个体特征进行残差计算后再依次经过全局平均池化层和分类器得到最终的群体行为类别。
51、结合第二方面,进一步的,所述融合模块包括:卷积层、注意力机制模块、线性嵌入层、softmax层、层归一化层以及前馈网络;
52、所述融合模块执行的操作包括:针对个体特征和全局特征分别进行位置编码以添加位置信息,再将位置编码后的个体特征和全局特征通过卷积层进行通道规划,表达式如下:
53、
54、其中,表示位置编码,表示1×1卷积核的pointwise卷积层,表示个体特征或全局特征,经过上式计算后输出,对应于个体特征时表示为,对应于全局特征时表示为;
55、基于注意力机制模块,对经过卷积层的个体特征和全局特征添加通道注意机制,表达式如下:
56、
57、其中,表示通道注意力机制,为添加通道注意机制后的个体特征或全局特征,对应于个体特征时表示为,对应于全局特征时表示为;表示维度大小为的权重矩阵;
58、将添加通道注意机制后的个体特征通过线性嵌入层后得到,表达式如下:
59、
60、其中,表示线性嵌入层;
61、将通过线性嵌入层的个体特征和添加通道注意机制后的全局特征进行乘积融合,并通过softmax层得到中间特征,表达式如下:
62、
63、其中,softmax表示softmax层;
64、再将中间特征与添加通道注意机制后的全局特征进行乘积融合后再与通过线性嵌入层后的个体特征进行残差计算得到融合特征,表达式如下:
65、
66、再将融合特征进行层归一化后经过前馈网络再进行层归一化得到表征能力增强的融合特征,表达式如下:
67、
68、其中,表示层归一化层,表示前馈网络;
69、再将表征能力增强的融合特征经过卷积层得到融合模块最后输出的融合特征,表达式如下:
70、
71、第三方面,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现第一方面中任一项所述方法的步骤。
72、有益效果:本发明通过群体行为识别模型,对群体行为类别进行了更精确的识别。融合了全局场景特征与个体人物特征,得到更具表征的融合特征,利用该特征构建人物之间的交互关系图,随后使用图卷积网络对其进行训练,并使用分类器精确的预测群体行为的类别。
73、尤其通过模型中的融合模块将全局特征中包含的场景信息嵌入个体特征中 ,为个体动作与群体行为类别的推理提供了信息丰富的融合特征。并且融合模块内使用的注意力机制模块,能够有效地聚焦群体行为中的关键人物与数据集中的关键帧,提高群体行为识别的准确度。
本文地址:https://www.jishuxx.com/zhuanli/20240808/272225.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。