一种基于时空维度特征的行为检测方法及系统
- 国知局
- 2025-01-17 12:46:22
本发明属于行为检测,具体涉及一种基于时空维度特征的行为检测方法及系统。
背景技术:
1、行为检测任务是一项计算机视觉任务,旨在识别视频中的特定行为或动作。任务结合了行为识别和定位,这要求算法不仅能够识别行为,还要准确指出行为的发生时间和空间位置。这项任务在许多领域都有广泛的应用,包括安全监控、智能交通系统、运动分析、医疗保健等。行为检测不仅是计算机视觉中的一个重要课题,也是人工智能领域的一个研究热点。
2、现有的行为检测算法大多分为三种类型:基于辅助信息的检测方法、基于注意力机制的检测方法和基于时空融合的检测方法。使用辅助信息来增强行为变化有助于提高行为的检测效果。这些方法需要的计算资源消耗大,训练和推理过程需要较多的计算资源耗费更多的计算资源,同时有用的辅助信息难以获取;基于注意力机制的方法是使模型能够聚焦于视频中的关键区域或时间段。通过注意力机制,模型可以更准确地识别动作的关键特征。但这类方法需要精心设计注意力模块,以确保其有效性,这也是目前主要使用的方法;时空融合网络同时处理时间和空间信息,能够充分利用时空信息,提高检测精度。这类方法一般模型复杂度高,需要设计复杂的网络结构,训练难度较大,难以满足实时性;因此,如何在复杂的场景下能够有效识别目标对象的运动信息,并提高模型计算速度是亟待解决的问题。
技术实现思路
1、为解决以上现有技术存在的问题,本发明提出了一种基于时空维度特征的行为检测方法,该方法包括:获取视频帧片段,将视频帧片段输入到训练后的行为检测模型中,得到用户行为检测结果;
2、对行为检测模型进行训练包括:获取原始视频帧,对原始视频帧进行预处理,得到全局特征;采用位置编码模块对全局特征添加位置信息,得到具有位置信息的全局特征;采用特征选择模块对具有位置信息的全局特征进行去冗处理,得到去冗的视觉特征;采用空间增强模块对经过特征选择模块处理后的特征进行处理,得到空间特征表示;将经过特征选择模块处理后的特征输入到时间增强模块中,得到时间特征表示;将去冗的视觉特征、空间特征向量以及时间特征向量表示进行融合,得到融合特征;根据融合特征计算模型的损失函数,调整模型的参数,当损失函数收敛时,完成模型的训练。
3、一种基于时空维度特征的行为检测系统,该系统包括:数据获取模块、特征选择模块、空间增强模块、时间增强模块、特征融合模块以及行为检测模块;
4、所述数据获取模块用于获取待检测的视频帧数据,并对视频帧数据进行预处理;
5、所述特征选择模块用于对预处理的视频帧特征进行权重分析,得到去冗的视觉特征;
6、所述空间增强模块用于对经过特征选择模块处理后的特征进行局部细节提取,得到空间特征;
7、所述时间增强模块用于对经过特征选择模块处理后的特征进行运动变化信息提取,得到时间特征;
8、所述特征融合模块用于融合空间特征和时间特征,得到融合特征;
9、所述行为检测模块用于对融合特征进行行为检测,输出用户行为的定位和识别的结果。
10、本发明的有益效果:
11、本发明能够实现在复杂的场景下对行为进行帧级定位和识别,同时保证了高精度的推理,增加了产品的适用性的同时使其具有良好的经济效益。本发明通过对视频特征进行重要性的选择,提高了特征的利用,同时减少了冗余特征的影响;对空间增强和时间增强的特征融合,使得最终的视频特征不仅包含局部细节信息,同时还包含帧级时序信息,这提高了视频特征质量,同时也可以提高检测精度。
技术特征:1.一种基于时空维度特征的行为检测方法,其特征在于,包括:获取视频帧片段,将视频帧片段输入到训练后的行为检测模型中,得到用户行为检测结果;
2.根据权利要求1所述的一种基于时空维度特征的行为检测方法,其特征在于,对原始视频帧进行预处理包括:将原始视频帧划分为相同长度的视频帧片段,视频帧尺寸调整、随机裁剪、去噪和归一化。
3.根据权利要求1所述的一种基于时空维度特征的行为检测方法,其特征在于,采用位置编码模块对全局特征添加位置信息包括:将视频帧数据分割为固定大小的patch块,引入位置编码来保留patch块的空间位置,使用可学习的位置编码,将嵌入后的patch块与它们对应的位置嵌入相加,形成最终的特征序列。
4.根据权利要求1所述的一种基于时空维度特征的行为检测方法,其特征在于,采用特征选择模块对具有位置信息的全局特征进行去冗处理包括:采用神经网络计算各个特征组的权值;根据特征组的权值对特征组进行筛选,对筛选出的特征组生成对应的掩码,将特征组和对应的掩码进行点乘,得到去冗的特征。
5.根据权利要求1所述的一种基于时空维度特征的行为检测方法,其特征在于,采用空间增强模块对经过特征选择模块处理后的特征进行处理包括:对经过特征选择模块处理后的特征分割成大小为16×16×4的patch块,对patch块进行线性投影;对经过线性投影后的patch块输入到线性层,得到patch块的q、k、v;根据q、k、v对不同空间位置的patch块使用multi-head attention计算相似性,得到重要性特征;根据重要性特征将所有的patch块执行concat操作,得到局部细粒度信息。
6.根据权利要求1所述的一种基于时空维度特征的行为检测方法,其特征在于,时间增强模块对输入特征进行处理包括:对去冗的视觉特征划分为n个特征片段;采用特征处理对前n-1个特征片段进行特征压缩处理;采用线性层对第n个特征片段进行处理;采用时间特征融合器对经过线性处理的第n个特征片段和经过特征压缩的前n-1个特征片段进行融合,得到时间特征表示。
7.根据权利要求5所述的一种基于时空维度特征的行为检测方法,其特征在于,时间特征融合器对特征片段进行融合包括:将第n个特征片段使用线性变换映射新的维度,将前n-1个特征片段使用特征压缩降低维度,使用transformer编码器对经过线性处理的特征片段和经过特征压缩的特征片段进行融合,利用注意力机制捕获片段之间包含运动变化信息的依赖关系。
8.根据权利要求1所述的一种基于时空维度特征的行为检测方法,其特征在于,得到融合特征包括:采用编码器对去冗的视觉特征、空间特征向量以及时间特征向量表示进行编码;将编码后的特征进行变换相加,并将相加后的特征输入到解码器中,得到融合特征。
9.根据权利要求1所述的一种基于时空维度特征的行为检测方法,其特征在于,模型的损失函数由每帧的空间边界框回归损失、时间行为边界定位损失以及所有帧的行为分类损失三部分组成。
10.一种基于时空维度特征的行为检测系统,该系统用于执行权利要求1~8任意所述的基于时空维度特征的行为检测方法,其特征在于,包括:数据获取模块、特征选择模块、空间增强模块、时间增强模块、特征融合模块以及行为检测模块;
技术总结本发明属于行为检测领域,涉及一种基于时空维度特征的行为检测方法及系统,包括:获取原始视频帧并进行预处理,得到全局特征;采用位置编码模块对全局特征添加位置信息,得到具有位置信息的全局特征;采用特征选择模块对具有位置信息的全局特征进行去冗处理,得到去冗的视觉特征;采用空间增强模块对经过特征选择模块处理后的特征进行处理,得到空间特征表示;将经过特征选择模块处理后的特征输入到时间增强模块中,得到时间特征表示;将去冗的视觉特征、空间特征向量以及时间特征向量表示进行融合,得到融合特征;将融合特征输入到行为检测模块中,得到检测结果;本发明通过对视频特征进行重要性的选择,提高了特征的利用,同时减少了冗余特征的影响。技术研发人员:钟福金,贺亭亭,于洪,沈文鑫受保护的技术使用者:重庆邮电大学技术研发日:技术公布日:2025/1/13本文地址:https://www.jishuxx.com/zhuanli/20250117/355469.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表