一种基于双向LSTM和时空双流网络的课堂行为识别方法
- 国知局
- 2024-07-31 23:26:48
本发明涉及行为识别领域,尤其涉及一种基于双向lstm和时空双流网络的课堂行为识别方法。
背景技术:
1、课堂行为识别是一个重要的研究领域,尤其在教育领域的应用中,它有助于教师更好地理解学生的行为和学习状态,从而调整教学策略,提高教学效果。传统的课堂行为识别方法主要依赖于教师的直接观察和经验判断,这种方式不仅效率低下,而且容易受到主观因素的影响,导致识别结果的准确性和客观性受到质疑。
2、近年来,随着计算机视觉、人工智能等技术的不断进步,基于深度学习的课堂行为识别方法应运而生。基于深度学习的课堂行为识别方法能够自动提取课堂视频或图像中的关键信息,通过训练模型来识别不同的课堂行为。与传统的识别方法相比,基于深度学习的课堂行为识别方法具有更高的自动化程度和更强的鲁棒性,能够更好地满足现代教育的需求。
3、目前,基于深度学习的课堂行为识别方法已经取得了一定的研究成果。然而,现有的方法仍然存在一些不足之处。例如,一些方法在处理复杂的课堂环境时,往往无法准确地区分不同的行为类型;另外,学生的行为往往是连续且动态的,需要考虑到时序信息对行为识别的影响。然而,传统的深度学习模型在处理时序信息时可能存在一定的局限性,难以充分捕捉行为的动态变化。这可能导致对课堂行为的识别不够准确或不够及时。
4、公开号为cn114708525a的中国专利公开了“一种基于深度学习的学生课堂行为识别方法及系统”,其通过yolov5目标检测模型检测提取的视频帧图中的学生目标,构建学生目标框以及使用改进后的shufflenetv2分类模型来对学生图片进行分析,得到学生课堂行为标签。该方法可以高准确率地识别学生课堂行为,帮助教师回顾课堂情况,提升教学水平和改善教学方式。但是此方法缺乏对学生行为时序信息的建模,在某些动态行为比较多且持续时间比较长的课堂中进行行为识别时,可能就会出现识别性能不佳的情况。
技术实现思路
1、针对现有技术的以上缺陷或者改进需求,本发明提供了一种基于双向lstm和时空双流网络的课堂行为识别方法,其目的在于通过设计双流卷积神经网络与双向lstm模块进行结合并通过注意力模块动态分配权重,可以有效的提取视频序列中的时间和空间信息,并对这些信息进行时序建模,可以识别出更加复杂且持续时间较长的动作,进而实现对课堂行为的精确识别。
2、为了实现上述目的,本发明采用了如下技术方案:
3、本发明第一方面提供了一种基于双向lstm和时空双流网络的课堂行为识别方法,所述方法包括以下步骤:
4、s1:设计适用于课堂行为识别的学生课堂行为识别模型;
5、所述学生课堂行为识别模型包括视频预处理模块、时空特征提取模块、lstm模块、注意力模块和课堂行为预测模块;具体步骤包括:
6、s11:首先将输入的课堂行为视频送入视频预处理模块中提取多个rgb图像帧图以及连续光流帧图;
7、s12:将获取到的所述rgb图像帧图和连续光流帧图送入时空特征提取模块中提取特征,将提取到的特征送入时空特征融合模块进行特征融合,得到融合后的特征;
8、s13:将得到的所述融合后的特征送入lstm模块进行时序信息建模;
9、s14:将经过lstm模块处理后的特征送入注意力模块,得到输出状态向量;
10、s15:将得到的所述输出状态向量输入课堂行为预测模块得到最终的行为识别预测结果;
11、s2:训练设计好的学生课堂行为识别模型,得到训练好的学生课堂行为识别模型;
12、s3:使用训练好的学生课堂行为识别模型来识别课堂行为识别视频,并输出对于整段视频的预测结果。
13、作为本技术的一实施例,所述步骤s11具体包括:
14、s111:将输入的课堂行为视频分割,将其裁剪为包含不同课堂行为片段的部分,并提取每个片段的连续帧作为rgb图像帧图;
15、s112:将得到的rgb图像帧图灰度化,然后通过选定的光流算法计算相邻帧之间像素的运动向量场,最后通过颜色编码将运动向量的方向和大小可视化,生成一系列连续的光流帧图;
16、s113:对得到的所述rgb图像帧图和光流帧图的尺寸大小预处理为256×256,对于所述光流帧图,每10帧作为一个时间步长,然后将所述rgb图像帧图和光流帧图按8:2的比例划分为训练集与测试集送入时空特征提取模块进行训练。
17、作为本技术的一实施例,所述步骤s12中时空特征提取模块包括空间流卷积神经网络和时间流卷积神经网络,所述空间流卷积神经网络和时间流卷积神经网络具有相同的网络结构,均包括5个卷积层和3个全连接层,所述空间流卷积神经网络接收单个rgb图像帧图,所述时间流卷积神经网络接收连续光流帧图。
18、作为本技术的一实施例,所述步骤s12具体包括:
19、s121:首先,所述rgb图像帧图和连续光流帧图分别被送入空间流卷积神经网络、时间流卷积神经网络的首个卷积层,使用大小为7×7、步长为2的256个卷积核,对图像进行初步特征提取,得到第一阶段的特征图;
20、s122:所述第一阶段的特征图进一步通过第2个卷积层进行处理,所述第2个卷积层采用大小为5×5、步长为2的256个卷积核,得到第二阶段的特征图;
21、s123:接着将所述第二阶段的特征图依次传递至3个连续的卷积层,3个连续的卷积层均配备了大小为3×3、步长为1的512个卷积核,以进一步深化特征的层次得到处理完成的特征图;
22、s124:在所述时间流卷积神经网络中,所述连续光流帧图经过每个卷积层进行特征提取,之后向后续卷积层传递每层输出的结果的同时还将特征图传递给空间流卷积神经网络的对应层,实现两种信息流的联合学习;
23、s125:将空间流卷积神经网络和时间流卷积神经网络分别处理完成的特征图送入各自网络中的第一个包含4096个神经元的全连接层,进行特征整合;
24、s126:接着送入第二个包含2048个神经元的全连接层,进一步压缩和优化特征表示;
25、s127:继续送入第三个包含256个神经元的全连接层并输出特征;
26、s128:将所述空间流卷积神经网络输出的空间特征和时间流卷积神经网络输出的时间特征送入时空特征融合模块进行融合,得到融合后的特征向量。
27、作为本技术的一实施例,所述步骤s13中lstm模块包括正向传播的lstm和反向传播的lstm,具体步骤包括:
28、s131:在每个时间步中,将经过时空特征提取模块得到的融合后的特征向量送入正向传播的lstm以及反向传播的lstm中,其中送入正向传播的lstm时,单元层权重设置为,得到由前到后的特征序列组成的lstm单元,得到的特征序列送入下一个时刻的单元层时,权重占比为,送入该时刻的最终输出时,权重占比为,送入反向传播的lstm时,单元层权重设置为,得到由前到后的特征序列组成的lstm单元,得到的特征序列送入上一个时刻的单元层时,权重占比为,送入该时刻的最终输出时,权重占比为,两个lstm单元的计算公式分别如下:
29、
30、
31、其中,为第个时间步经过时空特征融合模块得到的融合后的特征向量,为激活函数,、为偏置;
32、s132:正向传播的lstm输出对应时刻的特征向量,反向传播的lstm输出对应时刻的特征向量,计算公式如下:
33、
34、
35、其中,为激活函数,为偏置;
36、s133:将得到的特征向量与特征向量进行平均,得到对应时刻lstm模块的输出,其对应公式如下:
37、。
38、作为本技术的一实施例,所述步骤s14中注意力模块具体包括:
39、s141:将lstm模块的多个输出构建出一个输入序列,其中是lstm模块的第个时间步的输出,为时间步的数量;
40、s142:用多层感知机mlp为输入序列中的每个元素计算一个注意力分数;
41、注意力分数的计算公式如下:
42、
43、其中,和是可学习的权重矩阵,是一个权重向量,为时间步的数量,是一个上下文向量;
44、s143:使用归一化指数函数对注意力分数进行归一化,得到注意力权重;所述注意力权重计算公式如下:
45、
46、s144:使用这些注意力权重对输入序列进行加权求和,得到一个加权后的特征向量,其计算公式如下:
47、。
48、作为本技术的一实施例,所述步骤s15中课堂行为预测模块包括两个全连接层和一个归一化指数层,具体步骤包括:
49、s151:将经过注意力模块加权后的特征向量输入进第一个包含256个神经元的全连接层,用于进一步提取和整合特征;
50、s152:将第一个全连接层的输出输入进第二个包含128个神经元的全连接层,用于提取高级的特征;
51、s153:将第二个全连接层的输出输入进归一化指数层,所述归一化指数层将输出转换为概率分布,将具有最高概率值的类别作为最终的预测结果,此时归一化指数层中包含的神经元数量与课堂行为类别中的数量相同,使用的激活函数为归一化指数函数。
52、作为本技术的一实施例,所述步骤s2中使用损失函数对设计好的学生课堂行为识别模型进行训练,所述损失函数包括时空特征提取模块损失函数、lstm模块损失函数、注意力模块损失函数、课堂行为预测模块损失函数;
53、所述时空特征提取模块损失函数公式表达如下:
54、
55、
56、
57、其中,为空间流损失函数,为时间流损失函数,是样本数量,是样本的真实标签,和分别是空间流和时间流对样本的预测概率;
58、所述lstm模块损失函数公式表达如下:
59、
60、
61、其中,是行为类别的数量,是真实标签在类别上的one-hot编码值,是模型预测的概率分布中类别的概率,其通过对应时刻lstm模块的输出经过一个全连接层得到,为lstm模块第个时间步输出的损失,为时间步的数量;
62、所述注意力模块损失函数公式表达如下:
63、
64、
65、其中,是类别的权重,为lstm模块第个时间步输出的损失,为时间步的数量;
66、所述课堂行为预测模块损失函数公式表达如下:
67、
68、其中,为时间步的数量,是第个时间步输出的真实行为值,是模型预测的行为值。
69、本发明的有益效果为:
70、1、本发明通过设计双流卷积神经网络,时间流卷积神经网络和空间流卷积神经网络分别充分提取到输入视频中的时间信息(运动信息)和空间信息(静态外观信息),并通过设计双向lstm模块对提取到的时序信息进行建模,从而使得模型能够更准确地识别课堂中的复杂行为;
71、2、本发明通过设计注意力模块,实现了为输出的视频帧序列动态分配不同的权重,从而突出某些帧的重要性,提高课堂行为识别的准确率;
72、3、本发明通过设计创新的损失函数,使模型训练时能够更快拟合,同时效果更好,更加符合课堂行为识别场景。
本文地址:https://www.jishuxx.com/zhuanli/20240730/197613.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表