基于多模态对齐的学习过程专注程度判断的方法及系统
- 国知局
- 2024-11-06 14:47:15
本发明属于多模态表征学习领域,尤其涉及一种基于多模态对齐的学习过程专注程度判断的方法及系统。
背景技术:
1、在教育领域,评价和改善学生的学习专注度一直是一个重要的课题。由于深度学习强大的数据处理和模式识别能力,它被认为在辅助教育效果评估和教育方式分析方面具有巨大的潜力。但在实际应用中,目前依然面临一些挑战和限制。首先,教育数据通常是多模态的,涵盖文本、图像、声音和视频等不同类型,这使得数据的集成和处理变得复杂。其次,教育场景下的数据量往往有限,而深度学习模型通常需要大量数据进行训练,以达到较好的性能,这就需要新的方法来克服数据不足的问题。数据短缺也极大限制了传统方案在教育领域的应用。因此,如何实现仅使用少量样本即可训练,同时又能获得鲁棒的多模态表征,成为了亟待解决的问题。
2、多模态数据的表征学习是指从音频、视频、文本等不同模态中提取信息,并将这些信息转化为高效的数学表征的过程。在教育领域,这种方法可以用来分析学生的行为、情感反应、以及他们与教学内容的互动方式。例如,通过分析学生的语音数据,可以了解他们的参与度和情感状态;视频数据可以帮助监测学生的身体语言和注意力集中情况;而文本分析可以评估学生的理解和表达能力。
3、在多模态数据表征学习这一领域,传统方法往往只关注易获得,但是信息浓度低的数据,如何使用包括脑成像数据、音频数据和眼动数据等在内的深层次数据,以提供对单个学生学习过程的全面了解,依然有待解决。与此同时,通过数据对齐技术,确保不同类型数据之间的一致性和互补性。将来自不同来源的数据映射到同一参考框架下,以实现信息的统一和整合。这对于提高学习表征的准确性和有效性以及最终对学习过程专注程度的预测都至关重要。
技术实现思路
1、本发明的目的在于解决现有技术中存在的问题,并提供一种基于多模态对齐的学习过程专注程度判断的方法及系统。
2、为了实现上述发明目的,本发明具体采用如下技术方案:
3、第一方面,本发明提供了一种基于多模态对齐的学习过程专注程度判断的方法,其包括以下步骤:
4、s1:获取学生在教育行为中的原始多模态数据以及对应学生的专注程度,并对原始多模态数据进行预处理,得到预处理后的多模态数据,预处理后的多模态数据包含预处理后的脑成像数据、语音数据以及眼动数据;
5、s2:根据提取多模态表征的需要分别构建特定于教育系统领域的第一多模态数据表征编码模型、第二多模态数据表征编码模型以及第三多模态数据表征编码模型,用于对应提取预处理后的多模态数据中的脑成像数据表征、音频数据表征以及眼动数据表征;
6、s3:将脑成像数据表征、音频数据表征以及眼动数据表征进行融合,得到融合后的多模态表征,由融合后的多模态表征以及学生的专注程度标签构建训练数据集,在所述训练数据集上训练专注程度判断模型,直至总损失收敛,得到训练好的专注程度判断模型,用于判断每个学习者在学习过程的专注程度;
7、所述专注程度判断模型由一个双向长短期记忆网络和一个全连接层依次级联而成,其中,所述双向长短期记忆网络用于提取时序特征,所述全连接层用于将所述双向长短期记忆网络提取到的时序特征映射为专注程度标签;
8、s4:在教育行为中获取待检测的原始多模态数据,对待检测的原始多模态数据进行预处理,得到预处理后的待检测多模态数据;由第一多模态数据表征编码模型、第二多模态数据表征编码模型以及第三多模态数据表征编码模型对应提取预处理后的待检测多模态数据中各个模态数据表征,得到待检测的脑成像数据表征、音频数据表征以及眼动数据表征;将待检测的脑成像数据表征、音频数据表征以及眼动数据表征进行融合,得到融合后的待检测多模态表征;将融合后的待检测多模态表征输入到训练好的专注程度判断模型中,输出预测的学生的专注程度。
9、在上述方案基础上,各步骤可以采用如下优选的具体方式实现。
10、作为上述第一方面的优选,步骤s1的具体过程如下:
11、s11:获取学生在教育行为中的原始多模态数据,包括脑成像数据、语音数据以及眼动数据;
12、s12:对原始多模态数据进行清洗,若清洗后的原始多模态数据中存在缺失的数据,则对缺失的数据进行插值,得到初步处理的多模态数据;
13、s13:对齐初步处理的多模态数据,确保在时间上一致,得到预处理后的多模态数据;
14、s14:将预处理后的多模态数据保存,并统一用json格式进行管理。
15、作为上述第一方面的优选,步骤s2的具体过程如下:
16、s21:对于一段包含s帧的预处理后的脑成像数据,将每一帧预处理后的脑成像数据使用在医学图像上预训练过的第一多模态数据表征编码模型进行特征提取,得到单帧的脑成像数据表征;
17、s22:对于预处理后的语音数据,首先将其分割为s段的短音频片段,然后使用梅尔频谱图将每个短音频片段转换成频谱图,将得到的每个频谱图依次输入到预训练过的第二多模态数据表征编码模型中,将每个频谱图映射成密集向量,将密集向量作为音频数据表征;
18、s23:对于预处理后的眼动数据,每一帧预处理后的眼动数据均包含主观视角下的rgb图像以及注意力热力图,将注意力热力图输入到在医学数据上预训练过的第三多模态数据表征编码模型中,得到热力图表征,将所述rgb图像输入到在医学数据上预训练过的第三多模态数据表征编码模型中,得到rgb图像表征,将热力图表征和rgb图像表征拼接之后,得到眼动数据表征。
19、作为上述第一方面的优选,步骤s3中,在训练专注程度判断模型时采用的总损失为交叉熵损失函数,具体形式如下:
20、
21、其中,表示所述交叉熵损失函数,zi表示第i个专注程度标签;表示专注程度判断模型预测得到的专注程度标签,i表示多模态数据索引。
22、作为上述第一方面的优选,步骤s2中,第一多模态数据表征编码模型为clip的图像编码器,第二多模态数据表征编码模型为imagebind中的音频编码器,第三多模态数据表征编码模型为双流vgg网络模型。
23、第二方面,本发明提供了一种基于多模态对齐的学习过程专注程度判断的系统,包括:
24、数据处理模块,用于获取学生在教育行为中的原始多模态数据以及对应学生的专注程度,并对原始多模态数据进行预处理,得到预处理后的多模态数据,预处理后的多模态数据包含预处理后的脑成像数据、语音数据以及眼动数据;
25、表征提取模块,用于根据提取多模态表征的需要分别构建特定于教育系统领域的第一多模态数据表征编码模型、第二多模态数据表征编码模型以及第三多模态数据表征编码模型,用于对应提取预处理后的多模态数据中的脑成像数据表征、音频数据表征以及眼动数据表征;
26、模型获取模块,用于将脑成像数据表征、音频数据表征以及眼动数据表征进行融合,得到融合后的多模态表征,由融合后的多模态表征以及学生的专注程度标签构建训练数据集,在所述训练数据集上训练专注程度判断模型,直至总损失收敛,得到训练好的专注程度判断模型,用于判断每个学习者在学习过程的专注程度;
27、所述专注程度判断模型由一个双向长短期记忆网络和一个全连接层依次级联而成,其中,所述双向长短期记忆网络用于提取时序特征,所述全连接层用于将所述双向长短期记忆网络提取到的时序特征映射为专注程度标签;
28、结果获取模块,用于在教育行为中获取待检测的原始多模态数据,对待检测的原始多模态数据进行预处理,得到预处理后的待检测多模态数据;由第一多模态数据表征编码模型、第二多模态数据表征编码模型以及第三多模态数据表征编码模型对应提取预处理后的待检测多模态数据中各个模态数据表征,得到待检测的脑成像数据表征、音频数据表征以及眼动数据表征;将待检测的脑成像数据表征、音频数据表征以及眼动数据表征进行融合,得到融合后的待检测多模态表征;将融合后的待检测多模态表征输入到训练好的专注程度判断模型中,输出预测的学生的专注程度。
29、第三方面,本发明提供了一种计算机可读存储介质,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现如上述第一方面任一方案所述的基于多模态对齐的学习过程专注程度判断的方法。
30、第四方面,本发明提供了一种计算机电子设备,包括存储器和处理器;
31、所述存储器,用于存储计算机程序;
32、所述处理器,用于当执行所述计算机程序时,实现如上述第一方面任一方案所述的基于多模态对齐的学习过程专注程度判断的方法。
33、第五方面,本发明提供了一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时,能实现如上述第一方面任一方案所述的基于多模态对齐的学习过程专注程度判断的方法。
34、相比传统的单模态学习方法,本发明具有以下有益效果:
35、本发明充分利用多模态数据的丰富信息和学习者的多样特征,借助预训练的多模态数据表征编码模型,提高了表征学习的准确性和可解释性,能够更好地预测学习者在学习过程中的专注程度。本发明利用了已有的预训练的多模态数据表征编码模型所蕴含的世界知识,实现在较少数据量的背景下,得到鲁邦且可解释性强的专注程度判断模型。
本文地址:https://www.jishuxx.com/zhuanli/20241106/324125.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表