一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于双重特征和半监督学习的认知投入追踪方法

2022-08-23 23:42:09 来源:中国专利 TAG:


1.本发明涉及自然语言处理、教育数据挖掘领域,具体地说是一种基于双重特征和半监督学习的认知投入追踪方法。


背景技术:

2.认知投入是学习者为确保学习目标的实现,对学习所采用的方法与策略的选择以及对整个学习活动的监控与调节。学习者互动话语中的认知投入与其学习成效具有正相关性。认知投入追踪是一种评估学习者在互动讨论中的认知投入水平的研究。面向互动话语数据的认知投入追踪为深入洞察个人和群体的认知发展趋势以及优化学习过程带来了新的可能。
3.目前主要有以下两个领域的认知投入追踪方法:
4.(1)基于监督学习的认知投入追踪方法
5.基于监督学习的认知投入追踪方法是从大量标记的文本训练数据中学习得到认知投入追踪模型,以推断讨论文本内隐含的认知投入水平的机器学习任务。基于监督学习训练方法生成的认知投入追踪模型由认知特征表示模块和认知推理模块组成,其依赖大量已知类别的样本调整认知投入追踪模型的参数。
6.(2)基于半监督学习的认知投入追踪方法
7.基于半监督学习的认知投入追踪方法利用大量的未标记讨论文本数据以及少量的标记讨论文本数据,通过标记数据和未标记数据之间的标签传播来训练认知投入追踪模型,以完成认知投入追踪任务。目前常用的基于半监督学习的认知投入追踪方法大部分从讨论文本的语义层面来推理不同水平的认知投入。
8.尽管上述的认知投入追踪方法在过去的应用中表现出了不错的效果,但是它们都存在各自的不足。基于监督学习的认知投入追踪方法在标注数据量少的情况下推理精度低,训练一个性能优越的认知投入追踪模型往往需要依赖大量的标注数据。但是标注数据往往是难以获得的,而且数据标注过程费时费力。基于半监督学习的认知投入追踪方法可以利用少量标注文本数据和大量的无标注文本数据进行推理,但是大部分基于半监督学习的认知投入追踪模型只从文本数据的语义层面推理,忽略了文本数据认知层面的特征对推理结果的影响。


技术实现要素:

9.针对现有技术的以上缺陷或改进需求,本发明提供一种基于双重特征和半监督学习的认知投入追踪方法,该方法从认知和语义两个方面捕获讨论文本特征,同时使用少量的标注文本数据和大量的无标注文本数据训练认知投入追踪模型。使用该方法能够更准确地获得学习者互动话语中蕴含的认知投入状态,从而帮助教师更有针对性的干预学习者的行为以及为优化学习过程提供支持。
10.本发明的目的是通过以下技术方案实现的。
11.一种基于双重特征和半监督学习的认知投入追踪方法,包括以下步骤:
12.(1)采集并清洗在线学习平台中学习者的讨论文本数据,标记其中小部分讨论文本数据作为带标签的文本数据;
13.(2)对未标记的讨论数据做文本增强操作,获得增强的无标记文本数据,完成标记数据集、无标记数据集以及增强的无标记数据集的构建;
14.(3)提取标记数据集、无标记数据集以及增强的无标记数据集中所有讨论文本数据的bert语义和liwc(linguistic inquiry and word count)认知双重特征;
15.(4)将每一条讨论文本的双重特征进行融合,获得融合后的新特征;
16.(5)使用带有双重特征的标记数据集、无标记数据集以及增强的无标记数据集训练认知投入追踪模型。
17.由上述本发明提供的技术方案可以看出,该方法不需要大量的标注文本数据,仅使用少量的标注文本和大量的无标注文本即可训练认知投入追踪模型,减轻了标注文本的时间和人力的耗费。同时,该方法从语义和认知两个维度推理文本数据的认知投入水平,弥补了传统认知投入追踪模型的单维性的弊端。
附图说明
18.图1为本发明提供的基于双重特征和半监督学习的认知投入追踪方法的流程图。
19.图2为本发明提供的认知投入追踪模型训练架构图。
具体实施方式
20.为了更清楚、完整地描述本发明的目的和技术方案,下面结合本发明实施例中的附图,对本发明的细节做详细说明。所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
21.请参阅图1、图2所示,本发明实施例提供一种基于双重特征和半监督学习的认知投入追踪方法,包括以下步骤:
22.a000:采集并清洗在线学习平台中学习者的讨论文本数据,标记其中10%-40%的讨论文本数据作为带标签的文本数据。
23.本实施例中,首先通过爬虫的方式获取到华中师范大学云课堂课程《心理学基础》中的7510条学习者的讨论文本。
24.然后基于python完成数据清洗操作,该操作包括使用python中的re模块编辑正则表达式,用于匹配并删除初始讨论文本数据中的html标签、无关字符等脏数据,使用hanziconv模块将文本数据中的繁体文本简化,依据哈工大的停用词字典匹配并剔除文本数据中的停用词。
25.最后通过人工标注的方式标注所有数据中的10%-40%的数据。本实施例中,为了测试认知投入追踪模型的性能,标注所有文本数据,并按照9:1的比例划分为训练集和测试集。其中,训练集中选取10%的数据作为标注数据,剩余90%的数据忽略其标签,作为无标注数据使用。
26.a001:对未标记的讨论数据做文本增强操作,获得增强的无标记文本数据,完成标
记数据集、无标记数据集以及增强的无标记数据集的构建。
27.在本实施例中,首先以英语作为中间语言,将每条未标记的讨论文本进行“中—英—中”的反向翻译,获得与未标记文本相同语义的文本数据。
28.然后对反向翻译后的每条文本数据先进行分词,得到分好词的文本表示x={x1,x2,

,xn},其中xi表示文本中第i个位置的单词,n表示文本中单词的个数。然后计算出文本中每个词被替换的概率其中p为超参数,tfidf(xi)为第i个词的tfidf值,maxitfidf(xi)为句子x中最大的tfidf值。在每条文本数据中,对文本中的每个词按照其对应的替换概率t进行抽样,以确定该词是否进行tf-idf非核心词替换。
29.最后把所有经过反向翻译的文本进行分词,以分词结果构建一个替换字典,字典中每个词被抽取的频率为对句子中需要进行tf-idf非核心词替换的词,从字典中按照概率p(w)抽取一个词进行替换,最终得到增强的无标记文本数据。其中,每条无标记文本对应一条增强的无标记文本数据。
30.a002:提取标记数据集、无标记数据集以及增强的无标记数据集中所有讨论文本数据的bert语义和liwc认知双重特征。
31.本实施例中,分别从bert语义特征和liwc认知特征两个层面来构建每条文本数据的特征表示。语义特征和认知特征在文本特征表示中互相补充,为认知投入追踪模型提供了更丰富的特征表示。
32.在提取文本数据的bert语义特征时,采用bert-base-chinese版本模型,即基于中文维基百科等通用语料预训练的语义特征表示模型。该模型共有12个隐藏层,隐藏层中每个字向量的维度为768维。
33.提取bert语义特征的具体步骤如下,将所有数据集中的每条讨论文本输入到基于中文预料预训练的bert模型中,选取最后一层输出序列中第一个向量作为讨论文本的语义特征表示,即:e
bert
={e1,e2,

,en}。其中,n为bert模型中隐藏层的维度。
34.在提取文本数据的liwc认知特征时,使用中科院心理所计算网络心理实验室的文心(textmind)中文心理分析系统。文心系统通过集成中文liwc词典提取文本数据中包括的102维特征。该系统通过基于中文liwc词典的大量正则表达式捕获不同类别用词的统计频率特征,为区分不同水平的认知投入提供了基础。
35.提取liwc具体步骤如下,将所有数据集中的每条讨论文本输入到liwc认知词典中,根据如下公式计算每条讨论文本的liwc认知特征e
liwc
={e1,e2,

,em}。
[0036][0037]
其中,s为第s种liwc认知特征,dics为其对应的字典。
[0038]
a003:将每一条讨论文本的双重特征进行融合,获得融合后的新特征。
[0039]
融合bert语义特征和liwc认知特征的具体步骤如下,将bert语义特征e
bert
和liwc认知特征e
liwc
线性拼接,生成长度为m n的中间融合特征e
bl
={e1,

,en,

,e
m n
},然后将该
中间融合特征按照如下公式输入到线性连接层,再经过tanh激活函数,输出最终融合特征e
con
={e1,e2,

,ek}。
[0040]econ
=tanh(w1·ebl
b1)
[0041]
其中,w1为线性连接层的权重矩阵,b1表示线性连接层的偏置,k是经过特征融合的输出特征e
con
的维度。
[0042]
a004:使用带有双重特征的标记数据集、无标记数据集以及增强的无标记数据集训练认知投入追踪模型。
[0043]
首先将所有讨论文本的融合特征分别放入到全连接层中,在全连接层的输出后接softmax激活函数,得到每条讨论文本对应的认知投入分布。然后依据不同的数据集做不同的计算。
[0044]
对于标记数据集,按照如下公式计算标记数据和对应标签之间的损失函数:
[0045][0046]
其中,y为标记数据的标签,p
l
是标记数据的认知投入分布。对于无标记数据集和增强的无标记数据集,需要先将增强的无标记数据的认知投入分布进行锐化。之后按照如下公式计算无标记数据和对应的增强的无标记数据的损失函数:
[0047][0048]
其中,pu是无标记数据的认知投入分布,是增强的无标记数据经过锐化的认知投入分布。
[0049]
最终将两个损失函数按照如下公式计算出目标函数:
[0050]
loss
final
=loss
supervised
λloss
consistency
[0051]
其中,λ是超参数,用于控制无标记数据对模型参数的影响。通过最小化目标函数来更新认知投入追踪模型的参数,以完成认知投入追踪模型的训练。
[0052]
本实施例上述方案针对过去的认知投入追踪方法在缺少标注数据时推理精度低以及缺少文本数据认知层面特征表示的问题,通过使用基于半监督学习和bert语义和liwc认知双重特征的认知投入追踪方法构建认知投入追踪模型,进而解决上述问题。
[0053]
本说明书中未作详细描述的内容,属于本专业技术人员公知的现有技术。
[0054]
上述实施例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰,都应涵盖在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献