具有效率约束的序列模式挖掘方法、装置及设备与流程
- 国知局
- 2024-09-11 15:08:40
本技术涉及数据挖掘,具体涉及一种具有效率约束的序列模式挖掘方法、装置及设备。
背景技术:
1、大规模开放在线课程(massive open online courses,mooc)平台作为在线学习的重要工具,能够捕捉丰富的学习行为数据,为数据挖掘研究提供了丰富而互动的多媒体平台;而探索mooc数据中的学习行为特征对于优化学习体验至关重要,因此数据挖掘技术被广泛应用于mooc数据集中,以提取有价值的见解,尤其关注学生行为分析;其中,学生行为数据的分析对学业成绩预测、课程推荐及课程质量满意度研究等领域均产生了重要影响。由此可见,借助数据挖掘技术,研究人员能更深入地理解学生行为及其潜在影响。
2、相关技术中,序列模式挖掘(sequence pattern mining,spm)是分析学生行为记录的关键手段,旨在发现支持度达到或超过预设最小阈值的子序列,目前已有包括广度优先、深度优先和模式增长等多种传统spm算法被应用于此领域,这些算法可有效地从数据集中识别和提取模式,以生成大量序列模式(sequence pattern,sp)。然而,由于mooc数据因其庞大的规模和复杂性,比如包含用户交互、课程材料和带时间戳的操作等多种信息,使得传统的spm算法难以处理,并可能产生不相关的模式。因此,如何有效地挖掘和发现有意义的序列模式至关重要。
技术实现思路
1、本技术提供一种具有效率约束的序列模式挖掘方法、装置及设备,可提高序列模式发现的有效性和准确性,并降低序列模式的发现数量。
2、第一方面,本技术实施例提供一种具有效率约束的序列模式挖掘方法,包括以下步骤:
3、基于模式中项目的开始时间、结束时间、进度时间和总持续时间以及序列长度分别确定出出勤性约束、离散型约束和辍学性约束;
4、根据所述出勤性约束、所述离散型约束和所述辍学性约束构建具有效率性约束的支持度;
5、通过所述具有效率性约束的支持度以及预设的序列模式挖掘算法对大规模开放在线课程数据集中的序列模式进行遍历挖掘,以输出效率约束序列模式;所述序列模式挖掘算法包括逐级效率约束序列模式挖掘算法、基于投影的效率约束序列模式挖掘算法和集成成本的效率约束序列模式挖掘算法中的任意一种,所述成本基于进度时间确定。
6、结合第一方面,在一种实施方式中,所述基于模式中项目的开始时间、结束时间、进度时间和总持续时间以及序列长度分别确定出出勤性约束、离散型约束和辍学性约束,包括:
7、基于开始时间、结束时间、进度时间和总持续时间确定出出勤性约束;
8、基于开始时间确定出离散型约束;
9、基于序列长度、进度时间和总持续时间确定出辍学性约束。
10、结合第一方面,在一种实施方式中,所述出勤性约束的计算公式为:
11、
12、式中,表示序列 s中模式对应的出勤性约束,、、和分别表示序列 s中第 i个项目对应的开始时间、结束时间、进度时间和总持续时间,序列包含 n个按时间顺序排列的项目。
13、结合第一方面,在一种实施方式中,所述离散型约束的计算公式为:
14、
15、
16、式中,表示序列 s中模式对应的离散型约束,表示序列 s中第 i个项目对应的开始时间,序列包含 n个按时间顺序排列的项目。
17、结合第一方面,在一种实施方式中,所述辍学性约束的计算公式为:
18、
19、式中,表示序列 s中模式对应的辍学性约束,表示序列中模式的辍学主导学习行为次数,辍学主导学习行为基于进度时间占总持续时间的比例确定,表示序列 s所在的序列集内所有序列中的最大长度。
20、结合第一方面,在一种实施方式中,所述根据所述出勤性约束、所述离散型约束和所述辍学性约束构建具有效率性约束的支持度,包括:
21、基于出勤性约束、离散型约束、辍学性约束以及与模式对应的支持集分别确定出与出勤性约束对应的支持度、与辍学性约束对应的支持度以及与辍学性约束对应的支持度;
22、根据支持度、支持度以及支持度构建具有效率性约束的支持度。
23、结合第一方面,在一种实施方式中,所述具有效率性约束的支持度的计算公式为:
24、
25、式中,、和分别表示出勤因子、离散因子和辍学因子,三者的取值范围均为[0,1]且。
26、结合第一方面,在一种实施方式中,所述成本基于进度时间确定,包括:
27、根据项目的进度时间确定出模式在每个序列中对应的成本;
28、基于模式在每个序列中对应的成本以及具有效率性约束的支持度确定出模式的平均成本;
29、通过具有效率性约束的支持度和模式的最小成本确定出模式的平均支持度成本。
30、第二方面,本技术实施例提供了一种具有效率约束的序列模式挖掘装置,包括:
31、确定模块,其用于基于序列模式中项目的开始时间、结束时间、进度时间和总持续时间以及序列长度分别确定出出勤性约束、离散型约束和辍学性约束;
32、构建模块,其用于根据所述出勤性约束、所述离散型约束和所述辍学性约束构建具有效率性约束的支持度;
33、挖掘模块,其用于通过所述具有效率性约束的支持度以及预设的序列模式挖掘算法对大规模开放在线课程数据集中的序列模式进行遍历挖掘,以输出效率约束序列模式;所述序列模式挖掘算法包括逐级效率约束序列模式挖掘算法、基于投影的效率约束序列模式挖掘算法和集成成本的效率约束序列模式挖掘算法中的任意一种,所述成本基于进度时间确定。
34、结合第二方面,在一种实施方式中,所述确定模块具体用于:
35、基于开始时间、结束时间、进度时间和总持续时间确定出出勤性约束;
36、基于开始时间确定出离散型约束;
37、基于序列长度、进度时间和总持续时间确定出辍学性约束。
38、结合第二方面,在一种实施方式中,所述出勤性约束的计算公式为:
39、
40、式中,表示序列 s中模式对应的出勤性约束,、、和分别表示序列 s中第 i个项目对应的开始时间、结束时间、进度时间和总持续时间,序列包含 n个按时间顺序排列的项目。
41、结合第二方面,在一种实施方式中,所述离散型约束的计算公式为:
42、
43、
44、式中,表示序列 s中模式对应的离散型约束,表示序列 s中第 i个项目对应的开始时间,序列包含 n个按时间顺序排列的项目。
45、结合第二方面,在一种实施方式中,所述辍学性约束的计算公式为:
46、
47、式中,表示序列 s中模式对应的辍学性约束,表示序列中模式的辍学主导学习行为次数,辍学主导学习行为基于进度时间占总持续时间的比例确定,表示序列 s所在的序列集内所有序列中的最大长度。
48、结合第二方面,在一种实施方式中,所述构建模块具体用于:
49、基于出勤性约束、离散型约束、辍学性约束以及与模式对应的支持集分别确定出与出勤性约束对应的支持度、与辍学性约束对应的支持度以及与辍学性约束对应的支持度;
50、根据支持度、支持度以及支持度构建具有效率性约束的支持度。
51、结合第二方面,在一种实施方式中,所述具有效率性约束的支持度的计算公式为:
52、
53、式中,、和分别表示出勤因子、离散因子和辍学因子,三者的取值范围均为[0,1]且。
54、结合第二方面,在一种实施方式中,所述成本基于进度时间确定,包括:
55、根据项目的进度时间确定出模式在每个序列中对应的成本;
56、基于模式在每个序列中对应的成本以及具有效率性约束的支持度确定出模式的平均成本;
57、通过具有效率性约束的支持度和模式的最小成本确定出模式的平均支持度成本。
58、第三方面,本技术实施例提供了一种具有效率约束的序列模式挖掘设备,所述具有效率约束的序列模式挖掘设备包括处理器、存储器以及存储在所述存储器上并可被所述处理器执行的具有效率约束的序列模式挖掘程序,其中所述具有效率约束的序列模式挖掘程序被所述处理器执行时,实现如前述的具有效率约束的序列模式挖掘方法的步骤。
59、本技术实施例提供的技术方案带来的有益效果包括:
60、通过引入出勤性、离散性和辍学性三大关键约束来精准捕捉学习行为中的不同特征对序列模式挖掘的影响,且由于这些约束具有向下封闭性质,可确保其在模式挖掘过程中的有效性;同时通过结合逐级搜索空间遍历或递归投影技术的挖掘算法,并将成本概念融入序列模式挖掘中,以能够在考虑效率限制的同时有效探索搜索空间,进而提高序列模式发现的有效性和准确性,且与传统spm算法相比,显著减少序列模式的发现数量。
本文地址:https://www.jishuxx.com/zhuanli/20240911/293362.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表