技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于主客观评价的top-k频繁模式挖掘方法及系统  >  正文

一种基于主客观评价的top-k频繁模式挖掘方法及系统

  • 国知局
  • 2025-01-17 13:06:27

本发明涉及数据挖掘领域,尤其涉及一种基于主客观评价的top- k频繁模式挖掘方法及系统。

背景技术:

1、频繁模式挖掘是数据挖掘领域的核心问题之一,其目的是从大规模图数据中发现支持度不低于指定阈值的模式。近年来,基于单一大图的频繁模式挖掘在社交网络分析,生物信息学,化学信息学等方面取得广泛应用,引发了学术界的高度关注。现有的面向单一大图的频繁模式挖掘方法旨在挖掘完整的结果集,然而,这类方法的计算成本随输入数据规模的扩大而呈指数级增长,导致在大规模图数据上的实际应用面临严峻挑战。此外,大图上的结果集通常规模庞大,这极大地增加了用户理解和使用的难度。鉴于此,研究人员设计了top- k频繁模式挖掘算法,以发现排名位于前 k名的频繁模式。这类算法普遍采用诸如支持度、模式大小等“客观”兴趣度指标,用以对模式进行量化评估和排序。在具体实践中,部分研究者将支持度作为模式评估的准则,会导致挖掘得到的高频模式在结构上过于简单,从而限制了结果的多样性。另一方面,虽然许多研究者以模式大小为度量标准,设计了相应的top- k模式挖掘算法,并考虑了模式的结构信息,但依然存在挖掘结果与用户实际兴趣不符的情况。基于上述情况,设计一种能够兼顾用户主观偏好和模式客观信息的模式评价方法显得尤为重要。

技术实现思路

1、针对现有客观挖掘算法存在的问题,本发明设计了一种基于主客观评价的top- k频繁模式挖掘方法及系统。

2、一种基于主客观评价的top- k频繁模式挖掘方法,包括:

3、对模式进行预处理;

4、搭建主观评价预测模型(graph patterns evaluation model,简称gpem),模型采用孪生神经网络学习模式对之间的偏序关系,并利用单塔结构作为主干网络,实现对模式的主观评价;

5、利用模式之间的偏序关系,构建模式拓扑排序实现模式全局排序,比较所预测得分的排名与真实排名,评估排名的相似性;

6、融合用户主观偏好和模式客观信息,实现top- k频繁模式挖掘。

7、优选地,所述的对模式进行预处理,具体包括:

8、首先,针对单一大图,本发明使用共同邻居感知随机游走采样算法进行图采样;随后,在采样图上进行模式挖掘,得到一组具有不同结构和大小的模式,并构建神经网络模型来为模式评分。这是具有挑战性的任务,因为数据结构图包含不同数量的节点和边,通常没有通用的节点顺序,模式缺乏向量表示使得子图的特征学习变得复杂,并且难以在模式集合上逐一进行准确的打分;根据图的结构以及节点和边标签,将模式标准化为最小dfs编码形式;随后,使用one-hot编码,将分类特征转换为适合机器学习模型的输入。

9、优选地,所述的搭建主观评价预测模型gpem,模型采用孪生神经网络学习模式对之间的偏序关系,并利用单塔结构作为主干网络,实现对模式的主观评价,具体包括:

10、搭建的主观分数预测模型,是基于卷积神经网络(cnn)和多层感知机(mlp)组合的孪生神经网络模型;从模式中选取部分样本,由用户设置偏好,通过两两组合形成偏序关系,作为孪生神经网络的输入;

11、第一部分cnn模块,具体包括:对于两个参数共享的cnn模块,每个模块有三个卷积层,每个卷积层之后连接一个relu激活函数,用于引入非线性变换,以提高模型的表达能力;紧接着是一个最大池化层(maxpooling),用于对特征图进行下采样,以减少特征图的尺寸并保留关键特征;网络的最终输出通过flatten层转化为一维向量,作为后续mlp模块的输入;

12、第二部分mlp模块,具体包括:在cnn之后,构建了两个参数共享的mlp模块,每个模块都融合了激活函数、批归一化(batch normalization)和dropout正则化机制,旨在进一步处理低维特征并预测偏好分数;具体而言,网络的第一层全连接层将输入向量映射至1024维的高维特征空间,以增强原始特征的表达能力,每个全连接层后使用relu激活函数;激活函数之后引入batchnorm1d层,通过对每一个批次的数据进行标准化,保持每一层的输入在一个稳定的分布范围内,从而加速网络训练并提高模型稳定性;随后,加入了dropout层,通过在训练过程中随机禁用一部分神经元及其连接,减少网络对特定特征的依赖,降低过拟合的风险,从而提高模型的适应性;在此基础上,网络逐步减少特征的维度(从1024到512,再到256、128、64、32,最终到1),每个全连接层的设计都旨在进一步压缩特征空间,同时保留最关键的特征信息;网络的末端层将特征维度降至1,输出一个偏好分数,用于模型的预测任务;

13、在模型的输出层,首先使用softmax函数将网络的输出转换为概率分布,随后,通过最小化交叉熵损失,指导梯度下降过程,优化模型参数,使预测的概率分布尽可能接近真实标签分布;接着,构建参数共享的孪生神经网络后,模型进一步采用单塔结构作为其主干网络;实现输入单个向量输出偏好分数,从而构建了一个用于主观评价的模型。

14、优选地,所述的利用模式之间的偏序关系,构建模式拓扑排序实现模式全局排序,比较所预测得分的排名与真实排名,评估排名的相似性,具体包括:

15、鉴于输入模式以偏序对关系的形式呈现,缺乏全局排序的结果,因此无法直接通过对比模型预测结果与真实排序结果,来评估模型性能;为解决这一问题,本发明提出了一种基于偏好关系的全局排序策略,即:根据模式之间的偏序关系,构建模式拓扑排序实现模式全局排序;具体而言,对于数据中的每一对模式向量,根据偏好关系在有向图中构建相应的有向边,并更新所有节点的入度和出度信息;在执行拓扑排序之前,首先需要通过深度优先搜索对图进行环检测,若检测到图中存在环,则表明存在相互依赖的偏好关系,无法生成有效的拓扑排序;针对此情形,将环缩减为一个超点,视环中所有节点为等价,从而将原图转换为一个新的有向无环图;在此基础上,对新的有向无环图进行拓扑排序;如果图中有环且被缩减为超点,超点中的节点,其拓扑排序一致;此方法有效地构建出一个基于偏好的全局排序序列;比较所预测得分的排名与原始偏序对的拓扑排名,评估排名的相似性。

16、优选地,所述的融合主观评价和客观评价,实现top- k频繁模式挖掘,具体包括:

17、top- k频繁模式挖掘问题定义为:给定一个图g和一个整数k,图g中挖掘出排序前k个的模式集合s;本发明提出了一种新的兴趣度指标itr对模式进行评估,旨在挖掘出主客观融合的top- k频繁模式;

18、模式q的兴趣度定义如下所示:

19、

20、式中,itr(q)为兴趣度指标,,α表示主观分数权重;model score为主观分数,由模型得出,客观分数由公式决定,其中为模式q的支持度,为模式大小;通过融合主观分数和客观分数,挖掘出top- k个频繁模式。

21、一种基于主客观评价的top- k频繁模式挖掘系统,包括:

22、数据预处理模块,用于对模式进行预处理;

23、设计模型模块,首先搭建参数共享的孪生神经网络gpem,用于学习模式对之间的偏序关系,其次从训练完成的孪生神经网络中抽取单塔模型,用于对单个输入向量的偏好分数进行预测;

24、全局排序模块,利用模式之间的偏序关系,构建模式拓扑排序实现模式全局排序,比较所预测得分的排名与真实排名,评估排名的相似性;

25、主观客观评价结合模块,用于实现top- k频繁模式挖掘。

26、优选地,所述的数据预处理模块包括:

27、首先,针对单一大图,本发明使用共同邻居感知随机游走采样算法进行图采样;随后,在采样图上进行模式挖掘,得到一组具有不同结构和大小的模式,并构建神经网络模型来为模式评分。这是具有挑战性的任务,因为数据结构图包含不同数量的节点和边,通常没有通用的节点顺序,模式缺乏向量表示使得子图的特征学习变得复杂,并且难以在模式集合上逐一进行准确的打分;根据图的结构以及节点和边标签,将模式标准化为最小dfs编码形式;随后,使用one-hot编码,将分类特征转换为适合机器学习模型的输入。

28、优选地,所述的设计模型模块包括:

29、搭建的主观分数预测模型,是基于卷积神经网络(cnn)和多层感知机(mlp)组合的孪生神经网络模型;从模式中选取部分样本,由用户设置偏好,通过两两组合形成偏序关系,作为孪生神经网络的输入;

30、第一部分cnn模块,具体包括:对于两个参数共享的cnn模块,每个模块有三个卷积层,每个卷积层之后连接一个relu激活函数,用于引入非线性变换,以提高模型的表达能力;紧接着是一个最大池化层(maxpooling),用于对特征图进行下采样,以减少特征图的尺寸并保留关键特征;网络的最终输出通过flatten层转化为一维向量,作为后续mlp模块的输入;

31、第二部分mlp模块,具体包括:在cnn之后,构建了两个参数共享的mlp模块,每个模块都融合了激活函数、批归一化(batch normalization)和dropout正则化机制,旨在进一步处理低维特征并预测偏好分数;具体而言,网络的第一层全连接层将输入向量映射至1024维的高维特征空间,以增强原始特征的表达能力,每个全连接层后使用relu激活函数;激活函数之后引入batchnorm1d层,通过对每一个批次的数据进行标准化,保持每一层的输入在一个稳定的分布范围内,从而加速网络训练并提高模型稳定性;随后,加入了dropout层,通过在训练过程中随机禁用一部分神经元及其连接,减少网络对特定特征的依赖,降低过拟合的风险,从而提高模型的适应性;在此基础上,网络逐步减少特征的维度(从1024到512,再到256、128、64、32,最终到1),每个全连接层的设计都旨在进一步压缩特征空间,同时保留最关键的特征信息;网络的末端层将特征维度降至1,输出一个偏好分数,分数用于模型的预测任务;

32、在模型的输出层,首先使用softmax函数将网络的输出转换为概率分布,随后,通过最小化交叉熵损失,指导梯度下降过程,优化模型参数,使预测的概率分布尽可能接近真实标签分布;接着,构建参数共享的孪生神经网络后,模型进一步采用单塔结构作为其主干网络;实现输入单个向量输出偏好分数,从而构建了一个用于主观评价的模型。

33、优选地,所述的全局排序模块包括:

34、鉴于输入模式以偏序对关系的形式呈现,缺乏全局排序的结果,因此无法直接通过对比模型预测结果与真实排序结果,来评估模型性能;为解决这一问题,本发明提出了一种基于偏好关系的全局排序策略,即:根据模式之间的偏序关系,构建模式拓扑排序实现模式全局排序;具体而言,对于数据中的每一对模式向量,根据偏好关系在有向图中构建相应的有向边,并更新所有节点的入度和出度信息;在执行拓扑排序之前,首先需要通过深度优先搜索对图进行环检测,若检测到图中存在环,则表明存在相互依赖的偏好关系,无法生成有效的拓扑排序;针对此情形,将环缩减为一个超点,视环中所有节点为等价,从而将原图转换为一个新的有向无环图;在此基础上,对新的有向无环图进行拓扑排序;如果图中有环且被缩减为超点,超点中的节点,其拓扑排序一致;此方法有效地构建出一个基于偏好的全局排序序列;比较所预测得分的排名与原始偏序对的拓扑排名,评估排名的相似性。

35、优选地,所述的主观客观评价结合模块包括:

36、top- k频繁模式挖掘问题定义为:给定一个图g和一个整数k,从图g中挖掘出排序前k个的模式集合s;本发明提出了一种新的兴趣度指标itr对模式进行评估,旨在挖掘出主客观融合的top- k频繁模式;

37、模式q的兴趣度定义如下所示:

38、

39、式中,itr(q)为兴趣度指标,,α表示主观分数权重;model score为主观分数,由模型得出,客观分数由公式决定,其中 为模式q的支持度,为模式大小;通过融合主观分数和客观分数,挖掘出top- k个频繁模式。

本文地址:https://www.jishuxx.com/zhuanli/20250117/356177.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。