一种基于自监督学习的图数据集压缩方法及系统
- 国知局
- 2024-07-31 23:07:14
本发明属于图像数据处理,涉及一种图数据集压缩方法及系统,具体是涉及一种基于自监督学习的图数据集压缩方法及系统。
背景技术:
1、图数据集是一种对一组对象(节点)及其关系(边)进行建模的数据结构,在诸如社交网络、分子检测和代码检索等领域中非常常见,其中数据集包含了许多图,每个图都模拟了一些实体之间的关系。图神经网络(gnn)是一种专门用于处理图数据的深度学习模型。与传统的深度学习模型不同,gnn能够有效地捕捉图数据中节点之间的关系和图的整体结构。它通过在节点之间传递和聚合信息来学习节点的表示,从而在图数据上执行各种任务,常见的任务有节点分类、图分类和链接预测等。图分类任务即为每个图预测一个标签,在欺诈检测、推荐系统和化学分析等方向上得到了广泛应用。
2、然而,大型数据集通常包含许多(例如,数百万个)图,训练一个准确的分类模型需要的代价非常昂贵。为了提高准确率,传统方法会尝试许多配置,而每次配置都需要在大规模数据集上从头开始训练一个模型。预训练模型是一种预先训练好的深度学习模型,在大规模数据集上学习数据的表征。预训练模型在特定任务上进行微调时往往能够提供更好的性能,因为它们已经学习到了丰富的数据表示,我们可以利用预训练模型已经学习到的丰富的数据表示。
3、将大规模数据集压缩成更小的数据集以加快模型训练速度一直是研究者们关注的问题,图数据集压缩旨在将具有许多图的数据集减少为具有较少图的较小数据集,同时保持模型训练的准确性。但目前的几种图压缩方法共有的关键性局限是它们都是有监督的,需要原始数据集的标签,然而在实际情况下,图的标签可能很少。而自监督学习是一种无需人工标签的学习方法,它通过最大化数据自身的信息来进行训练。在图领域,自监督学习模型通常被用来学习图数据的结构和特征表示,能够有效地利用图数据的内在结构和特点,从而提高各种任务的性能和泛化能力。
4、因此,亟需一种方法,能够处理无标签信息的图,在无监督的情况下进行图数据集压缩,并且获得较高的准确性。
技术实现思路
1、本发明要解决的问题是设计一种基于自监督的图数据集压缩方法及系统,构建一个小规模的合成图,使得在压缩数据集上训练的图神经网络能够达到与在原始数据集上训练的模型相当的性能。
2、本发明的方法采用的技术方案是:一种基于自监督学习的图数据集压缩方法,包括以下步骤:
3、步骤1:在含有n个图的原始数据集t中随机抽取m个图,m<<n,并通过选定的预训练模型对m个图进行预测,生成模型预测标签ys;使用m个图的节点特征、邻接矩阵和模型预测标签,作为初始合成图数据集s;
4、步骤2:使用预训练模型生成目标表征和
5、步骤3:计算原始数据集t和初始合成图数据集s的图核矩阵kts和kss;其中,kts是衡量t和s之间相似性的图核矩阵,kss是衡量s和s之间相似性的图核矩阵;
6、步骤4:利用ys、kts和kss计算出预测表征;
7、步骤5:使用预测表征和目标表征y′t计算损失,进一步计算损失函数的梯度,并利用梯度来更新合成图数据集s的参数,使得损失函数逐渐减小到预设范围内,从而获得压缩后的合成图数据集。
8、作为优选,步骤1中,所述邻接矩阵,在浓缩原始数据集时,保持原始邻接矩阵不变,而不是在每个浓缩步骤中迭代计算新的邻接矩阵。
9、作为优选,步骤2中,所述预训练模型是带参数θ*的预训练模型g,其中其中,θ表示神经网络的参数,表示自监督模型的损失函数。
10、作为优选,步骤3中,采用自监督核岭回归方法,计算图核矩阵kts和kss;
11、
12、其中,图核函数k(gi,g′j)为图神经切线gntk核函数kgntk(gi,g′j)或注意力图神经切线antk核函数kantk(gi,g′j);
13、对于给定两个图g=(v,e)和g′=(v′,e′),n和n′为图节点数,图g与g′之间的图神经切线核gntk协方差矩阵为∑(0)<g,g′>∈rn×n′;通过点积xutxu′计算图神经切线核gntk协方差矩阵中的每个元素,xu和xu′分别表示u∈v和u′∈v′的节点特征;
14、对于每个具有r个激活层的gnn层l∈{1,...,l},计算每个r∈[r]的图神经切线核gntk值
15、
16、其中是第l层对应的协方差矩阵经过第r层激活层的导数;
17、读取v和v′中的所有节点,计算g和g′之间的图神经切线核函数
18、
19、对于每个具有r个激活层的gnn层l∈{1,...,l},计算每个r∈[r]的计算注意力神经切线核antk值
20、
21、其中,为注意力神经切线核antk协方差矩阵记,表示第l层对应的注意力神经切线核antk协方差矩阵经过第r层激活层;表示没有经过激活层的第l层对应的注意力神经切线核antk协方差矩阵;г<g,g′>为采用多头注意力机制计算获得的注意力矩阵,表示每个邻居节点相对于中心节点的重要性,通过对的对角线列向量与的对角线行向量进行矩阵乘法获得,γ(l)<g,g′>表示第l层的多头注意力矩阵;
22、读取v和v′中的所有节点,计算g和g′之间的注意力图神经切线核函数
23、作为优选,步骤4中,预测表征为:
24、pred=kts(kss+λi)-1ys;
25、其中,其中,λ是核岭回归krr的超参数,i是单位矩阵。
26、作为优选,步骤5中,损失函数的目标函数为:
27、
28、其中,λ是核岭回归krr的超参数,i是单位矩阵,是损失函数最小的s,表示在域f上的frobenius范数的平方。
29、作为优选,所述预训练模型通过压缩后的合成图数据集进一步进行训练优化;训练过程中,采用双层优化gnn架构;
30、其中,上层优化:在第一阶段使用预训练模型g生成目标表征通过将yt与由借助预训练模型g优化获得的模型生成的图表征y′t匹配来更新合成图数据集s;在第二阶段,上层目标lupper定义为yt和之间的均方误差mse;因为模型的参数与s相关,根据链式法则,通过迭代优化lupper来更新s,即
31、下层优化:为合成图数据集s生成目标表征在第三阶段,通过使用均方误差mse来最大化目标表征ys与之间的相似性,来优化下层目标llower;然后迭代优化llower,以找到最优参数这些参数被传递给上层优化;
32、总体目标函数为:
33、
34、其中,upper-level、lower-level分别表示上层优化,下层优化;fθ(s)表示训练过程中选择的神经网络。
35、本发明的系统采用的技术方案是:一种基于自监督学习的图数据集压缩系统,包括:
36、一个或多个处理器;
37、存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现所述的基于自监督学习的图数据集压缩方法。
38、相当于现有技术,本发明的有益效果包括:
39、(1)为了避免数据增强引起的梯度匹配偏差,本发明引入了一个带参数θ*的预训练模型g来生成目标表示,采用双层优化架构,将训练的gnn模型和预训练好的模型在下层优化的合成图上进行匹配,再在原始数据集上进行匹配。从而消除了模型在浓缩过程中的不稳定性。
40、(2)采用自监督核岭回归方法,将双层优化简化为单层优化,从而降低总体计算复杂度。
41、(3)本发明采用注意力神经切线核,克服了以前图核在表达能力和准确性方面无法与gnn方法匹敌的缺点,它在gnn初始化时构建了一个强大的切线空间,不仅捕捉了传统核之间的相似性,而且还融入了gnn的强大表达能力。
42、(4)本发明采用邻接矩阵重用方法,减少了图浓缩过程中邻接矩阵的计算量。
43、(5)本发明可以将大规模图数据集在不需要真实标签的情况下,有效地将压缩为较小的合成图,节省计算时间和资源,效率和性能比当前最先进的基线有了显著的提高。
本文地址:https://www.jishuxx.com/zhuanli/20240730/196048.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。