一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于自监督的属性图社团检测方法

2022-08-10 22:29:33 来源:中国专利 TAG:


1.本发明涉及计算机网络技术领域,特别是涉及一种基于自监督的属性图社团检测方法。


背景技术:

2.图神经网络应用到了图相关任务的多个方面,包括节点分类、图分类、图聚类等。图的节点分类当中,通常会应用到自动编码器的方式,以真实标签与预测标签的误差作为损失函数进行反向传播。图分类任务当中,常用的是池化的方式,通过将复杂网络中的节点进行聚合,作为一个点进行处理,逐步得到对于整个网络的表示,下游进行网络表示的分类任务。图聚类任务当中,不具有真实的标签,因此常通过不同的方式构造损失函数,获得指定类别数目的划分结果。
3.深度学习的任务在大多数情况下可以划分成两种类型,一种是监督学习,一种是无监督学习,区别在于是否使用了人工标注的标签值。自监督学习的目标是从大规模的无监督的数据中挖掘出自身的监督信息,这种构造出的监督信息有利于提取出适合下游任务的数据表示。即自监督学习的任务不使用人为的标签标注,大多数情况下被称为无监督学习的一种,但是比较合适的叫法应该是自监督学习。现实的深度学习任务中,大多数情况下是没有人为标注的标签的,并且人为标注的成本很高,所以自监督学习的重要性不言而喻。
4.在没有标签的情况下如何完成社团划分的任务,这种任务在图相关任务中被称之为图聚类任务。在图聚类任务中,输入数据包含两种类型,一种是图的拓扑结构信息,通常使用邻接矩阵表示一张图的结构信息,表示的是图中各个节点之间边的信息,另一种是图的特征信息,通常使用特征矩阵表示每一个节点的特征信息。对邻接矩阵和特征矩阵分别进行数据的预处理,有利于下游任务的执行。大多数的图聚类任务可分为两个部分,前者为学习图的信息的过程,后者为通过聚类算法得到聚类结果的过程。将单独的任务划分成上下游两阶段任务,势必会造成精度的损失。


技术实现要素:

5.本发明的目的是提供一种基于自监督的属性图社团检测方法,已解决上述现有技术中存在的问题。
6.为实现上述目的,本发明提供了如下方案:
7.基于自监督的属性图社团检测方法,包括:
8.提取图注意力网络中的初始邻接矩阵、初始特征矩阵,分别对所述初始邻接矩阵和所述初始特征矩阵进行预处理,得到转换后的邻接矩阵以及过滤后的特征矩阵;
9.基于所述转换后的邻接矩阵和所述过滤后的特征矩阵通过自编码单元进行重构,得到重构后的邻接矩阵与重构后的特征矩阵;将所述重构后的特征矩阵输入到聚类单元中进行计算,得到聚类结果;
10.分别将所述自编码单元和所述聚类单元中的损失函数进行合并,得到最终的整体
损失函数,对所述最终的整体损失函数进行聚类计算,得到最终聚类结果,基于所述最终聚类结果得到划分结果。
11.优选地,分别对所述初始邻接矩阵和所述初始特征矩阵进行预处理的过程包括:
12.向所述初始邻接矩阵中加入扩散函数,对所述初始特征矩阵做平滑处理,然后放入所述自编码单元和所述聚类单元中,通过所述自编码单元获得网络数据的低维表示,通过所述聚类单元进行聚类任务,进行目标函数的优化。
13.优选地,向所述初始邻接矩阵中加入所述扩散函数包括:
14.基于多阶邻接矩阵的和,通过扩散函数模拟不同阶邻居间的关系,并利用度矩阵进行转换,得到转换后的矩阵;将所述转换后的矩阵通过对称转换进行处理,得到加入扩散函数的初始邻接矩阵;其中所述初始邻接矩阵为所述多阶邻接矩阵。
15.优选地,所述扩散函数为个性化网页排名函数
[0016][0017]
其中,k为邻居阶数;α和t为超参数,根据数据集进行调整。
[0018]
优选地,对所述初始特征矩阵做平滑处理的过程包括:
[0019]
通过拉普拉斯平滑laplacian smoothing filter的方式对所述初始特征矩阵进行低通滤波处理,用于使过滤后的特征矩阵体现图的整体节点特征,得到所述过滤后的特征矩阵。
[0020]
优选地,进行所述低通滤波处理时采用过滤器h,其中,所述过滤器h为:
[0021]
h=i-kl
ꢀꢀꢀ
(2)
[0022]
式中,i为单位矩阵,l为拉普拉斯矩阵,k为拉普拉斯矩阵系数。
[0023]
优选地,所述自编码单元包括自编码层,所述自编码层为图自编码层,所述图自编码层使用两层gat作为基本编码层单元,其中,第一层gat使用所述初始特征矩阵作为输入,第二层gat的输入为第一层的输出,同时向所述两层gat中加入网络的拓扑结构信息和节点的特征信息,用于使编码器的输出完整获得网络的全部信息。
[0024]
优选地,所述自编码单元中还包括与所述图自编码层对称的图解码层,所述图解码层用于重构不同的图信息,得到重构后的邻接矩阵与重构后的特征矩阵,进而得到邻接矩阵的重构误差与特征矩阵的重构误差。
[0025]
优选地,在所述聚类单元中,选择kl散度作为衡量所述聚类结果的目标函数:
[0026][0027]
其中,p
iu
为目标分布,q
iu
为编码层输出的嵌入hi与聚类中心μu之间的相似程度衡量,t分布作为衡量的标准,t分布针对不同的节点集群获得分布函数,q指编码层输出的嵌入hi与聚类中心μu两者构成的t分布,p为使用q分布作为软标签使用平方的方式增大区分度而构成的分布。
[0028]
优选地,所述整体损失函数包括邻接矩阵的重构误差、特征矩阵的重构误差和衡量聚类结果的误差函数,将所述整体损失函数作为最终的损失函数l,如下式(4):
[0029]
l=lf βla γl
kl
ꢀꢀꢀ
(4)
[0030]
其中,lf是特征矩阵的重构误差,la是邻接矩阵的重构误差,l
kl
为衡量聚类效果的
误差函数。
[0031]
本发明的有益效果为:
[0032]
本发明以图注意力网络作为基础网络层,相比图卷积网络具有可以添加权重的优势,在节点连接较为密集的网络中具有更好的作用,使用该网络层构成了自动编码器,用于获得网络节点的低维表示,相较于传统的自动编码器,本发明的自动编码器中加入了两种重构误差,既重构了网络的结构信息邻接矩阵,又重构了网络中的节点特征信息特征矩阵,可以获得高质量的节点表示。
附图说明
[0033]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0034]
图1为本发明实施例的方法流程图;
[0035]
图2为本发明实施例的算法模型结构图。
具体实施方式
[0036]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0037]
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
[0038]
如附图1所示,本发明提供一种基于自监督的属性图社团检测方法,包括:
[0039]
提取图注意力网络中的初始邻接矩阵、初始特征矩阵,分别对所述初始邻接矩阵和所述初始特征矩阵进行预处理操作,得到转换后的邻接矩阵以及过滤后的特征矩阵;
[0040]
基于所述转换后的邻接矩阵和所述过滤后的特征矩阵通过自编码单元进行重构,得到重构后的邻接矩阵与重构后的特征矩阵;将所述重构后的特征矩阵输入到聚类单元中进行计算,得到聚类结果;
[0041]
分别将所述自编码单元和所述聚类单元中的损失函数进行合并,得到最终的整体损失函数,对所述最终的整体损失函数进行聚类计算,得到最终聚类结果,基于所述最终聚类结果得到划分结果。
[0042]
如图2所示,其中a表示网络的结构信息,x表示网络中的节点信息,z表示网络节点特征信息的隐藏层维度表示,后续根据特征信息的隐藏层表示进行反向传播计算:首先将数据进行预处理,向邻接矩阵中加入扩散函数,对特征矩阵做平滑处理,而后放入下游的自动编码器和聚类模块,使用自动编码器获得网络数据的低维表示,进行聚类任务,两者合并成同一个任务,进行目标函数的优化,得到最后的聚类结果。
[0043]
进一步优化方案,进行所述预处理操作的过程包括:
[0044]
向所述初始邻接矩阵中加入扩散函数,对所述初始特征矩阵做平滑处理,然后放
入所述自编码单元和所述聚类单元中,通过所述自编码单元获得网络数据的低维表示,通过所述聚类单元进行聚类任务,进行目标函数的优化。
[0045]
邻接矩阵指的是反映节点之间的相邻节点的关系的矩阵,反映的是图的结构信息,换而言之,表示的是图中边的信息,边所属的两端,边的方向,边的权重都可以在邻接矩阵中表示。尽管邻接矩阵有着很好的表示效果,可以很好地表示图的结构信息,可以直接参与到图神经网络中的运算。
[0046]
本实施例中选择使用多阶邻接矩阵的和:
[0047][0048]
n为指定的正整数值,用于构成多阶的邻接矩阵。
[0049]
选择使用基于扩散函数的方式,使用扩散函数模拟不同阶邻居间的关系,扩散函数为个性化网页排名函数
[0050][0051]
其中,k为邻居阶数;α和t为超参数,根据数据集进行调整。
[0052]
个性化网页排名函数随着邻居阶数的增加而减小,符合同构图中节点对于邻居节点的影响力随距离减小的状态,所以扩散函数可以应用到邻接矩阵的改进中:
[0053][0054]
利用度矩阵进行转换,得到转换后的矩阵更加能够表现网络的拓扑结构信息:
[0055][0056]
在本实施例中选用了ppr扩散函数和对称转换矩阵,将转换矩阵加入到扩散函数中,可以得到:
[0057][0058]
得到的转换后的邻接矩阵可以通过对称转换处理,作为模型的输入:
[0059][0060]
其中,为(5)对应式,为由生成的对角矩阵的对应次方。
[0061]
特征矩阵中不同节点之间具有不同的相关性,相邻节点间的相关性应该更高,即相邻节点之间应该更加平滑。
[0062]
在本实施例中通过拉普拉斯平滑laplacian smoothing filter的方式对所述初始特征矩阵进行低通滤波处理,用于使过滤后的特征矩阵体现图的整体节点特征,得到所述过滤后的特征矩阵。
[0063]
优选地,进行所述低通滤波处理时所使用的过滤器h为:
[0064]
h=i-kl
ꢀꢀꢀ
(7)
[0065]
式中,i为单位矩阵,l为拉普拉斯矩阵。
[0066]
过滤器可以进行堆叠,实现过滤功能:
[0067][0068]
式中:k为超参数,可以根据图的具体情况选择,实践证明,使用对称转换矩阵l
sym
时,为了使过滤器达到最好的效果,可以使时,为了使过滤器达到最好的效果,可以使当时,过滤器在对应的节点没有低通的性能,而当时,过滤器不能够完全取出高频部分;所以选择是最好的选择。
[0069]
自动编码器(auto-encoder)是一种可以从数据本身学习到符合要求的有效的表示的方法,所以不需要预先设定好的标签,这种通过数据本身学习的方式称之为自监督学习(self-supervised learning)。对于图聚类任务,学习数据的有效表示是很必要的,基于这种情况,需要设计自编码层,将编码结果作为下一层的输入数据。
[0070]
本实施例中基于图的任务中使用自编码器提取图的信息,选择了使用图自动编码器。图自动编码器使用了图神经网络作为基本的编解码层单元,gat针对gcn中对节点所有邻居节点一视同仁的方式进行了改进,计算了与邻居节点之间的相关性,作为计算的参数,提升了gcn的性能,为了取得更好的性能,使用了gat作为基本的编解码层单元。gat层与层之间的传播方式为:
[0071][0072]
每一个节点下一次迭代的状态都基于自己的邻居节点这一次的状态,其中,σ为激活函数,运行在每一层的结束,为每一个节点在第n层的数据表示,α
ij
为节点i与它的邻居节点j的相关性的表示,α
ij
的表示为:
[0073][0074]
其中,e
ij
指的是节点i的邻居节点j对于节点i的重要性,使用softmax激活函数对邻居节点做了归一化,其中,e
ij
的定义为:
[0075]eij
=leakyrelu(a(whi,whj))
ꢀꢀ
(11)
[0076]
其中w为转换权重矩阵,而a为单层前馈网络,获取两节点的相关性。
[0077]
使用两层gat作为模型的编码器部分:
[0078][0079][0080]
第一层使用初始的特征矩阵x作为输入,而后第二层的输入为第一层的输出。同时加入网络的拓扑结构信息和节点的特征信息,使得编码器的输出能够完整获得网络的全部信息。
[0081]
在本实施例中还使用了两种解码器,重构两种不同的图信息,使得到的数据表示更加合理。
[0082]
使用的第一个重构方式是对称的架构,解码层同样使用两层gat:
[0083][0084][0085]
通过对称的解码器,得到的是与输入信息相同维度的数据表示,这里可以计算与输入特征矩阵的差异作为损失函数:
[0086][0087]
该式含义为计算每一个对应位置的值的均方差作为特征矩阵的误差,重构结果越相似,则该误差越小。除此之外,另一种重构方式通过内积的形式获得重构的邻接矩阵:
[0088][0089]
其中,h为编码层的结果,它是n
×dh
的矩阵,dh为隐藏层的维度。sigmoid函数为激活函数,通过内积的形式,获得重构的邻接矩阵基于此损失函数可以记为:
[0090][0091][0092]
使用交叉熵计算两者间的差异用来衡量邻接矩阵重构的性能。
[0093]
编码层输出的是指定维度的数据表示,输出结果作为聚类层的输入。聚类作为无监督算法,如果单纯使用,而没有给定的优化目标,效果并不一定合适。
[0094]
本实施例选用了kl散度作为衡量聚类结果的目标函数:
[0095][0096]
kl散度用于衡量概率分布之间的拟合程度,其中p
iu
为目标分布,q
iu
为编码层输出的嵌入hi与聚类中心μu之间的相似程度衡量,使用t分布作为衡量的标准,t分布可以针对不同的节点集群获得分布函数,由此得到了当前的分布q:
[0097][0098]
式中:v是t分布中的自由度,自由度影响着t分布的形状,t分布基于y轴对称,是正态分布中的一种较为普遍的形式,随着自由度增大,t分布的形状会逐渐逼近正态分布,使用可调节的自由度,可以改变分布形状,使分布公式适合更多的节点集群。q
iu
可以被作为每个节点的软标签,软标签指的是属于各种类型的概率。基于软标签,可以获得目标分布p:
[0099][0100]
软标签中的数值偏大,则说明该节点更加有可能属于指定类别,所以使用平方的
方式,加大了这种概率分布的区分度,作为目标分布,通过评判这两种分布的拟合程度,可以很好的评判聚类效果。
[0101]
本实施例中选用的聚类方法是k-means算法,这种聚类方式形式简单,也可以达到比较好的聚类效果,k-means算法的基本原理为最小化平方误差e:
[0102][0103]
其中,ci为划分的各个簇,μi为聚类中心,最小化每一个节点与其归属的聚类中心的平方误差,迭代计算聚类中心,聚类中心计算公式为:
[0104][0105]
将第i-1轮的各簇内节点的平均值作为第i轮的各簇的聚类中心。
[0106]
基于上述的自编码层和聚类层,每一部分都有独立的损失函数,论文中将三种损失函数合并作为最终的损失函数,则有:
[0107]
l=lf βla γl
kl
ꢀꢀꢀ
(24)
[0108]
作为最终的整体损失函数,其中,lf是特征矩阵的重构误差,la是邻接矩阵的重构误差,l
kl
作为衡量聚类效果的误差函数,β≥0和γ≥0用于控制三个误差间的平衡,将本来作为两部分任务的重构损失和聚类损失合并,整体作为一个任务进行优化,使得自编码器学习到的数据表示更加适合作为聚类的数据表示,能够得到更优的聚类结果。
[0109]
最后聚类结果可以直接通过当前的概率分布q获得:
[0110]
si=argmax q
iu
ꢀꢀꢀ
(25)
[0111]
可以通过计算每一个节点的对应各个簇的最大值,最大值对应的索引即为节点划分的标签。
[0112]
aeagc算法使用自动编码器作为获得图数据表示的方式,而后通过k-means聚类算法获得节点的聚类结果。使用了扩散函数和低通滤波的方式改善了特征矩阵和邻接矩阵,通过kl散度量化了聚类过程。首先将数据进行预处理,向邻接矩阵中加入扩散函数,对特征矩阵做平滑处理,而后放入下游的自动编码器和聚类模块,使用自动编码器获得网络数据的低维表示,进行聚类任务,两者合并成同一个任务,进行目标函数的优化,得到最后的聚类结果。将aeagc算法在好友推荐中进行应用的流程如下:
[0113]
aeagc算法的输入数据包含邻接矩阵与特征矩阵,分别对应着复杂网络的结构信息与节点特征信息,因此在进行信息采集时,需要同时获取用户的好友信息和用户的特征信息,用户的好友信息量化获得复杂网络的邻接矩阵,特征信息可以包含多个部分,例如:性别,年龄,出生日期,居住地等等,将获得的信息量化成为特征矩阵。
[0114]
根据获得的复杂网络执行aeagc算法。使用扩散函数处理邻接矩阵,模拟扩散效果,表示节点的影响力随着距离减弱。使用低通滤波器处理特征矩阵,使特征信息更加平滑。将处理后的矩阵作为自动编码器的输入,自动编码器既重构了网络的结构信息邻接矩阵,又重构了网络中的节点特征信息特征矩阵,使用kl散度衡量聚类结果,三者综合作为目标函数。训练得到社团划分结果。
[0115]
根据社团划分结果,每个用户具有划分结果的集合,与用户当前好友的集合进行
对比,取两集合的差集作为用户好友推荐的内容。
[0116]
本发明提出了基于自监督的属性图社团检测方法,以图注意力网络作为基础网络层,相比图卷积网络具有可以添加权重的优势,在节点连接较为密集的网络中具有更好的作用,使用该网络层构成了自动编码器,用于获得网络节点的低维表示,相较于传统的自动编码器,论文的自动编码器中加入了两种重构误差,既重构了网络的结构信息邻接矩阵,又重构了网络中的节点特征信息特征矩阵,可以获得高质量的节点表示。同时,针对下游的聚类任务,选用了k-means算法,为了衡量聚类任务的结果,选用了kl散度的方式,将kl散度的结果作为目标函数的一部分,进行反向传播,选用的是聚类中心分布与节点的分布,两者分布拟合说明聚类效果更加合理。同时选用了扩散函数对邻接矩阵进行了处理,提升了在网络层数有限的情况下模型的泛化能力;针对特征矩阵,进行低通过滤,过滤后的表示更能表示节点的特征,特征信息更加平滑。将aeagc算法应用于带有标签的真实网络数据集当中,结果表示aeagc算法在真实网络数据集中的执行结果准确率相比最优对比算法提升最高可达20%,引入dgi作为数据增强方式后对于四项评价指标提升最高可达15%。
[0117]
以上所述的实施例仅是对本发明优选方式进行的描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献