技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种异构图神经网络预训练方法与流程  >  正文

一种异构图神经网络预训练方法与流程

  • 国知局
  • 2024-07-31 22:47:07

本发明涉及图神经网络,尤其涉及一种异构图神经网络预训练方法。

背景技术:

1、图神经网络在各种图应用和网络任务中展现出卓越的性能,在社交网络、推荐系统、知识图等领域得到了越来越广泛的应用。随着图神经网络的快速发展,其已成为图结构数据的优秀建模工具。

2、然而,通常的图神经网络每一个节点由它自身的特征以及其相连的节点特征来定义,以端到端目标信息来进行监督学习。对于不同任务,一般需要不同的数据来训练相应的图神经网络,这一过程十分复杂。

3、当前深度学习研究开始在图数据集上进行预训练,通过赋予图神经网络捕捉未标注图的结构和语义属性的能力,使模型在对图进行少量微调后,能够泛化到任何下游任务中。

4、异构信息网络由于表示现实世界中涉及多种类型对象和关系的系统,因而包含更加全面的信息和丰富的语义,为建模复杂的交互提供了工具。由于异构图神经网络需要大量标注数据的支持,这一过程代价高昂。

5、尽管预训练已经在同构图数据集上获得成功,但对于异构图神经网络上进行预训练仍是一个问题。传统的图神经网络的预训练方法主要基于同构图,而异构图由于包含不同类型的节点和边,因而在图的预训练中存在结构异质性的挑战。异构图神经网络泛化到各类下游任务的性能较差。

技术实现思路

1、本发明提供了一种异构图神经网络预训练方法,具有在下游任务泛用性好,性能优异的特点。

2、为了实现本发明的目的,所采用的技术方案是,一种异构图神经网络预训练方法,包括以下步骤:

3、s1、引入目标异构图;

4、s2、根据节点类型,将目标异构图的异构特征投射到相同的特征空间,获取节点嵌入;

5、s3、根据节点类型,将目标异构图的节点属性映射为属性类型;

6、s4、使用网络模式预测、属性类型预测与pathsim保留的预训练方法,捕获结构信息和语义信息。

7、作为本发明的优化方案,引入目标异构图表示为其中表示图中顶点集合,ε表示图中边集合,表示顶点与边的类型集合;目标异构图与一个节点类型映射函数和一个边类型映射函数相关联;其中,和表示预定义的节点类型和边类型的集合,有其中是节点集合,ε={eij}是边集合,这里eij表示节点vi和vj之间存在边。

8、作为本发明的优化方案,在步骤s2中,将目标异构图的异构特征投射到相同的特征空间,具体包括:异构图神经网络使用图连通性和节点特征来学习图中每个节点v的表示向量。对于每个节点类型ai,设计了一个特定类型的映射矩阵wi,将异构特征投影到相同的特征空间,具体表示为:

9、xi′=wi·xi

10、其中:xi和xi′是节点vi的原始特征和投影特征;

11、异构图神经网络聚合局部邻域信息,以获得更具有上下文关系的表示,对于节点vi,图神经网络的第k层为:

12、

13、其中:为vi在图神经网络第k层的嵌入,eij为边eij的特征,为vi的一组邻居。

14、作为本发明的优化方案,在步骤s3中,节点属性映射为属性类型方法,通过将节点属性映射为属性类型,增强模型在处理节点属性时的能力,具体的,节点属性映射包含以下步骤:

15、s31、定义节点类型到属性类型的映射函数φ:对于图中的每个节点类型ak,定义一个映射函数将属于该节点类型的nk个节点的属性向量映射到一个预定义的属性类型集合上,其中,为属于节点类型ak的第mk个节点的属性类型,且mk<<nk,mk的属性类型在节点类型ak对应的属性矩阵中;

16、s32、使用属性矩阵:对于每种节点类型ak,都有一个与之对应的节点属性矩阵其中表示该类型节点的数量,表示属性矢量的维度;该矩阵用于表示图中各个节点的属性信息。

17、s33、属性向量到属性类型的映射:对于节点类型ak中的任意一个属性向量有其中t为属性类型;

18、s34、映射函数的特性:映射函数φ是自动学习的或者由用户手动定义的。

19、作为本发明的优化方案,同时捕获结构信息和语义信息,具体步骤包括:

20、s41、网络模式预测:网络模式是异构信息网络的统一蓝图,包含丰富的语义信息,通过从输入异构信息网络中抽取网络模式实例,并对每个实例中的节点间的相互关系进行预测,旨在捕获不同类型节点间的接近度,同时利用节点属性与图结构之间的底层模式。

21、s42、属性类型预测:通过属性类型预测任务来保持节点属性信息;该方法不是预测每个节点的单个属性,而是预测每个节点所属的属性类型;利用节点嵌入来预测其属性类型,并使用交叉熵损失函数训练模型;

22、s43、pathsim保留:涉及利用基于元路径(pathsim)的相似度框架,保留异构图中相同类型节点间的相似性,通过构建目标节点周围的相似节点和不相似节点集合,并对这些集合内的节点嵌入应用特定约束,以保持同类节点之间的接近性。

23、作为本发明的优化方案,在步骤s41中,网络模式预测,具体步骤如下:

24、s411、对于给定的异构图定义网络模式为其中:为所有的节点类型,为关系类型;

25、s412、选择网络模式中的一个节点vi作为目标节点,剩余节点{vj,vk,vl}为上下文节点;

26、s413、对于目标节点vi,使用异构特征投射方法获得节点嵌入hi;

27、s414、将上下文节点{vj,vk,vl}的节点嵌入{hj,hk,hl}连接,得到上下文嵌入,记为ci:

28、ci=hj||hk||hl

29、s415、在得到嵌入ci后,使用映射矩阵wc将上下文嵌入映射到具有hi的公共空间;

30、具体的:

31、zi=wc·ci

32、s416、由于直接预测目标节点vi不能捕捉节点属性和图结构,且节点数量会增加计算复杂度,采用节点属性映射方法预测目标节点vi的属性类型代替;对所有节点属性为的节点嵌入进行平均,得到属性类型嵌入采用负采样训练异构图神经网络,对特定的网络模式和特定属性类型是否包含相同的节点vi进行二元分类;

33、具体的:

34、

35、式中,1(·)为指标函数,σ(·)为sigmoid函数。

36、作为本发明的优化方案,在步骤s42中,属性类型预测,具体步骤如下:

37、s421、对于给定的异构图的每一个节点vi,利用异构特征投射方法生成相应节点嵌入hi;

38、s422、在节点嵌入hi上应用全连接层和激活函数层来预测节点属性类型预测函数如下:

39、pi=sofmax(fc(hi))

40、式中,fc是全连接层,pi是在所有节点上的预测分布。

41、s423、使用实际的属性类型标签yi和模型的预测输出pi,通过交叉熵计算损失值公式如下:

42、

43、其中,yi(m)和pi(m)分别是yi和pi的第m个分量。

44、作为本发明的优化方案,在步骤s43中,pathsim保留,具体步骤如下:

45、s431、对于给定元路径φ,定义pathsim如下:

46、

47、式中,ω(vi,vj)表示元路径φ下节点vi和vj之间的路径实例数,由于节点vi和节点vj类型相同,pathsim能够捕捉相同类型节点间的相似性语义;

48、s432、在元路径φ下构建对于目标节点vi的两个节点集piφ和niφ,piφ包含节点vi的前q个相似节点,niφ包含节点vi的前q个不相似节点,为了保持异构图神经网络中的相似性,基于元路径的节点vi满足:

49、

50、式中,是节点vi和vp的嵌入之间的余弦相似度;

51、s433、对给定元路径集{φ0,φ1,…,φm},对于每个节点,基于不等式约束预训练异构图神经网络,目标函数如下:

52、

53、式中:m为元路径集的最大个数。

54、本发明具有积极的效果:1)本发明提出一种异构图神经网络的预训练新策略,相较于传统异构图神经网络预训练,此方法具有在下游任务泛用性好,性能优异的特点;

55、2)本发明采用的预训练任务能够有效捕获异构图中的结构信息和语义相似度包括同类型和不同类型节点间的关系,以及节点的属性信息。这有助于生成更具代表性的节点嵌入;

56、3)本发明特别考虑了异构图的特性,通过设计适应不同类型的节点和边的预训练任务,加深了模型对图中异构性的理解,这是许多传统图神经网络模型所忽略的;

57、4)本发明预训练过程生成的节点表示可以被直接应用于多种下游任务,如节点分类、链接预测等,使用此方法预训练的模型在这些任务上相比未预训练的模型表现更佳;

58、5)本发明在未标记的大规模数据集上进行预训练能够显著减少对昂贵的、经过人工标记的数据的依赖。此外,一旦完成预训练,对于任何下游任务,此方法都可以通过微调而非从头开始训练,从而节约训练时间和资源;

59、6)本发明框架设计的灵活性使其可以应用于各种类型的异构图数据和不同的下游任务,包括但不限于推荐系统、知识图谱延伸和生物信息学,体现了其广泛的应用潜力;

60、7)本发明解决了异构图中的结构和语义表示学习问题,通过自监督学习捕获异构图中的结构和语义信息,提高异构图神经网络在下游任务中的泛化能力,通过设计适应不同类型的节点和边的预训练任务,加深了模型对图中异构性的理解,展示了在异构图预训练领域的有效性和潜力。

本文地址:https://www.jishuxx.com/zhuanli/20240730/194575.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。