一种图神经网络的分布式全图训练计算方法、系统、设备及存储介质
- 国知局
- 2024-08-22 14:33:24
本技术涉及图神经网络,特别是涉及一种图神经网络的分布式全图训练计算方法、系统、设备及存储介质。
背景技术:
1、随着图神经网络模型训练所使用的图数据集规模持续扩大,以及图神经网络模型自身复杂性的不断提升,图神经网络模型训练对硬件资源的需求和时间成本均显著增加;在图神经网络模型的训练过程中,每一次迭代都依赖于全图的结构信息和节点特征数据,通过不断更新模型参数,使输出更加准确,如节点或图属性的预测精度提升。
2、然而,当前图数据集的规模已达到数十亿节点和边的级别,这使得图神经网络模型训练所需的gpu显存远远超出了单个gpu的显存容量限制,导致训练任务难以进行。针对这一挑战,大规模图数据集上的图神经网络模型训练需采用分布式策略,即通过多个gpu设备协同工作,共同训练一个模型;这种分布式方法不仅能够显著扩展gpu显存总量,还能实现训练过程的并行化,从而在处理更大规模图数据集的同时,有效缩短训练周期;尽管目前已有一些成熟的图神经网络模型分布式训练技术,但在应对大规模图数据集和大型gpu集群时,这些技术的训练加速效果和适用性仍有待提高。
3、鉴于此,提供一种能提高图神经网络模型的训练效率和适用性的图神经网络的分布式全图训练计算是本领域技术人员亟待解决的技术问题。
技术实现思路
1、为解决上述技术问题,本发明的目的为提供一种图神经网络的分布式全图训练计算方法、系统、设备及存储介质,实现了一个高效的基于部分聚合的计算与通信重叠的异步流水线,以及训练过程中零冗余的计算与通信,可以有效提高图神经网络的分布式全图训练计算效率,缩短了大规模图数据集的图神经网络模型训练的计算时间;
2、本发明的第一个目的为提供一种图神经网络的分布式全图训练计算方法;
3、本发明提供的技术方案如下:
4、一种图神经网络的分布式全图训练计算方法,包括如下步骤:
5、获取图数据集中的节点属性,其中,所述节点属性包括:训练集节点、验证集节点和测试集节点;
6、根据所述测试集节点及其邻居节点,构建计算依赖图和通信依赖图;
7、根据metis算法将所述计算依赖图和所述通信依赖图划分到各个gpu设备上,在各个gpu设备上启动工作进程初始化模型参数并获取图分区数据;
8、根据所述图分区数据与所述计算依赖图构建本地图和跨分区图;
9、通过所述本地图、所述跨分区图和所述通信依赖图对图神经网络进行分布式全图训练。
10、优选地,所述根据所述测试集获取邻居节点和根节点,具体包括:
11、获取所述测试集的节点,将所述测试集的节点作为根节点向外进行邻居扩展,获取对应的所述邻居节点和边;
12、将所述根节点和产生的邻居节点作为下一次迭代的根节点;
13、迭代所述邻居节点和所述根节点的获取过程至预设次数,以构建计算依赖图和通信依赖图。
14、优选地,根据metis算法将所述计算依赖图和所述通信依赖图划分到各个gpu设备上,在各个gpu设备上启动工作进程初始化模型参数并获取图分区数据,具体包括:
15、通过metis划分函数将将所述计算依赖图和所述通信依赖图划分为多个分区,并在划分完成后将各个分区的数据保存在各个gpu设备上;
16、根据命令行中的输入超参数对图神经网络模型进行初始化,并从各个gpu设备上读取图分区数据。
17、优选地,所述根据所述图分区数据与所述计算依赖图构建本地图和跨分区图,具体包括:
18、根据所述图分区数据与所述计算依赖图确定本地节点和本地边,以构建所述本地图;
19、根据需要进行特征通信的远程邻居节点和不属于所述本地图的边构建所述跨分区图。
20、优选地,所述通过所述本地图、所述跨分区图和所述通信依赖图对图神经网络进行分布式全图训练,具体包括:
21、通过所述通信依赖图进行各个gpu设备之间的远程邻居节点特征通信,并在通信开始的同时并行地在各个gpu设备上执行相应的所述本地图的部分聚合计算;
22、等待通信完成后,执行相应的所述跨分区图的部分聚合计算,并进行该分区内节点的特征更新计算。
23、本发明的第二个目的为提供一种图神经网络的分布式全图训练计算系统;
24、本发明提供的技术方案如下:
25、一种图神经网络的分布式全图训练计算系统,包括:获取模块、生产模块、划分模块、构建模块和训练模块;
26、所述获取模块,用于获取图数据集中的节点属性,其中,所述节点属性包括:训练集节点、验证集节点和测试集节点;
27、所述生产模块,用于根据所述测试集节点及其邻居节点,构建计算依赖图和通信依赖图;
28、所述划分模块,用于根据metis算法将所述计算依赖图和所述通信依赖图划分到各个gpu设备上,在各个gpu设备上启动工作进程初始化模型参数并获取图分区数据;
29、所述构建模块,用于根据所述图分区数据与所述计算依赖图构建本地图和跨分区图;
30、所述训练模块,用于通过所述本地图、所述跨分区图和所述通信依赖图对图神经网络进行分布式全图训练。
31、本发明的第三个目的为提供一种电子设备;
32、本发明提供的技术方案如下:
33、一种电子设备,包括:
34、至少一个处理器;以及
35、与所述至少一个处理器通信连接的存储器,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行图神经网络的分布式全图训练计算方法所述的方法步骤。
36、本发明的第四个目的为提供一种算机可读存储介质;
37、本发明提供的技术方案如下:
38、一种计算机可读存储介质,所述存储介质用于存储计算机程序,所述计算机程序用于使计算机执行图神经网络的分布式全图训练计算方法所述的方法步骤。
39、本发明提供的一种图神经网络的分布式全图训练计算方法,包括如下步骤:获取图数据集中的节点属性,其中,所述节点属性包括:训练集节点、验证集节点和测试集节点;根据所述测试集节点及其邻居节点,构建计算依赖图和通信依赖图;根据metis算法将所述计算依赖图和所述通信依赖图划分到各个gpu设备上,在各个gpu设备上启动工作进程初始化模型参数并获取图分区数据;根据所述图分区数据与所述计算依赖图构建本地图和跨分区图;通过所述本地图、所述跨分区图和所述通信依赖图对图神经网络进行分布式全图训练;本方法实现了一个高效的基于部分聚合的计算与通信重叠的异步流水线,以及训练过程中零冗余的计算与通信,可以有效提高图神经网络的分布式全图训练计算效率,缩短了大规模图数据集上图神经网络模型训练的计算时间。
40、本发明还提供了一种图神经网络的分布式全图训练计算系统,由于该系统与该图神经网络的分布式全图训练计算方法解决相同的技术问题,属于相同的技术构思,理应具有相同的有益效果,在此不再赘述。
本文地址:https://www.jishuxx.com/zhuanli/20240822/279108.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表