计算节点的确定方法、装置、设备及存储介质与流程
- 国知局
- 2024-09-11 14:15:05
本申请实施例涉及计算机和互联网,特别涉及一种计算节点的确定方法、装置、设备及存储介质。
背景技术:
1、随着人工智能技术的发展,利用大规模的服务器来构建的训练集群,可以用于同时执行成百上千个不同的训练任务。当训练集群中的其中一个计算节点发生性能抖动时,需要对训练集群的其他计算节点进行排查,以发现导致该节点发生性能抖动的根因节点。进一步,对该根因节点进行故障排除以恢复训练任务的执行。
2、相关技术中,在确定根因节点时,通过不断重启训练任务的二分法来缩小范围,最终确定一个较小的范围,根据确定的范围进一步找到根因节点。
3、然而,上述相关技术中,在确定根因节点时,需要不断重启训练任务,耗费的时间较长,从而导致根因节点的确定效率较低。
技术实现思路
1、本申请实施例提供了一种计算节点的确定方法、装置、设备及存储介质。本申请提供的技术方案如下:
2、根据本申请实施例的一个方面,提供了一种计算节点的确定方法,所述方法包括:
3、基于多个计算节点之间的通信情况,构建无向图,所述无向图中的每一个节点表征一个计算节点,所述无向图中的边表征两个计算节点之间存在通信关系,一个训练任务由至少一个所述计算节点执行;
4、根据多个所述计算节点各自的性能指标,从多个所述计算节点中确定目标节点,所述目标节点是发生性能抖动的计算节点;
5、以所述目标节点为顶点,从所述无向图中确定包括所述目标节点的最大团,所述最大团包括的节点中两两之间存在边连接,所述最大团包括的节点为执行同一个训练任务的节点,所述最大团用于确定导致所述目标节点发生性能抖动的根因节点。
6、根据本申请实施例的一个方面,提供了一种计算节点的确定装置,所述装置包括:
7、图构建模块,用于基于多个计算节点之间的通信情况,构建无向图,所述无向图中的每一个节点表征一个计算节点,所述无向图中的边表征两个计算节点之间存在通信关系,一个训练任务由至少一个所述计算节点执行;
8、节点确定模块,用于根据多个所述计算节点各自的性能指标,从多个所述计算节点中确定目标节点,所述目标节点是发生性能抖动的计算节点;
9、最大团确定模块,用于以所述目标节点为顶点,从所述无向图中确定包括所述目标节点的最大团,所述最大团包括的节点中两两之间存在边连接,所述最大团包括的节点为执行同一个训练任务的节点,所述最大团用于确定导致所述目标节点发生性能抖动的根因节点。
10、根据本申请实施例的一个方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现上述计算节点的确定方法。
11、根据本申请实施例的一个方面,提供了一种计算机可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现上述计算节点的确定方法。
12、根据本申请实施例的一个方面,提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行上述计算节点的确定方法。
13、本申请实施例提供的技术方案可以包括如下有益效果:
14、根据多个计算节点之间的通信情况所构建的无向图,能够反映计算节点之间的通信情况。当根据性能指标确定出发生性能抖动的目标节点时,根据无向图中的节点连接关系,能确定出包括该目标节点的最大团,进而确定出导致目标节点发生性能抖动的根因节点。不同于相关技术中,需要不断重启任务来缩小范围,本申请基于无向图能够快速确定出包括该目标节点的最大团,该最大团中的节点为执行该训练任务的计算节点(也可以称为该训练任务对应的任务分布节点)。因此,本申请能够快速定位到目标节点所在的训练任务,确定出训练任务所在的最大团(包括训练任务对应的任务分布节点),有利于提高根因节点的确定效率。
技术特征:1.一种计算节点的确定方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述以所述目标节点为顶点,从所述无向图中确定包括所述目标节点的最大团,包括:
3.根据权利要求2所述的方法,其特征在于,所述从所述无向图中确定包括所述目标节点的n个节点,包括:
4.根据权利要求1所述的方法,其特征在于,所述多个计算节点之间的通信情况包括多个二元组,每个二元组中包括存在通信关系的源计算节点和目的计算节点;
5.根据权利要求4所述的方法,其特征在于,所述无向图中的边对应有权值,所述权值表征两个节点之间的通信次数,所述权值影响所述最大团的确定。
6.根据权利要求5所述的方法,其特征在于,在确定所述最大团中的节点时,节点的挑选顺序由和所述目标节点连接的边的权值决定,权值越大的边所连接的节点被挑选的优先级越高。
7.根据权利要求1所述的方法,其特征在于,所述根据多个所述计算节点各自的性能指标,从多个所述计算节点中确定目标节点,包括:
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
9.根据权利要求8所述的方法,其特征在于,所述根据所述最大团中各个节点的性能指标,确定所述根因节点,包括:
10.根据权利要求9所述的方法,其特征在于,所述从所述最大团的各个节点中确定所述根因节点,包括:
11.一种计算节点的确定装置,其特征在于,所述装置包括:
12.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如权利要求1至10任一项所述的计算节点的确定方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现如权利要求1至10任一项所述的计算节点的确定方法。
14.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序存储在计算机可读存储介质中,处理器从所述计算机可读存储介质读取并执行所述计算机程序,以实现如权利要求1至10任一项所述的计算节点的确定方法。
技术总结本申请公开了一种计算节点的确定方法、装置、设备及存储介质,涉及计算机和互联网技术领域。所述方法包括:基于多个计算节点之间的通信情况,构建无向图,无向图中的每一个节点表征一个计算节点,无向图中的边表征两个计算节点之间存在通信关系,一个训练任务由至少一个计算节点执行;根据多个计算节点各自的性能指标,从多个计算节点中确定目标节点,目标节点是发生性能抖动的计算节点;以目标节点为顶点,从无向图中确定包括目标节点的最大团,最大团包括的节点中两两之间存在边连接,最大团包括的节点为执行同一个训练任务的节点,最大团用于确定导致目标节点发生性能抖动的根因节点。上述方法能够提高根因节点的确定效率。技术研发人员:陈诏和,陈捷受保护的技术使用者:腾讯科技(深圳)有限公司技术研发日:技术公布日:2024/9/9本文地址:https://www.jishuxx.com/zhuanli/20240911/289798.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。