技术新讯 > 计算推算,计数设备的制造及其应用技术 > 用于机器学习工作负载的跨集群通信的制作方法  >  正文

用于机器学习工作负载的跨集群通信的制作方法

  • 国知局
  • 2024-11-25 15:24:43

背景技术:

1、本说明书涉及训练机器学习模型,包括神经网络。

2、神经网络是采用非线性单元的一个或多个层来针对所接收的输入预测输出的机器学习模型。除了输出层之外,一些神经网络还包括一个或多个隐藏层。每个隐藏层的输出用作网络中的下一层的输入,即用作下一隐藏层或输出层的输入。网络的每个层根据相应的网络参数的集合的当前值从所接收的输入生成输出。

技术实现思路

1、本说明书描述了用于提高两个或更多个硬件加速器集群的网络吞吐量的技术。硬件加速器(或简称“加速器”)是具有专用硬件的计算装置,所述计算装置被配置为执行专门计算,包括例如机器学习计算。加速器的示例包括图形处理单元(“gpu”)、现场可编程门阵列(“fgpa”)和专用集成电路(“asic”),包括张量处理单元(“tpu”)。

2、每个集群内的硬件加速器通过互连网络彼此互连,并通过其对应的主机通过数据中心网络连接到另一个集群内的硬件加速器。在一些实现方式中,两个或更多个硬件加速器集群是包括许多(可能数千个)硬件加速器的更大的基于云的计算系统的子集。在一些实现方式中,两个或更多个硬件加速器集群在物理上彼此邻近,例如,位于同一数据中心内,而在其他实现方式中,两个或更多个硬件加速器集群在物理上彼此远离,例如,位于不同的数据中心。在一些实现方式中,两个或更多个硬件加速器集群及其对应的主机用于共同支持机器学习工作负载,例如,用于训练神经网络或使用神经网络来计算推理的计算。

3、可实现本说明书中描述的主题的特定实施例,以便实现以下优点中的一者或多者。

4、本文描述的跨集群数据通信技术可用于确保跨两个或更多个互连硬件加速器集群支持机器学习工作负载的资源效率。此类技术可以优化通过数据中心网络的跨集群通信,这继而提高了超大规模机器学习工作负载的可扩展性和可管理性。例如,相对于单个硬件加速器集群上的训练吞吐量,使用所描述的技术来训练大规模神经网络可以跨通过数据中心网络连接的两个硬件加速器集群实现近乎完美的、高1.95倍的训练吞吐量。

5、在以下附图和说明书中阐述了本说明书的主题的一个或多个实施例的细节。本主题的其他特征、方面和优点根据描述、附图和权利要求将变得显而易见。

技术特征:

1.一种系统,包括:

2.如权利要求1所述的系统,其中,所述系统被配置为在所述训练期间的所述多个时间点中的每个时间点处:

3.如权利要求1至2中任一项所述的系统,其中,所述第一网络和所述第二网络各自是与所述第三网络不同的相应的核心间互连(ici)网络。

4.如权利要求1至3中任一项所述的系统,其中,所述第三网络是数据中心网络,包括以太网网络。

5.如权利要求1至4中任一项所述的系统,其中:

6.如权利要求5所述的系统,其中,通过所述第三网络将所述本地数据传输到所述第二多个硬件加速器包括:

7.如权利要求5至6中任一项所述的系统,其中,通过所述第三网络将所述相应远程数据传输到所述第一多个硬件加速器包括:

8.如权利要求1至7中任一项所述的系统,其中,所述第一多个硬件加速器被配置为在所述训练期间的所述多个时间点中的每个时间点处:

9.如权利要求1至8中任一项所述的系统,其中,所述系统还包括所述第一多个硬件加速器或所述第二多个硬件加速器的相应调度器,所述相应调度器被配置为根据表示用于训练所述机器学习模型的机器学习工作负载的接收到的数据而跨所述多个加速器和对应的主机调度工作负载。

10.如权利要求9所述的系统,其中,表示用于训练所述机器学习模型的所述机器学习工作负载的所述数据包括数据流程序,所述数据流程序包括:

11.如权利要求1至10中任一项所述的系统,其中,所述系统被配置为使用校验和完整性验证技术来传输以及接收相应的本地数据以提供针对静默数据损坏的保护。

12.一个或多个存储指令的计算机可读存储介质,所述指令在由一个或多个计算机执行时使所述一个或多个计算机执行由如任一项前述权利要求所述的系统执行的相应的操作。

13.一种方法,包括由如任一项前述权利要求所述的系统执行的相应的操作。

14.一个或多个存储指令的计算机可读存储介质,所述指令在由一个或多个计算机执行时使所述一个或多个计算机执行由如任一项前述权利要求所述的主机执行的相应的操作。

15.一种方法,包括由如任一项前述权利要求所述的主机执行的相应的操作。

技术总结用于跨硬件加速器分发机器学习工作负载的方法、系统和设备,包括编码在计算机存储介质上的计算机程序。系统中的一个包括:通过第一网络互连的第一多个硬件加速器和第一多个硬件加速器的一个或多个对应的主机;以及通过第二网络互连的第二多个硬件加速器和第二多个硬件加速器的一个或多个对应的主机,其中,第一多个硬件加速器和第二多个硬件加速器的对应的主机通过第三网络连接。例如,第一网络和第二网络可以各自是相应的核心间互连(ICI)网络,而第三网络可以是数据中心网络,例如以太网网络。技术研发人员:阿坎克沙·乔杜里,保罗·罗纳德·巴勒姆受保护的技术使用者:谷歌有限责任公司技术研发日:技术公布日:2024/11/21

本文地址:https://www.jishuxx.com/zhuanli/20241125/337584.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。