技术新讯 > 电子通信装置的制造及其应用技术 > 针对算力集群的通信方法、装置、电子设备及存储介质与流程 > 正文

针对算力集群的通信方法、装置、电子设备及存储介质与流程

国知局
2025-01-17 13:04:56

本公开涉及通信，具体涉及图形处理器、算力集群、模型训练、生成式大语言模型等，尤其涉及一种针对算力集群的通信方法、装置、电子设备、计算机可读存储介质及计算机程序产品。

背景技术：

1、随着大模型时代对计算量的需求逐渐增大，对集群内芯片的数量要求越来越高，单一的千卡，甚至万卡的算力集群已经无法满足需求，这导致未来更大规模算力集群的训练不得不依赖多个算力集群联合完成，这些算力集群通常都分布在不同的物理位置（例如处于不同的机房），甚至跨地域。

2、如何将这些算力集群高效的利用起来，尽量避免跨机房通信时长对训练性能产生较大的影响，是本领域技术人员亟待解决的问题。

技术实现思路

1、本公开实施例提出了一种针对算力集群的通信方法、装置、电子设备、计算机可读存储介质及计算机程序产品。

2、第一方面，本公开实施例提出了一种针对算力集群的通信方法，应用于通信发起端，包括：在采用远程直接数据存取rdma协议与通信接收端进行通信的过程中，获取与rdma协议对应的第一丢包率；响应于第一丢包率高于第一预设丢包率，向通信接收端发起切换为传输控制协议tcp进行通信的第一握手请求；接收通信接收端针对第一握手请求返回的第一握手响应，并根据第一握手响应中的最后数据接收位置确定数据的第一起始传输位置；采用tcp从与第一起始传输位置对应的数据开始与通信接收端进行通信。

3、第二方面，本公开实施例提出了一种针对算力集群的通信装置，应用于通信发起端，包括：第一丢包率获取单元，被配置成在采用远程直接数据存取rdma协议与通信接收端进行通信的过程中，获取与rdma协议对应的第一丢包率；tcp协议切换握手请求发起单元，被配置成响应于第一丢包率高于第一预设丢包率，向通信接收端发起切换为传输控制协议tcp进行通信的第一握手请求；第一握手响应接收及第一起始传输位置确定单元，被配置成接收通信接收端针对第一握手请求返回的第一握手响应，并根据第一握手响应中的最后数据接收位置确定数据的第一起始传输位置；tcp协议通信单元，被配置成采用tcp从与第一起始传输位置对应的数据开始与通信接收端进行通信。

4、第三方面，本公开实施例提供了一种电子设备，该电子设备包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，该指令被至少一个处理器执行，以使至少一个处理器执行时能够实现如第一方面描述的针对算力集群的通信方法。

5、第四方面，本公开实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行时能够实现如第一方面描述的针对算力集群的通信方法。

6、第五方面，本公开实施例提供了一种包括计算机程序的计算机程序产品，该计算机程序在被处理器执行时能够实现如第一方面描述的针对算力集群的通信方法。

7、本公开提供的针对算力集群的通信方案，针对通信发起端提供了一种根据丢包率来在远程直接数据存取rdma协议和传输控制协议tcp之间进行传输协议的切换的方案，以在丢包率相对较高的情况下选择更能够实现数据稳定传输的tcp协议，而在丢包率相对较低的情况下选择更能够提升数据传输量的rdma协议，从而能够较好的兼顾跨集群通信和集群内通信的网络环境，从而提升了整体通信效率和数据传输量，进而提升了生成式大语言模型的训练效率以及缩短了训练所需耗时。

8、应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

技术特征：

1.一种针对算力集群的通信方法，应用于通信发起端，包括：

2.根据权利要求1所述的方法，其中，所述获取与所述rdma协议对应的第一丢包率，包括：

3.根据权利要求1所述的方法，还包括：

4.根据权利要求3所述的方法，其中，所述获取与所述tcp协议对应的第二丢包率，包括：

5.根据权利要求3所述的方法，其中，所述预设网络质量要求包括以下至少一项：

6.根据权利要求1所述的方法，还包括：

7.根据权利要求6所述的方法，其中，所述实际时延通过下述步骤计算得到：

8.根据权利要求7所述的方法，其中，所述基于所述起始时刻和所述结束时刻，计算得到所述实际时延，包括：

9.根据权利要求6所述的方法，还包括：

10.根据权利要求1所述的方法，还包括：

11.根据权利要求6-10任一项所述的方法，其中，不同的算力集群包括：分别位于不同位置的不同机房内的图形处理器构成的用于训练生成式大语言模型的算力集群；对应的，相同的算力集群包括：由位于同一位置的同一机房内的图形处理器构成的用于训练生成式大语言模型的算力集群。

12.一种针对算力集群的通信装置，应用于通信发起端，包括：

13.根据权利要求12所述的装置，其中，所述第一丢包率获取单元被进一步配置成：

14.根据权利要求12所述的装置，还包括：

15.根据权利要求14所述的装置，其中，所述第二丢包率获取单元被进一步配置成：

16.根据权利要求14所述的装置，其中，所述预设网络质量要求包括以下至少一项：

17.根据权利要求12所述的装置，还包括：

18.根据权利要求17所述的装置，还包括：实际时延计算单元，所述实际时延计算单元包括：

19.根据权利要求18所述的装置，其中，所述实际时延计算子单元被进一步配置成：

20.根据权利要求17所述的装置，还包括：

21.根据权利要求12所述的装置，还包括：

22.根据权利要求17-21任一项所述的装置，其中，不同的算力集群包括：分别位于不同位置的不同机房内的图形处理器构成的用于训练生成式大语言模型的算力集群；对应的，相同的算力集群包括：由位于同一位置的同一机房内的图形处理器构成的用于训练生成式大语言模型的算力集群。

23.一种电子设备，包括：

24.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-11中任一项所述的针对算力集群的通信方法。

25.一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现根据权利要求1-11中任一项所述的针对算力集群的通信方法的步骤。

技术总结本公开提供了一种针对算力集群的通信方法、装置、电子设备及存储介质，涉及图形处理器、算力集群、模型训练、生成式大语言模型等技术领域。该方法包括：在采用RDMA协议与通信接收端进行通信的过程中，获取与RDMA协议对应的第一丢包率；响应于第一丢包率高于第一预设丢包率，向通信接收端发起切换为TCP进行通信的第一握手请求；接收通信接收端针对第一握手请求返回的第一握手响应，并根据第一握手响应中的最后数据接收位置确定数据的第一起始传输位置；采用TCP从与第一起始传输位置对应的数据开始与通信接收端进行通信。应用该方法可提升整体通信效率和数据传输量，进而提升生成式大语言模型的训练效率以及缩短训练所需耗时。技术研发人员：周末,李兆耕,沈抖,王雁鹏受保护的技术使用者：北京百度网讯科技有限公司技术研发日：技术公布日：2025/1/13