技术新讯 > 电子通信装置的制造及其应用技术 > 一种拥塞控制方法及设备与流程  >  正文

一种拥塞控制方法及设备与流程

  • 国知局
  • 2024-08-02 14:27:03

本申请涉及通信技术,具体的将是一种拥塞控制方法及设备。

背景技术:

1、ai网络工作负载通常涉及大规模数据处理、计算和模型训练,其需求主要包括以下几个方面:计算资源,ai工作负载需要大量的计算资源,特别是深度学习模型的训练和推理任务,需要高性能的cpu和gpu资源的支持复;存储资源,ai工作负载通常涉及大规模的数据处理和模型训练,因此需要大容量存储资源来存储数据集、模型参数等信息以及提高数据读写速度,加速训练和推理过程;高速网络,ai工作负载通常需要在不同计算节点和存储设备之间进行大规模数据传输,因此需要高速、低延迟的网络设施来支持数据传输需求;gpu加速:对于深度学习模型的训练和推理任务,gpu资源是至关重要的。

2、在当今数字化时代,人工智能(ai)技术的广泛应用已经成为各行各业的重要驱动力,spine-leaf(脊-叶)架构的ai网络中,可实现高效调度和管理gpu资源,以便支持支持大规模ai工作负载的需求。

3、ecn(explicit congestion notification,显示拥塞通知)是一种在ip网络中用于通知端到端的网络拥塞控制机制,网络节点的拥塞信息被反馈至数据发送端,以使数据发送端方调整数据传输速率,避免拥塞;然而,数据发送端根据其自身的拥塞控制算法计算降低后的数据传输速率,而ai网络内不同类型的业务和用户需要实现差异化限速;譬如,ai网络内部分gpu的当前阶段训练结束后,还有其他的gpu由于流量拥塞未完成训练而造成长尾延迟,已完成当前阶段训练的gpu需要等待这部分尚未完成训练的gpu完成计算才可执行计算结果同步;这些导致长尾延迟的gpu流量不能优先处理会导致完成训练的gpu空闲,算力浪费。

技术实现思路

1、本申请的目的在于提供一种拥塞控制方法及设备,在人工智能网络内,将指定业务流的各发送端将发送速率分别降低至指定速率。

2、为实现上述目的,本申请提供了一种拥塞控制方法,该方法应用于脊叶架构的人工智能网络的骨干节点,该方法包括:为实现上述目的检测指定业务流的出端口拥塞;识别所述指定业务流的每个入端口;通知每个所述入端口连接的每个指定业务流发送端将所述制定业务流的发送速率降低至指定速率。

3、为实现上述目的,本申请还提供了一种拥塞控制设备,该设备应用于脊叶架构的人工智能网络的骨干节点,该设备包括处理器和存储器;处理器通过运行存储器中的处理器可执行指令还执行以下操作:检测指定业务流的出端口拥塞;识别指定业务流的每个入端口;通知每个入端口连接的每个指定业务流发送端将指定业务流的发送速率降低至指定速率。

4、本申请的有益效果在于,在人工智能网络内,骨干节点上指定业务流的出端口发生拥塞,则骨干节点按照算力调度平台以及sdn控制器通知的指定业务流的发送端的最大降速比,通知指定业务流的各发送端将发送速率分别降低至指定速率。

技术特征:

1.一种拥塞控制方法,其特征在于,所述方法应用于脊叶架构的人工智能网络的骨干节点,该方法包括:

2.根据权利要求1所述的方法,其特征在于,所述检测指定业务流的出端口拥塞之前,所述方法还包括;

3.根据权利要求2所述的方法,其特征在于,通知每个所述入端口连接的每个指定业务流发送端将所述指定业务流的发送速率降低至指定速率包括:

4.根据权利要求2所述的方法,其特征在于,通知每个所述入端口连接的每个指定业务流发送端将所述指定业务流的发送速率降低至指定速率包括:

5.根据权利要求1所述的方法,其特征在于,所述方法还包括,

6.一种拥塞控制设备,其特征在于,所述设备应用于脊叶架构的人工智能网络的骨干节点,该设备包括处理器和存储器;所述处理器通过运行所述存储器中的处理器可执行指令还执行以下操作:

7.根据权利要求6所述的设备,其特征在于,所述处理器通过运行所述存储器中的处理器可执行指令,执行所述检测指定业务流的出端口拥塞之前,还执行以下操作:

8.根据权利要求7所述的设备,其特征在于,所述处理器通过运行所述存储器中的处理器可执行指令,执行通知每个所述入端口连接的每个指定业务流发送端将所述指定业务流的发送速率降低至指定速率的操作包括:

9.根据权利要求7所述的设备,其特征在于,所述处理器通过运行所述存储器中的处理器可执行指令,执行通知每个所述入端口连接的每个指定业务流发送端将所述指定业务流的发送速率降低至指定速率的操作包括:

10.根据权利要求6所述的设备,其特征在于,所述处理器通过运行所述存储器中的处理器可执行指令,还执行以下操作;

技术总结本申请提供了一种拥塞控制方法及设备。该方法应用于脊叶架构的人工智能网络的骨干节点,该方法包括:为实现上述目的检测指定业务流的出端口拥塞;识别所述指定业务流的每个入端口;通知每个所述入端口连接的每个指定业务流发送端将所述制定业务流的发送速率降低至指定速率。本申请的有益效果在于,在人工智能网络内,骨干节点上指定业务流的出端口发生拥塞,则骨干节点按照算力调度平台以及SDN控制器通知的指定业务流的发送端的最大降速比,通知指定业务流的各发送端将发送速率分别降低至指定速率。技术研发人员:彭剑远受保护的技术使用者:新华三技术有限公司技术研发日:技术公布日:2024/7/25

本文地址:https://www.jishuxx.com/zhuanli/20240801/242835.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。