技术新讯 > 电子通信装置的制造及其应用技术 > 一种AI智算中心的网络拥塞调度方法及系统与流程 > 正文

一种AI智算中心的网络拥塞调度方法及系统与流程

国知局
2024-08-05 12:17:01

本发明涉及可编程网络以及网络拥塞控制，具体为一种ai智算中心的网络拥塞调度方法及系统。

背景技术：

1、p4可编程交换机常用于数据中心网络中，为端到端数据传输提供了冗余路径。p4可编程交换机的转发模式是流水线模式，数据包需要依次经过该交换机的入口管道、流量管理器和出口管道。然而，排队时延需要数据包在出口管道才能获取，而数据包需要在入口管道设置转发端口后才能在流量管理器中排队，需要额外的反馈机制才能传递队列信息。此外，p4可编程交换机的链路速率最高支持100gbps甚至400gbps，而每个端口的默认缓冲区容量不足2mb，意味着从拥塞发生到满队列只需0.15毫秒，这无疑增加了有效管理队列的挑战性。因此，在p4可编程交换机中部署合适的队列管理算法，对实时且有效的拥塞控制具有重要意义。

2、与此有关中国专利cn202210380163.1公开了一种增强red稳定性的主动式队列管理算法，以及有关会议论文《tofino+p4:a strong compound for aqm on high-speednetworks？》和《ired:improving the dash qos by dropping packets inprogrammabledata planes》，但是此专利中的仿真实现由于计算模块复杂，有难以直接部署于线速转发的p4可编程数据平面中的缺点。背景技术中其它技术由于排队前增加包头长度、控制平面反馈不及时，在队列持续积压时，存在数据包排队时延减少效果不佳的问题。

技术实现思路

1、(一)解决的技术问题

2、针对现有技术的不足，本发明提供了一种ai智算中心的网络拥塞调度方法及系统。

3、(二)技术方案

4、为实现上述目的，本发明提供如下技术方案：本发明的。

5、优选的，所述步骤3中，avgq为队列的指数加权移动平均(ewma)，记作平均队列长度，则avgq_now为当前的平均队列长度，avgq_last为上一次测得的平均队列长度，ω为权重，q为数据包的瞬时队列长度，为便于阐述，令a为(1-ω)×avgq_last，b为ω×q。

6、进一步优选的，所述步骤4中，avgq为上一步得到的平均队列长度，min_th和max_th是预定义的最小队列长度阈值和最大队列长度阈值，p(avgq)是平均队列长度为avgq时的丢弃概率，pmax是达到最大队列长度阈值时的丢弃概率。

7、再次优选的，所述步骤6中，若pkt_len<＝pbs，则将pbs减去pkt_len，该业务报文被判定为准入流量，直接进入流量管理器；

8、若pkt_len>pbs，则该业务报文被判定为非准入流量，需要进行随机数模块的处理。

9、优选的，所述步骤7中，若rnd<＝drop_prob，则将该报文丢弃；

10、若rnd>drop_prob，则将该报文发往流量管理器。

11、进一步优选的，所述权重ω为1/512。

12、再次优选的，所述链路速率为100gbps，链路容量为100g，用户自定义参数r为0.98。

13、优选的，包括pktgen轮询的主动队列管理，其中的控制报文由pktgen生成模块产生控制报文，并直接转发至环回端口，其次，控制报文读取寄存器的平均队列长度，并通过匹配查找模块得到丢包概率，在环回后写入寄存器并丢弃。

14、进一步优选的，包括数据平面-控制平面协同的主动队列管理，其中的报文经过入口管道的寄存器，在读取丢弃概率后进入限流器模块，限流器模块将业务报文分为准入流量与分准入流量，准入流量直接进入流量管理器，而非准入流量需经过随机数模块以判断是否进入流量管理器，在队列管理器排队后，业务报文将队列长度写至寄存器2中，之后转发出去，所述报文为业务报文和无控制报文。

15、再次优选的，所述控制平面通过线程启动循环，不断执行以下过程，直至程序结束：

16、1.从数据平面的寄存器中读取队列长度q；

17、2.维护一个变量avgq用于记录平均队列长度，通过avgq_now＝(1-ω)×avgq_last+ω×q计算平均队列长度；

18、3.将得到的平均队列长度avgq用于计算丢弃概率p，并将p写入数据平面的寄存器中。

19、(三)有益效果

20、与现有技术相比，本发明提供了一种ai智算中心的网络拥塞调度方法及系统，具备以下有益效果：

21、1.本发明将队列管理的拥塞检测和反馈机制解耦，通过复制产生控制报文，由业务报文实现拥塞检测，由控制报文实现反馈丢弃概率的问题，既保障了业务报文的正常转发，又实现了细粒度的反馈；

22、2.本发明通过近似更新平均队列长度，支持设置为较小的权重，使得平均队列长度更加平滑，减缓了丢弃概率大幅度变化造成的突发性丢包；

23、3.本发明通过限流器将业务流量划分为准入流量和非准入流量，保障了高吞吐量，并在此基础上通过参数调节，实现低时延；

24、4.本发明具有自我调节机制：当瞬时队列长度变大时，丢弃概率增加，进入流量管理器的流量减少，队列长度随之减小，从而降低了排队时延；当瞬时队列长度变小时，丢弃概率减小，进入流量管理器的流量增加，吞吐量上升，从而造成队列长度增加；

25、综上，本发明一种ai智算中心的网络拥塞调度方法及系统具有良好的应用前景。

技术特征：

1.一种ai智算中心的网络拥塞调度方法及系统，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种ai智算中心的网络拥塞调度方法及系统，其特征在于，所述步骤3中，avgq为队列的指数加权移动平均(ewma)，记作平均队列长度，则avgq_now为当前的平均队列长度，avgq_last为上一次测得的平均队列长度，ω为权重，q为数据包的瞬时队列长度，为便于阐述，令a为(1-ω)×avgq_last，b为ω×q。

3.根据权利要求2所述的一种ai智算中心的网络拥塞调度方法及系统，其特征在于，所述步骤4中，avgq为上一步得到的平均队列长度，min_th和max_th是预定义的最小队列长度阈值和最大队列长度阈值，p(avgq)是平均队列长度为avgq时的丢弃概率，pmax是达到最大队列长度阈值时的丢弃概率。

4.根据权利要求3所述的一种ai智算中心的网络拥塞调度方法及系统，其特征在于，所述步骤6中，若pkt_len<＝pbs，则将pbs减去pkt_len，该业务报文被判定为准入流量，直接进入流量管理器；

5.根据权利要求4所述的一种ai智算中心的网络拥塞调度方法及系统，其特征在于，所述步骤7中，若rnd<＝drop_prob，则将该报文丢弃；

6.根据权利要求5所述的一种ai智算中心的网络拥塞调度方法及系统，其特征在于，所述权重ω为1/512。

7.根据权利要求6所述的一种ai智算中心的网络拥塞调度方法及系统，其特征在于，所述链路速率为100gbps，链路容量为100g，用户自定义参数r为0.98。

8.根据权利要求1所述的一种ai智算中心的网络拥塞调度方法及系统，其特征在于，包括pktgen轮询的主动队列管理，其中的控制报文由pktgen生成模块产生控制报文，并直接转发至环回端口，其次，控制报文读取寄存器的平均队列长度，并通过匹配查找模块得到丢包概率，在环回后写入寄存器并丢弃。

9.根据权利要求1所述的一种ai智算中心的网络拥塞调度方法及系统，其特征在于，包括数据平面-控制平面协同的主动队列管理，其中的报文经过入口管道的寄存器，在读取丢弃概率后进入限流器模块，限流器模块将业务报文分为准入流量与分准入流量，准入流量直接进入流量管理器，而非准入流量需经过随机数模块以判断是否进入流量管理器，在队列管理器排队后，业务报文将队列长度写至寄存器2中，之后转发出去，所述报文为业务报文和无控制报文。

10.根据权利要求9所述的一种ai智算中心的网络拥塞调度方法及系统，其特征在于，所述控制平面通过线程启动循环，不断执行以下过程，直至程序结束：

技术总结本发明涉及AI智算中心的网络以及网络拥塞控制技术领域，具体为一种基于P4可编程交换机的主动队列管理算法，包括以下步骤：步骤1：复制报文并区分业务报文和控制报文，步骤2：选择队列，步骤3：更新队列长度的与计算平均队列长度，步骤4：通过平均队列长度匹配丢弃概率，步骤5：在入口管道存储丢弃概率，步骤6：区分准入流量和非准入流量，步骤7：对非准入流量按照概率丢弃，本发明将队列管理的拥塞检测和反馈机制解耦，通过复制产生控制报文，由业务报文实现拥塞检测，由控制报文实现反馈丢弃概率的问题，既保障了业务报文的正常转发，又实现了细粒度的反馈。技术研发人员：聂伟受保护的技术使用者：苏州智算科技有限公司技术研发日：技术公布日：2024/8/1