技术新讯 > 电子通信装置的制造及其应用技术 > 一种AI智算中心的网络拥塞调度方法及系统与流程  >  正文

一种AI智算中心的网络拥塞调度方法及系统与流程

  • 国知局
  • 2024-08-02 12:46:09

本发明涉及可编程网络以及网络拥塞控制,具体为一种ai智算中心的网络拥塞调度方法及系统。

背景技术:

1、p4可编程交换机常用于数据中心网络中,为端到端数据传输提供了冗余路径。p4可编程交换机的转发模式是流水线模式,数据包需要依次经过该交换机的入口管道、流量管理器和出口管道。然而,排队时延需要数据包在出口管道才能获取,而数据包需要在入口管道设置转发端口后才能在流量管理器中排队,需要额外的反馈机制才能传递队列信息。此外,p4可编程交换机的链路速率最高支持100gbps甚至400gbps,而每个端口的默认缓冲区容量不足2mb,意味着从拥塞发生到满队列只需0.15毫秒,这无疑增加了有效管理队列的挑战性。因此,在p4可编程交换机中部署合适的队列管理算法,对实时且有效的拥塞控制具有重要意义。

2、与此有关中国专利cn202210380163.1公开了一种增强red稳定性的主动式队列管理算法,以及有关会议论文《tofino+p4:a strong compound for aqm on high-speednetworks?》和《ired:improving the dash qos by dropping packets inprogrammabledata planes》,但是此专利中的仿真实现由于计算模块复杂,有难以直接部署于线速转发的p4可编程数据平面中的缺点。背景技术中其它技术由于排队前增加包头长度、控制平面反馈不及时,在队列持续积压时,存在数据包排队时延减少效果不佳的问题。

技术实现思路

1、(一)解决的技术问题

2、针对现有技术的不足,本发明提供了一种ai智算中心的网络拥塞调度方法及系统。

3、(二)技术方案

4、为实现上述目的,本发明提供如下技术方案:本发明的。

5、优选的,所述步骤3中,avgq为队列的指数加权移动平均(ewma),记作平均队列长度,则avgq_now为当前的平均队列长度,avgq_last为上一次测得的平均队列长度,ω为权重,q为数据包的瞬时队列长度,为便于阐述,令a为(1-ω)×avgq_last,b为ω×q。

6、进一步优选的,所述步骤4中,avgq为上一步得到的平均队列长度,min_th和max_th是预定义的最小队列长度阈值和最大队列长度阈值,p(avgq)是平均队列长度为avgq时的丢弃概率,pmax是达到最大队列长度阈值时的丢弃概率。

7、再次优选的,所述步骤6中,若pkt_len<=pbs,则将pbs减去pkt_len,该业务报文被判定为准入流量,直接进入流量管理器;

8、若pkt_len>pbs,则该业务报文被判定为非准入流量,需要进行随机数模块的处理。

9、优选的,所述步骤7中,若rnd<=drop_prob,则将该报文丢弃;

10、若rnd>drop_prob,则将该报文发往流量管理器。

11、进一步优选的,所述权重ω为1/512。

12、再次优选的,所述链路速率为100gbps,链路容量为100g,用户自定义参数r为0.98。

13、优选的,包括pktgen轮询的主动队列管理,其中的控制报文由pktgen生成模块产生控制报文,并直接转发至环回端口,其次,控制报文读取寄存器的平均队列长度,并通过匹配查找模块得到丢包概率,在环回后写入寄存器并丢弃。

14、进一步优选的,包括数据平面-控制平面协同的主动队列管理,其中的报文经过入口管道的寄存器,在读取丢弃概率后进入限流器模块,限流器模块将业务报文分为准入流量与分准入流量,准入流量直接进入流量管理器,而非准入流量需经过随机数模块以判断是否进入流量管理器,在队列管理器排队后,业务报文将队列长度写至寄存器2中,之后转发出去,所述报文为业务报文和无控制报文。

15、再次优选的,所述控制平面通过线程启动循环,不断执行以下过程,直至程序结束:

16、1.从数据平面的寄存器中读取队列长度q;

17、2.维护一个变量avgq用于记录平均队列长度,通过avgq_now=(1-ω)×avgq_last+ω×q计算平均队列长度;

18、3.将得到的平均队列长度avgq用于计算丢弃概率p,并将p写入数据平面的寄存器中。

19、(三)有益效果

20、与现有技术相比,本发明提供了一种ai智算中心的网络拥塞调度方法及系统,具备以下有益效果:

21、1.本发明将队列管理的拥塞检测和反馈机制解耦,通过复制产生控制报文,由业务报文实现拥塞检测,由控制报文实现反馈丢弃概率的问题,既保障了业务报文的正常转发,又实现了细粒度的反馈;

22、2.本发明通过近似更新平均队列长度,支持设置为较小的权重,使得平均队列长度更加平滑,减缓了丢弃概率大幅度变化造成的突发性丢包;

23、3.本发明通过限流器将业务流量划分为准入流量和非准入流量,保障了高吞吐量,并在此基础上通过参数调节,实现低时延;

24、4.本发明具有自我调节机制:当瞬时队列长度变大时,丢弃概率增加,进入流量管理器的流量减少,队列长度随之减小,从而降低了排队时延;当瞬时队列长度变小时,丢弃概率减小,进入流量管理器的流量增加,吞吐量上升,从而造成队列长度增加;

25、综上,本发明一种ai智算中心的网络拥塞调度方法及系统具有良好的应用前景。

技术特征:

1.一种ai智算中心的网络拥塞调度方法及系统,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种ai智算中心的网络拥塞调度方法及系统,其特征在于,所述步骤3中,avgq为队列的指数加权移动平均(ewma),记作平均队列长度,则avgq_now为当前的平均队列长度,avgq_last为上一次测得的平均队列长度,ω为权重,q为数据包的瞬时队列长度,为便于阐述,令a为(1-ω)×avgq_last,b为ω×q。

3.根据权利要求2所述的一种ai智算中心的网络拥塞调度方法及系统,其特征在于,所述步骤4中,avgq为上一步得到的平均队列长度,min_th和max_th是预定义的最小队列长度阈值和最大队列长度阈值,p(avgq)是平均队列长度为avgq时的丢弃概率,pmax是达到最大队列长度阈值时的丢弃概率。

4.根据权利要求3所述的一种ai智算中心的网络拥塞调度方法及系统,其特征在于,所述步骤6中,若pkt_len<=pbs,则将pbs减去pkt_len,该业务报文被判定为准入流量,直接进入流量管理器;

5.根据权利要求4所述的一种ai智算中心的网络拥塞调度方法及系统,其特征在于,所述步骤7中,若rnd<=drop_prob,则将该报文丢弃;

6.根据权利要求5所述的一种ai智算中心的网络拥塞调度方法及系统,其特征在于,所述权重ω为1/512。

7.根据权利要求6所述的一种ai智算中心的网络拥塞调度方法及系统,其特征在于,所述链路速率为100gbps,链路容量为100g,用户自定义参数r为0.98。

8.根据权利要求1所述的一种ai智算中心的网络拥塞调度方法及系统,其特征在于,包括pktgen轮询的主动队列管理,其中的控制报文由pktgen生成模块产生控制报文,并直接转发至环回端口,其次,控制报文读取寄存器的平均队列长度,并通过匹配查找模块得到丢包概率,在环回后写入寄存器并丢弃。

9.根据权利要求1所述的一种ai智算中心的网络拥塞调度方法及系统,其特征在于,包括数据平面-控制平面协同的主动队列管理,其中的报文经过入口管道的寄存器,在读取丢弃概率后进入限流器模块,限流器模块将业务报文分为准入流量与分准入流量,准入流量直接进入流量管理器,而非准入流量需经过随机数模块以判断是否进入流量管理器,在队列管理器排队后,业务报文将队列长度写至寄存器2中,之后转发出去,所述报文为业务报文和无控制报文。

10.根据权利要求9所述的一种ai智算中心的网络拥塞调度方法及系统,其特征在于,所述控制平面通过线程启动循环,不断执行以下过程,直至程序结束:

技术总结本发明涉及AI智算中心的网络以及网络拥塞控制技术领域,具体为一种基于P4可编程交换机的主动队列管理算法,包括以下步骤:步骤1:复制报文并区分业务报文和控制报文,步骤2:选择队列,步骤3:更新队列长度的与计算平均队列长度,步骤4:通过平均队列长度匹配丢弃概率,步骤5:在入口管道存储丢弃概率,步骤6:区分准入流量和非准入流量,步骤7:对非准入流量按照概率丢弃,本发明将队列管理的拥塞检测和反馈机制解耦,通过复制产生控制报文,由业务报文实现拥塞检测,由控制报文实现反馈丢弃概率的问题,既保障了业务报文的正常转发,又实现了细粒度的反馈。技术研发人员:聂伟受保护的技术使用者:苏州智算科技有限公司技术研发日:技术公布日:2024/8/1

本文地址:https://www.jishuxx.com/zhuanli/20240802/237733.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。