技术新讯 > 电子通信装置的制造及其应用技术 > IB算力网络的智能管控方法与流程  >  正文

IB算力网络的智能管控方法与流程

  • 国知局
  • 2024-10-15 10:12:40

本发明属于算力网络领域,特别是关于一种ib(infiniband,无限带宽)算力网络的智能管控方法。

背景技术:

1、随着人工智能的发展,单个数据中心内的服务器数量已从数百台增加到数万台,同时,分布式训练的大模型算法需依托大量的底层网络设备如服务器、交换机,管理难度大幅上升,使得运维方必须能高效地管理和调度大规模、分散的算力资源。现有的ib网络管控平台扩展性不佳、难以灵活应对大规模网络环境和快速增长的各种底层网络设备数量,不能及时支持最新的网络技术和服务,自动化程度不高、运维效率低,用户界面和体验不够直观、友好,网络管理员需要较长时间的学习才能适应。

技术实现思路

1、为解决前述技术问题,本发明提供一种ib算力网络的智能管控方法,包括以下步骤:

2、s1、部署nodeagent采集程序、switchagent docker、kafka集群、数据库集群,数据库集群包括influxdb数据库、mysql数据库和redis数据库;

3、s2、nodeagent采集程序采集资源负载数据,并将其发送至kafka集群,资源负载数据包括gpu数据、dpu数据、网络数据;

4、s3、switchagent docker启动switchagent服务,switchagent服务自动确定网络邻居并生成网络拓扑结构,主备竞争后自动生成switchagent master节点,switchagentmaster节点分配节点lid、下发ltf表以及拥塞控制策略;

5、s4、网络状态稳定后,switchagent服务将采集的网络邻居数据、交换机节点数据、日志数据写入mysql数据库;

6、s5、switchagent服务定期将交换机节点的网络端口流量数据、拥塞数据写入influxdb数据库;

7、s6、kafka集群对资源负载数据进行负载均衡处理;

8、s7、kafka集群以平缓的方式,将网络邻居数据、交换机节点数据及负载均衡处理后的资源负载数据中的dpu数据、gpu数据写入mysql数据库,将日志数据写入influxdb数据库,并将mysql数据库中的所有数据写入redis数据库作为备份数据;

9、s8、读取mysql数据库内的网络邻居数据、交换机节点数据,汇总后自动生成节点层次化结构,将每个交换机节点重新编号,根据交换机节点的层次位置、编号智能编排交换机,再将与智能编排后的交换机对应的交换机节点名称下发到kafka集群,switchagent服务从kafka集群读取交换机节点名称并将其写入对应的交换机节点;

10、s9、生成层次化拓扑结构,并将层次化拓扑结构的对应数据同步发送至前端;

11、s10、更新交换机节点数据、dpu数据、gpu数据、网络数据,并将更新后的数据同步发送至前端,前端对更新后的数据进行数据处理,生成可实时更新的可视化数据。

12、进一步地,步骤s1中,nodeagent采集程序部署于底层服务器。

13、进一步地,底层服务器包括gpu服务器、dpu服务器。

14、进一步地,switchagent docker部署于主备服务器。

15、进一步地,kafka集群、数据库集群部署于管理服务器。

16、进一步地,交换机节点的交换机为64×400g端口leaf交换机、64×400g端口spine交换机。

17、进一步地,步骤s4还包括:switchagent服务实时监控网络拓扑结构,并将更新后的交换机节点数据、网络邻居数据写入mysql数据库。

18、进一步地,数据处理采用的算法包括:数据压缩算法、数据分类算法、滑动窗口算法。

19、与现有技术相比,本发明提供的ib算力网络的智能管控方法,可解决ib算力网络中复杂网络环境资源难以协调管控的问题,底层网络设备如服务器、交换机的数量可扩展性佳,保证在ai大模型训练过程中对底层网络设备资源的监控,还能分布式、灵活控制底层网络设备资源的弹性设置。

技术特征:

1.ib算力网络的智能管控方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的ib算力网络的智能管控方法,其特征在于,所述步骤s1中,所述nodeagent采集程序部署于底层服务器。

3.根据权利要求2所述的ib算力网络的智能管控方法,其特征在于,所述底层服务器包括gpu服务器、dpu服务器。

4.根据权利要求1所述的ib算力网络的智能管控方法,其特征在于,所述步骤s1中,所述switchagent docker部署于主备服务器。

5.根据权利要求1所述的ib算力网络的智能管控方法,其特征在于,所述步骤s1中,所述kafka集群、数据库集群部署于管理服务器。

6.根据权利要求1所述的ib算力网络的智能管控方法,其特征在于,所述交换机节点的交换机为64×400g端口leaf交换机、64×400g端口spine交换机。

7.根据权利要求1~6中任一项所述的ib算力网络的智能管控方法,其特征在于,所述步骤s4还包括:所述switchagent服务实时监控网络拓扑结构,并将更新后的交换机节点数据、网络邻居数据写入所述mysql数据库。

8.根据权利要求7所述的ib算力网络的智能管控方法,其特征在于,所述步骤s10中,所述数据处理采用的算法包括:数据压缩算法、数据分类算法、滑动窗口算法。

技术总结本发明公开了一种IB算力网络的智能管控方法,nodeagent采集程序采集资源负载数据,switchagent docker启动switchagent服务,自动确定网络邻居并生成网络拓扑结构;switchagent服务进行数据吸入;kafka集群对资源负载数据进行负载均衡处理,并以平缓的方式写入数据;自动生成节点层次化结构,将每个交换机节点重新编号,根据交换机节点的层次位置、编号智能编排交换机,再将与智能编排后的交换机对应的交换机节点名称下发到kafka集群;生成层次化拓扑结构,并将其对应数据同步发送至前端;更新交换机节点数据、DPU数据、GPU数据、网络数据,前端对更新后的数据进行数据处理,生成可实时更新的可视化数据。本IB算力网络的智能管控方法解决IB算力网络中复杂网络环境资源难以协调管控的问题。技术研发人员:陈维,于士超受保护的技术使用者:南京基流科技有限公司技术研发日:技术公布日:2024/10/10

本文地址:https://www.jishuxx.com/zhuanli/20241015/316800.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。