技术新讯 > 电子通信装置的制造及其应用技术 > 检测BMC连通性的方法、装置、产品及服务器集群系统与流程  >  正文

检测BMC连通性的方法、装置、产品及服务器集群系统与流程

  • 国知局
  • 2024-09-14 14:58:12

本技术涉及服务器,特别是涉及一种检测bmc连通性的方法、装置、产品及服务器集群系统。

背景技术:

1、bmc(baseboard management controller,基板管理控制器)负责服务器的核心功能管理,包括硬件状态管理、操作系统管理、健康状态管理、功耗管理等。bmc是独立于服务器系统之外的小型操作系统,服务器集群系统一般使用bmc指令进行大规模无人值守操作,包括服务器的远程管理、监控、安装、重启等。服务器集群系统中存在两类服务器,一类为只搭载cpu(central processing unit,中央处理器)的服务器(称为cpu box),一类为只搭载gpu(graphics processing unit,图形处理器)的服务器(称为gpu box),其中,cpu box主要负载管理和控制,gpu box专用于执行ai运算。在大型服务器集群系统中,随着模型的复杂度和规模的增加,计算量需求会增加,因此可以扩展多个gpu box,目前搭配gpu box的整机柜服务器多用于无人机驾驶、智能语音识别等领域。

2、cpu box和gpu box之间通过专用线缆连接,二者均搭载有独立的bmc。在服务器运行过程中,bmc对设备的运行状态以及硬件的健康状况进行监控,并将信息上传服务器运维平台,运维人员在服务器运维平台导航远程查看设备的运行情况。通常情况下cpu端的bmc接入到运维网络,而gpu box端的bmc不接入运维网络,因此运维人员并不能直接获知gpubox的信息,需要通过cpu box端的bmc才能获取gpu box端bmc上的信息。在这种情况下,需要保持cpu box端的bmc与gpu box端的bmc之间的连通正常,以免无法及时获知gpu box的故障信息,造成严重损失。

技术实现思路

1、有鉴于此,本技术旨在提出一种检测bmc连通性的方法、装置、产品及服务器集群系统,以确保cpu box端bmc与gpu box端的bmc的连通性,避免运维人员无法及时获知gpubox端的故障信息。

2、为达到上述目的,本技术的技术方案如下:

3、本技术实施例第一方面提供一种检测bmc连通性的方法,应用于服务器集群系统,包括:

4、通过第一bmc向第二bmc的目标端口发送端口检测数据;所述第一bmc为cpu box端的bmc,所述第二bmc为gpu box端的bmc,所述第一bmc及所述第二bmc之间通过网络芯片连接;

5、在所述第一bmc接收到所述第二bmc返回的第一结果数据的情况下,判定所述目标端口的状态正常;

6、在所述目标端口的状态正常的情况下,通过所述第一bmc向所述目标端口发送自检请求;

7、在所述第一bmc接收到所述第二bmc返回的第二结果数据的情况下,判定所述第一bmc与所述第二bmc之间的连通性正常。

8、可选地,在通过第一bmc向所述第二bmc的目标端口发送端口检测数据之后,还包括:

9、从所述第一bmc发出所述端口检测数据开始计时,作为第一发送时长;在所述第一bmc未接到所述第二bmc返回的第一结果数据的情况下,将所述第一发送时长与第一超时阈值进行比较;若所述第一发送时长大于所述第一超时阈值,则判定所述第一bmc与所述第二bmc之间的连通性存在异常;

10、在所述第一bmc接收到所述第二bmc返回的第一结果数据的情况下,获取所述第一bmc接收到所述第一结果数据的第一返回时长,将所述第一返回时长与第二超时阈值进行比较;在所述第一返回时长不大于所述第二超时阈值的情况下,判定所述第一bmc与所述第二bmc之间的连通性正常;在所述第一返回时长大于所述第二超时阈值的情况下,判定所述第一bmc与所述第二bmc之间的连通性存在异常。

11、可选地,在通过所述第一bmc向所述目标端口发送自检请求之后,还包括:

12、从所述第一bmc发出所述自检请求开始计时,作为第二发送时长;在所述第一bmc未接到所述第二bmc返回的第二结果数据的情况下,将所述第二发送时长与第三超时阈值进行比较;若所述第二发送时长大于所述第三超时阈值,则判定所述第一bmc与所述第二bmc之间的连通性存在异常;

13、在所述第一bmc接收到所述第二bmc返回的第二结果数据的情况下,获取所述第一bmc接收到所述第二结果数据的第二返回时长,将所述第二返回时长与第四超时阈值进行比较;在所述第二返回时长不大于所述第四超时阈值的情况下,判断所述第二bmc的连通性正常;在所述第二返回时长大于所述第四超时阈值的情况下,判定所述第一bmc与所述第二bmc之间的连通性存在异常。

14、可选地,所述检测bmc连通性的方法,还包括:

15、预先在所述第一bmc中创建第一虚拟网络设备,用于通过所述网络芯片与所述第二bmc通信,保持所述第一虚拟网络设备为开启状态;

16、为所述第一bmc及所述第二bmc设置通信信息,使所述第一bmc及所述第二bmc处于同一网络;所述通信信息包括:用户名、通信密码、静态ip及网关信息;

17、在所述第一bmc中创建目标线程,所述目标线程用于向所述第二bmc发送所述端口检测数据及所述自检请求;

18、通过所述第一bmc,按照第一预设周期执行所述目标线程。

19、可选地,所述目标端口遵循ipmi协议;所述端口检测数据及所述第一结果数据,为tcp数据流。

20、可选地,在所述第一bmc与所述第二bmc之间的连通性存在异常的情况下,还包括:

21、通过所述第一bmc生成第一异常日志,并将所述第一异常日志上传到服务器运维平台,对所述目标端口与所述第一bmc间的网络连接进行故障告警。

22、可选地,在所述第一bmc与所述第二bmc之间的连通性存在异常的情况下,还包括:

23、通过所述第一bmc生成第二异常日志,并将所述第二异常日志上传到服务器运维平台,对所述第二bmc进行故障告警。

24、可选地,所述检测bmc连通性的方法,还包括:

25、预先在所述第一bmc中创建第二虚拟网络设备,用于与所述服务器运维平台通信;保持所述第二虚拟网络设备为开启状态;

26、预先通过所述第一bmc生成虚拟传感器,并设置所述虚拟传感器的默认值;在所述第一bmc与所述第二bmc之间的连通性存在异常的情况下,所述虚拟传感器的默认值发生对应改变;

27、通过所述第一bmc,按照第二预设周期读取所述虚拟传感器的值以生成对应的异常日志。

28、根据本技术实施例的第二方面,提供一种检测bmc连通性的装置,用于实现本技术实施例的第一方面所提供的检测bmc连通性的方法,所述装置包括:

29、第一检测模块,被配置为控制第一bmc向所述第二bmc的目标端口发送端口检测数据;所述第一bmc为cpu box端的bmc,所述第二bmc为gpu box端的bmc,所述第一bmc及所述第二bmc之间通过网络芯片连接;

30、第一判断模块,被配置为在所述第一bmc接收到所述第二bmc返回的第一结果数据的情况下,判定所述目标端口的状态正常;

31、第二检测模块,被配置为在所述目标端口的状态正常的情况下,通过所述第一bmc向所述目标端口发送自检请求;

32、第二判断模块,被配置为在所述第一bmc接收到所述第二bmc返回的第二结果数据的情况下,判定所述第一bmc与所述第二bmc之间的连通性正常。

33、根据本技术实施例的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现如本技术实施例第一方面所述的检测bmc连通性的方法中的步骤。

34、根据本技术实施例的第四方面,提供一种电子设备,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如本技术实施例第一方面所述的检测bmc连通性的方法中的步骤。

35、根据本技术实施例的第五方面,提供一种服务器集群系统,包括:

36、至少两个第二服务器,用于执行ai运算;所述第二服务器包括:gpu及如本技术实施例第一方面所述的第二bmc;

37、第一服务器,用于管理及控制所述第二服务器执行ai运算;所述第一服务器包括:cpu及如本技术实施例第一方面所述的第一bmc;所述第一bmc及所述第二bmc之间通过网络芯片连接;所述第一bmc被配置为执行如本技术实施例第一方面所述的检测bmc连通性的方法以检测所述第二bmc的连通性;

38、服务器运维平台,与所述第一bmc连接,用于接收所述第一bmc上传的异常日志。

39、本技术所提供的检测bmc连通性的方法,通过搭载cpu的服务器上的第一bmc向搭载gpu的服务器上的第二bmc的目标端口发送端口检测数据,检测gpu box端的目标端口是否能够正常通信,在目标端口状态正常的情况下,进一步向目标端口发送自检请求,检测gpu box端的bmc是否出现异常,在接收到第二bmc返回的第二结果数据的情况下,判定第一bmc与第二bmc的连通性正常。采用本技术提供的检测bmc连通性的方法,通过两步验证的检测方式,通过控制第一bmc对第二bmc的端口和自身功能进行检测,能够实现对gpu box端bmc和cpu box端bmc的连通性的远程监控,确保运维人员及时获取设备的状态信息,便于进行设备维护。

本文地址:https://www.jishuxx.com/zhuanli/20240914/296541.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。