技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种对PCIe设备的掉卡检测方法及BMC与流程  >  正文

一种对PCIe设备的掉卡检测方法及BMC与流程

  • 国知局
  • 2024-10-15 10:08:59

本技术涉及计算机,尤其涉及一种对pcie设备的掉卡检测方法及bmc。

背景技术:

1、随着计算设备(例如ai(art ificia l i nte l l igence,人工智能)服务器和机架式服务器等)的硬件配置的复杂性的增加,对计算设备运行的可维护性的要求也越来越高,其中,对计算设备中所部署的pcie(per iphera l component i nterconnectexpress)设备的掉卡检测受到重点关注。

2、那么,如何提供一种对pcie设备的掉卡检测方法成为亟待解决的问题。

技术实现思路

1、本技术实施例提供了一种对pcie设备的掉卡检测方法、装置、bmc、系统、计算设备、计算机存储介质及计算机程序产品,能够实现对计算设备所部署的pcie设备的掉卡检测。

2、第一方面,本技术实施例提供一种对pcie设备的掉卡检测方法,所述方法包括:

3、确定第一pcie设备的地址信息,所述地址信息是在计算设备的启动阶段通过bios获取的,所述第一pcie设备部署于所述计算设备;

4、基于所述地址信息,获取所述地址信息下的设备标识;

5、若所述获取失败,则确定所述第一pcie设备掉卡;

6、若所述获取成功,将所述设备标识与预存标识进行比对,确定所述第一pcie设备是否掉卡;所述预存标识与所述地址信息具有预设对应关系。

7、上述过程中,在计算设备完成启动之后,可以从在计算设备的启动阶段通过bios获取的各pcie设备的地址信息中,确定第一pcie设备的地址信息,之后,可以基于该第一pcie设备的地址信息,尝试获取该地址信息下的设备标识,若获取失败,则确定第一pcie设备掉卡;若获取成功,将所获取的设备标识与和第一pcie设备的地址信息具有预设对应关系的预存标识进行比对,确定第一pcie设备是否掉卡。这提供了一种可以在计算设备完成启动后,在计算设备的运行过程(即计算设备的操作系统运行过程)中,对计算设备部署的pcie设备的掉卡检测方案。通过该方案,可以在计算设备的运行过程中,周期性或非周期性的对计算设备所部署的pcie设备进行掉卡检测,以可以及时确定pcie设备是否掉卡。后续的,在确定计算设备的pcie设备掉卡时,可以即时进行干预,以减少对计算设备运行的业务的影响,提高用户体验。

8、在一些可能的实施方式中,所述设备标识包括所述第一pcie设备的厂商id和/或设备id。该示例中,设备标识包括第一pcie设备的厂商id和/或设备id这类可以唯一确定相应的第一pcie设备的标识,基于该类标识确定第一pcie设备是否掉卡,可以在一定程度上提高掉卡检测结果的准确性。

9、在一些可能的实施方式中,所述预存标识,是所述计算设备的启动阶段通过bios,对所述计算设备部署的pcie设备进行枚举过程中所获取并存储的;或者,是所述计算设备配置完成各pcie设备后被配置存储的。

10、上述示例中,计算设备在启动阶段通过运行的bios枚举到第一pcie设备的预存标识,说明枚举时第一pcie设备处于未掉卡的状态,通过该类预存标识,可以更方便、准确地实现计算设备在运行过程中对其pcie设备的掉卡检测。另外,计算设备配置完成各pcie设备后,计算设备的各pcie设备确定,这时配置存储第一pcie设备的预存标识,也可以更方便、准确地实现计算设备在运行过程中对其pcie设备的掉卡检测。

11、在一些可能的实施方式中,所述确定所述第一pcie设备是否掉卡,包括:若所述设备标识与预存标识的比对结果,指示所述设备标识和所述预存标识不一致,则确定所述第一pcie设备掉卡。该示例中,若比对结果指示设备标识和预存标识不一致,则可以确定基于第一pcie设备的地址信息未访问到第一pcie设备,相应的,确定第一pcie设备掉卡,以实现在计算设备完成启动后的运行过程中,对计算设备的pcie设备的掉卡检测,并且,可以确定出相对准确的掉卡检测结果。

12、在一些可能的实施方式中,还包括:发送第一告警信息,所述第一告警信息指示所述第一pcie设备掉卡。该示例中,在确定第一pcie设备掉卡之后,发送用于指示第一pcie设备掉卡的第一告警信息,以提醒用户第一pcie设备掉卡,以便其对该第一pcie设备的掉卡情况进行干预,例如执行维修等操作,避免影响计算设备的运行和业务实施。

13、在一些可能的实施方式中,还包括:若所述比对结果指示所述设备标识与所述预存标识一致,确定所述第一pcie设备未掉卡。该示例中,若比对结果指示设备标识和预存标识一致,则确定基于第一pcie设备的地址信息访问到该第一pcie设备,相应的,确定第一pcie设备未掉卡,以实现在计算设备完成启动后的运行过程中,对计算设备的pcie设备的掉卡检测,并且,可以确定出相对准确的掉卡检测结果。

14、在一些可能的实施方式中,还包括:在确定所述第一pcie设备未掉卡的情况下,判断所述第一pcie设备在前一次掉卡检测周期内是否被检测为掉卡;若判断为是,则发送第二告警信息,所述第二告警信息指示所述第一pcie设备掉卡恢复。该示例性,第一pcie设备在前一次掉卡检测周期内被检测为掉卡,而本次掉卡检测被确定为未掉卡,在一定程度上可以说明经用户干预,第一pcie设备的掉卡情况被修复,发送用于指示第一pcie设备掉卡恢复的第二告警信息,以供用户知晓具体情况。

15、在一些可能的实施方式中,所述计算设备部署第一模组,其中,所述第一模组包括指定数量的pcie设备;在所述确定第一pcie设备的地址信息之前,还包括:确定通过所述bios所枚举到的若干pcie设备的地址信息及其各自对应的标识,所述若干pcie设备部署于所述计算设备;获取所述第一模组中各pcie设备的标识;若基于所述第一模组中各pcie设备的标识,以及通过bios所枚举到的所述若干pcie设备的地址信息各自对应的标识,确定所述若干pcie设备的地址信息中不包括所述第一模组中的第二pcie设备的地址信息,发送第三告警信息,所述第三告警信息指示所述第二pcie设备掉卡。该示例中,可以实现对模组内的pcie设备的掉卡的检测,以便用户对模组内的pcie设备的工作状态的确定。

16、在一些可能的实施方式中,所述基于所述地址信息,获取所述地址信息下的设备标识,包括:通过管理引擎me,基于所述地址信息,获取所述设备标识。该示例中,提供了一种在计算设备的操作系统运行过程中,获取第一pcie设备的地址信息下的设备标识的实现方案,为在计算设备的操作系统运行过程中,对计算设备的pcie设备的掉卡检测提供了基础。

17、在一些可能的实施方式中,所述方法应用于bmc,所述bmc用于管理所述计算设备;所述通过运行的管理引擎me,基于所述地址信息,获取所述设备标识,包括:所述bmc将所述地址信息发送至所述计算设备,以使所述计算设备通过运行的管理引擎me,基于所述地址信息,获取所述设备标识;获取所述计算设备发送的所述设备标识。

18、上述示例中,鉴于bmc无法直接访问pcie设备,bme将第一pcie设备的地址信息发送至计算设备,以通过计算设备基于第一pcie设备的地址信息,获取该地址信息下的设备标识,从而获取到当前第一pcie设备的地址信息下的设备标识,以便于对pcie设备的掉卡检测过程的执行,实现在计算设备运行过程中对pcie设备的掉卡检测,更好的保证计算设备的运行和业务实施。

19、在一些可能的实施方式中,所述地址信息包括总线号、设备号和功能号。该示例中,包括总线号、设备号和功能号的地址信息可以在计算设备中唯一标识出相应的pcie设备,以便更好的保证后续的掉卡检测结果的准确性。

20、第二方面,本技术实施例提供一种对pcie设备的掉卡检测装置,所述装置包括:

21、第一确定模块,配置为确定第一pcie设备的地址信息,所述地址信息是在计算设备的启动阶段通过bios获取的,所述第一pcie设备部署于所述计算设备;

22、第一获取模块,配置为基于所述地址信息,获取所述地址信息下的设备标识;

23、第二确定模块,配置为若所述获取失败,则确定所述第一pcie设备掉卡;

24、比对确定模块,配置为若所述获取成功,将所述设备标识与预存标识进行比对,确定所述第一pcie设备是否掉卡;所述预存标识与所述地址信息具有预设对应关系。

25、第三方面,本技术实施例提供一种基板管理控制器bmc,所述bmc用于执行第一方面或第一方面的任一种可能的实现方式所描述的方法。

26、第四方面,本技术实施例提供一种对pcie设备的掉卡检测系统,所述系统包括:第一处理器、第二处理器和基板管理控制器bmc;

27、所述第一处理器,配置为在其所在计算设备启动阶段,对所述计算设备所部署的pcie设备进行枚举,得到所枚举到的一个或多个pcie设备的地址信息,发送所述一个或多个pcie设备的地址信息至bmc,其中,所述一个或多个pcie设备的地址信息包括第一pcie设备的地址信息;

28、所述bmc,配置为确定第一pcie设备的地址信息;基于所述地址信息,从所述第二处理器,获取所述地址信息下的设备标识;若所述获取失败,则确定所述第一pcie设备掉卡;若所述获取成功,将所述设备标识与预存标识进行比对,确定所述第一pcie设备是否掉卡;所述预存标识与所述地址信息具有预设对应关系。

29、第五方面,本技术实施例提供一种对pcie设备的掉卡检测系统,所述系统包括:处理器和基板管理控制器bmc;

30、所述处理器,配置为在其所在计算设备启动阶段,对所述计算设备所部署的pcie设备进行枚举,得到所枚举到的一个或多个pcie设备的地址信息,发送所述一个或多个pcie设备的地址信息至bmc,其中,所述一个或多个pcie设备的地址信息包括第一pcie设备的地址信息;

31、所述bmc,配置为确定第一pcie设备的地址信息;基于所述地址信息,从所述处理器,获取所述地址信息下的设备标识;若所述获取失败,则确定所述第一pcie设备掉卡;若所述获取成功,将所述设备标识与预存标识进行比对,确定所述第一pcie设备是否掉卡;所述预存标识与所述地址信息具有预设对应关系。

32、第六方面,本技术实施例提供一种计算设备,所述计算设备包括基板管理控制器bmc;所述bmc用于,确定第一pcie设备的地址信息,所述地址信息是在计算设备的启动阶段通过bios获取的,所述第一pcie设备部署于所述计算设备;基于所述地址信息,获取所述地址信息下的设备标识;若所述获取失败,则确定所述第一pcie设备掉卡;若所述获取成功,将所述设备标识与预存标识进行比对,确定所述第一pcie设备是否掉卡;所述预存标识与所述地址信息具有预设对应关系。

33、第七方面,本技术实施例提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,当计算机程序在处理器上运行时,使得处理器执行第一方面或第一方面的任一种可能的实现方式所描述的方法。

34、第八方面,本技术实施例提供一种计算机程序产品,其特征在于,当计算机程序产品在处理器上运行时,使得处理器执行第一方面或第一方面的任一种可能的实现方式所描述的方法。

35、可以理解的是,上述第二方面至第八方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。

本文地址:https://www.jishuxx.com/zhuanli/20241015/316593.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。