一种异常定位系统、方法、电子设备及存储介质与流程
- 国知局
- 2024-12-06 13:04:54
本公开涉及服务器异常检测领域,具体涉及一种异常定位系统、方法、电子设备及存储介质。
背景技术:
1、随着人工智能、大数据处理和高性能计算等领域的快速发展,图形处理器在数据处理和计算任务中扮演着越来越重要的角色。现代图形处理器服务器通常配置多个图形处理器,以满足高并发和高性能的需求。然而,随着图形处理器数量的增加,系统的复杂性也随之上升,导致在图形处理器出现故障或异常时,定位问题的难度加大。
2、相关技术中,基板管理控制器通常负责监控和管理服务器的硬件状态,但在多图形处理器环境下,基板管理控制器往往只能逐个获取图形处理器的状态信息,无法同时抓取多个图形处理器的诊断信息,使得在图形处理器出现故障时,工程师需要通过逐一复现问题、关机重启等繁琐步骤来获取故障信息,导致调试效率低下,从而延长故障排查的时间。此外,传统调试手段往往依赖于传统的串口通信和联合测试工作组接口,无法有效支持高并发的信号传输,限制了异常定位的实时性和准确性。
技术实现思路
1、本公开实施例提供一种异常定位系统、方法、电子设备及存储介质,旨在解决上述背景技术存在的问题。
2、为了解决上述技术问题,本公开是这样实现的:
3、第一方面,本公开实施例提供了一种异常定位系统,所述系统包括:
4、基板管理控制器,用于连接控制器件;
5、多个图形处理器,每个图形处理器具有联合测试工作组接口和串口接口;
6、控制器件,包括:高速串行交换模块、第一转换模块、第二转换模块、串口接口模块以及联合测试工作组接口模块;
7、所述高速串行交换模块的输入端与所述基板管理控制器连接,所述高速串行交换模块的输出端分别与所述第一转换模块和所述第二转换模块连接;
8、所述串口接口模块用于连接所述多个图形处理器各自的串口接口;所述联合测试工作组接口模块用于连接所述多个图形处理器各自的联合测试工作组接口;
9、所述基板管理控制器,用于并行获取所述高速串行交换模块返回的,来自于所述多个图形处理器的联合测试工作组接口的寄存器信息和串口接口的状态信息,以进行异常定位。
10、可选地,所述基板管理控制器,具有第一高速串行接口,通过第一高速串行信号线连接控制器件;所述高速串行交换模块的输入端具有第二高速串行接口,输出端具有第三高速串行接口和第四高速串行接口,所述第二高速串行接口与所述基板管理控制器的第一高速串行接口之间连接有第一高速串行信号线,所述第三高速串行接口连接所述第一转换模块,所述第四高速串行接口连接所述第二转换模块;
11、所述多个图形处理器上的联合测试工作组接口包括高电位的联合测试工作组接口和低电位的联合测试工作组接口;
12、所述联合测试工作组接口模块包括第一联合测试工作组接口模块和第二联合测试工作组接口模块;
13、所述第一联合测试工作组接口模块并行连接所述多个图形处理器上高电位的联合测试工作组接口,所述第一联合测试工作组接口模块用于并行连接所述多个图形处理器上低电位的联合测试工作组接口。
14、可选地,所述第一转换模块的输入端具有第五高速串行接口,输出端具有第一联合测试工作组接口和第二联合测试工作组接口;
15、所述第一转换模块的第五高速串行接口通过第二高速串行信号线与所述高速串行交换模块的第三高速串行接口连接;
16、所述第一转换模块的第一联合测试工作组接口通过第一联合测试工作组信号线连接所述第一联合测试工作组接口模块,以及,所述第一转换模块的第二联合测试工作组接口通过第二联合测试工作组信号线连接所述第二联合测试工作组接口模块。
17、可选地,所述第二转换模块的输入端具有第六高速串行接口,输出端具有串口接口;
18、所述第二转换模块的第六高速串行接口通过第三高速串行信号线与所述高速串行交换模块的第四高速串行接口连接,所述第二转换模块的串口接口通过串口信号线连接所述串口接口模块。
19、可选地,所述基板管理控制器配置有第一存储空间,存储有诊断固件,所述诊断固件用于根据所述多个图形处理器的联合测试工作组接口的寄存器信息和串口接口的状态信息,进行异常定位;
20、所述基板管理控制器配置有第二存储空间,存储有基板管理控制器固件,基板管理控制器固件的优先级与诊断固件的优先级不同。
21、第二方面,本公开实施例提供了一种异常定位方法,应用于一种异常定位系统,所述方法包括:
22、分别通过联合测试工作组接口模块和串口接口模块,并行接收服务器的多个图形处理器中,发生异常的至少一个第一图形处理器的寄存器信息和状态信息,并将所述寄存器信息和所述状态信息并行返回至第一转换模块和第二转换模块;
23、通过所述第一转换模块和所述第二转换模块,分别将所述寄存器信息和所述状态信息转换为兼容于高速串行转换模块的协议和数据格式,并返回至所述高速串行转换模块;
24、通过所述高速串行交换模块,将所述寄存器信息和所述状态信息整合为诊断信息,并将所述诊断信息返回至基板管理控制器;
25、通过所述基板管理控制器,根据所述诊断信息进行故障定位,以确定所述第一图形处理器的异常原因。
26、可选地,所述通过所述基板管理控制器,根据所述诊断信息进行故障定位,以确定所述第一图形处理器的异常原因,包括:
27、通过所述基板管理控制器,根据所述第一图形处理器的寄存器信息,确定用于监测温度状态的超温寄存器的寄存器值;
28、判断所述超温寄存器的寄存器值是否置位,在所述超温寄存器的寄存器值置位的情况下,获取经由所述高速串行交换模块返回的,所述第一图形处理器的当前温度;
29、在所述第一图形处理器的当前温度大于预设温度阈值的情况下,确定所述第一图形处理器的异常原因为超温异常。
30、可选地,在所述超温寄存器的寄存器值未置位的情况下,确定所述第一图形处理器没有出现超温异常。
31、可选地,所述方法还包括:
32、在所述第一图形处理器的当前温度大于预设温度阈值的情况下,通过所述基板管理控制器,获取经由所述高速串行交换模块返回的,第二图形处理器的当前温度,第二图形处理器为部署于所述第一图形处理器邻近位置的图形处理器;
33、在第二图形处理器的当前温度大于所述预设温度阈值的情况下,确定所述第一图形处理器的异常原因为环境温度异常;
34、在第二图形处理器的当前温度小于或等于所述预设温度阈值的情况下,确定所述第一图形处理器的异常原因为自身温度异常。
35、可选地,所述通过所述基板管理控制器,根据所述诊断信息进行故障定位,以确定所述第一图形处理器的异常原因,包括:
36、通过所述基板管理控制器,根据所述第一图形处理器的寄存器信息,确定用于对所述第一图形处理器进行逻辑控制的逻辑器件的寄存器值;
37、判断所述逻辑器件的寄存器值是否置位,在所述逻辑器件的寄存器值置位的情况下,确定所述第一图形处理器的异常原因为电源供电异常。
38、可选地,所述方法还包括:
39、在所述逻辑器件的寄存器值置位的情况下,通过所述基板管理控制器获取经由所述高速串行交换模块返回的,用于监控所述第一图形处理器掉电保护状态的关键告警寄存器的寄存器值;
40、判断所述关键告警寄存器的寄存器值是否置位,在所述关键告警寄存器的寄存器值置位的情况下,确定所述第一图形处理器的异常原因为所述第一图形处理器的掉电保护异常导致的电源供电异常;
41、在所述关键告警寄存器的寄存器值未置位的情况下,确定所述第一图形处理器的异常原因为所述第一图形处理器的非自身异常导致的电源供电异常。
42、可选地,所述方法还包括:
43、在所述关键告警寄存器的寄存器值未置位的情况下,通过所述基板管理控制器,根据所述第一图形处理器的状态信息判断所述第一图形处理器上的逻辑芯片的电源和时序是否正常;
44、在所述第一图形处理器上的逻辑芯片的电源和时序正常的情况下,确定所述第一图形处理器的异常原因为自身异常导致的电源供电异常;
45、在所述第一图形处理器上的逻辑芯片的电源和时序不正常的情况下,确定所述第一图形处理器的异常原因为非自身异常导致的电源供电异常。
46、可选地,所述方法还包括:
47、在所述逻辑器件的寄存器值未置位的情况下,通过所述基板管理控制器,根据所述第一图形处理器的状态信息判断所述服务器的多个图形处理器各自的通信链路是否连接正常;
48、在所述多个图形处理器各自的通信链路均连接正常的情况下,获取经由所述高速串行交换模块返回的,第三图形处理器的状态信息,将所述第三图形处理器的状态信息与所述第一图形处理器的状态信息逐项比对,判断是否存在差异项,所述第三图形处理器为未发生异常的图形处理器;
49、在存在差异项的情况下,确定所述第一图形处理器的异常原因为所述差异项所对应的硬件故障或配置错误;在不存在差异项的情况下,将所述第一图形处理器和所述第三图形处理器的异常相关信息记录至所述基板管理控制器的运行日志中,所述异常相关信息用于对所述第一图形处理器和所述第三图形处理器进行失效分析;
50、在存在通信链路连接异常的图形处理器的情况下,确定通信链路连接异常的所有图形处理器;将通信链路连接异常的所有图形处理器逐个与所述第一图形处理器位置互换,检查位置互换后通信链路连接是否恢复正常;在检查到位置互换后通信链路连接恢复正常的情况下,确定所述第一图形处理器的异常原因为自身异常导致的通信链路异常;在检查到位置互换后通信链路连接未恢复正常的情况下,确定所述第一图形处理器的异常原因为链路配置异常导致的通信链路异常。
51、第三方面,本公开实施例提供了一种电子设备,包括:处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现一种异常定位方法的步骤。
52、第四方面,本技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现一种异常定位方法的步骤。
53、本公开的实施例提供的技术方案至少带来以下有益效果:
54、本公开能够并行获取多个图形处理器的寄存器信息和状态信息,避免了传统方法中逐个获取数据的低效流程。在出现故障时,可以同时监控和分析多个图形处理器的状态信息,能够快速定位故障源,减少故障排查的时间。此外,控制器件内置的高速串行交换模块、转换模块以及串口和联合测试工作组接口模块,实现了对多个图形处理器的集中管理和控制。基于本公开集成化的设计,不仅简化了硬件连接,还通过快速准确的异常定位,减少了因故障排查而导致的停机时间和人力成本,从而提高了整体系统的运营效率和经济效益。
本文地址:https://www.jishuxx.com/zhuanli/20241204/343177.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表