一种CXL设备的带外管理方法及系统与流程
- 国知局
- 2024-11-06 14:38:21
本发明涉及计算机系统硬件管理与维护,特别是一种cxl设备的带外管理方法及系统。
背景技术:
1、随着计算机体系结构的不断发展,高性能计算和数据中心的需求日益增长,传统的pcie总线技术在资源扩展与管理方面逐渐暴露出局限性,为了应对计算任务的复杂化和大规模数据处理需求,cxl技术应运而生,cxl是一种基于pcie物理层的高速互连协议,旨在通过统一的接口将cpu、内存、加速器和其他设备高效地连接起来,以实现低延迟、高带宽的内存访问和设备通信,cxl技术的出现为服务器架构带来了革命性的变化,使得多个设备能够共享内存资源,增强了系统的扩展性和计算性能,目前,cxl技术主要分为三种子协议:cxl.io、cxl.cache和cxl.memory,分别支持i/o扩展、缓存一致性和内存扩展功能,然而,随着cxl设备在大规模数据中心和高性能计算环境中的应用日益广泛,如何高效管理这些设备,尤其是在os失效或设备出现故障时,进行及时的带外管理,成为一个亟待解决的问题。
2、现有的cxl设备管理方法主要依赖于操作系统层面的管理,即通过操作系统来监控和管理设备的状态,然而,这种管理方式存在诸多不足,依赖于操作系统的管理方法在操作系统出现故障时会失效,导致设备状态无法实时获取,影响了系统的稳定性和可靠性,现有的管理方法难以实现对多个cxl设备的统一管理,特别是在设备资源池化的情况下,缺乏对资源池中各设备的动态监控和资源分配机制,这使得系统在负载均衡和故障处理方面表现欠佳,现有技术中对cxl设备的热维护支持有限,当设备需要更换或维护时,往往需要中断服务器的运行,进而影响整个系统的服务连续性。
技术实现思路
1、鉴于上述现有的cxl设备的带外管理方法及系统中存在的问题,提出了本发明。
2、因此,本发明所要解决的问题在于,现有的cxl设备管理技术存在操作系统失效时设备状态无法实时获取、对资源池化设备的动态管理不足以及热维护支持有限等问题。
3、为解决上述技术问题,本发明提供如下技术方案:一种cxl设备的带外管理方法,其包括,
4、通过bmc实时判断cxl设备的插入状态并对插入的cxl设备进行初始化;
5、实时监控初始化的cxl设备状态并进行故障修复,对故障修复后的cxl设备进行设备重置和验证;
6、将多个cxl设备组合形成资源池并通过cxl设备管理系统进行实时监控和热维护;
7、记录cxl设备的所有数据并存储。
8、作为本发明所述cxl设备的带外管理方法的一种优选方案,其中:所述通过bmc实时判断cxl设备的插入状态指通过cxl设备管理系统中的bmc,采用电气信号检测法实时监控pcle总线的电压和信号完整性;
9、当pcle总线的信号发生变化并符合设备插入的标准时,bmc使用时域分析方法检测信号的上升沿和下降沿的变化率,当cxl设备插入时,pcie总线上的信号电平变化表现出快速的上升沿和下降沿,设定变化率阈值,若变化率超过变化率阈值,则判断为cxl设备插入;
10、根据分析结果,若判断没有cxl设备插入时,cxl设备管理系统提示目前无设备,通过lcd显示屏显示“idel”提示信息,若判断有cxl设备插入时,cxl设备管理系统进入设备插入状态,bmc通过pcle总线将插入事件广播给其他系统组件,包括运维系统、cpld和os。
11、作为本发明所述cxl设备的带外管理方法的一种优选方案,其中:所述对插入的cxl设备进行初始化指bmc在完成插入事件广播后,通过pcie总线向os发送查询命令,要求获取cxl设备的当前状态信息,os根据查询命令返回cxl设备的当前状态信息,包括温度、硬件状态、电源状态、内存使用率和网络连接状态;
12、bmc比较每个当前状态信息与安全范围之间的差异,若cxl设备的每个当前状态信息都处于安全范围内,bmc将向cpld发送初始化信号,cpld接收到初始化信号,执行初始化操作,在lcd显示屏显示“setup”提示信息,表明设备正在初始化;
13、bmc传递初始化信号后,通过pcie总线进一步检查cxl设备初始化后的状态信息,分析初始化后的状态信息与安全范围之间的差异,若初始化后的状态信息全部处于安全范围内,led指示灯变为绿色,在lcd显示屏显示“normal”提示信息,表明cxl设备可以正常工作,进入下一个步骤,否则,重新对插入的cxl设备进行初始化。
14、作为本发明所述cxl设备的带外管理方法的一种优选方案,其中:所述实时监控初始化的cxl设备状态并进行故障修复指cxl设备初始化完成后,通过bmc周期性地更新并监控cxl设备状态,将获取的周期性设备信息与安全范围进行比较,并将比较结果传递给cpld,cpld根据比较结果点亮相关的led信号灯并在lcd显示屏显示提示信息;
15、当cxl设备中有周期性状态信息不在安全范围,表明cxl设备发生故障,通过bmc接收来自os的故障信息,并控制pcie总线将故障的cxl设备的数据通道置于只读模式进行隔离操作;
16、故障信息包括预期故障信息和意外故障信息;
17、预期故障信息包括温度超标、内存使用率超标和网络连接错误,若出现预期故障信息中任一项,bmc将判断cxl设备处于故障状态,并向cpld发送故障信号,led指示灯变为黄色,在lcd显示屏上显示“warning”提示信息,提示运维人员进行维修处理;
18、意外故障信息包括硬件状态故障和电源状态故障,若出现意外故障信息中任一项,bmc将判断cxl设备处于错误状态,并向cpld发送错误信号,led指示灯变为红色,在lcd显示屏上显示“error”提示信息,提示运维人员立刻修复处理;
19、运维人员根据提示信息提示进行设备修复,修复过程包括物理硬件更换和软件重置,修复后,bmc重新检测cxl设备状态,确认故障的修复情况。
20、作为本发明所述cxl设备的带外管理方法的一种优选方案,其中:所述对故障修复后的cxl设备进行设备重置和验证指修复完成后,bmc解除设备的隔离操作,并将发送重置信号给cpld;
21、cpld收到重置信号后,控制cxl设备管理系统重新进行初始化,bmc恢复对cxl设备的正常监控,并在lcd显示屏上显示“resetup”状态信息;
22、cxl设备重置完成后,bmc对cxl设备进行状态验证,确保所有状态信息处于正常范围内;
23、验证完成后,led指示灯变为绿色,在lcd显示屏上更新为“normal”提示信息,表明cxl设备已恢复正常运行。
24、作为本发明所述cxl设备的带外管理方法的一种优选方案,其中:所述将多个cxl设备组合形成资源池并通过cxl设备管理系统进行实时监控和热维护指将多个cxl设备组合形成资源池,通过cxl设备管理系统实时监控资源池的总利用率和各cxl设备的任务状态,资源池的总利用率通过整合每个cxl设备的内存利用率、网络带宽占用率的指标评估资源池的整体负载和运行状况,若cxl设备出现故障,cxl设备管理系统通过热维护方式,将故障的设备上正在执行的任务迁移到低负载的cxl设备上。
25、作为本发明所述cxl设备的带外管理方法的一种优选方案,其中:所述记录cxl设备的所有数据并存储指cxl设备插入过程中,记录cxl设备的插入时间戳、pcie总线信号变化和初始状态信息,并在实时监控中周期性地保存各cxl设备的状态信息,当cxl设备发生故障时,记录故障信息,在进行热维护操作时记录任务迁移、设备修复和重置的全过程,并保存资源池的总利用率数据和各cxl设备的任务状态数据。
26、本发明的另外一个目的是提供一种cxl设备的带外管理系统,其包括,
27、初始化模块,用于通过bmc实时判断cxl设备的插入状态并对插入的cxl设备进行初始化;
28、实时管理模块,用于实时监控初始化的cxl设备状态并进行故障修复;
29、设备重置模块,用于对故障修复后的cxl设备进行设备重置和验证;
30、资源池模块,用于将多个cxl设备组合形成资源池并通过cxl设备管理系统进行实时监控和热维护;
31、数据存储模块,用于记录cxl设备的所有数据并存储。
32、一种计算机设备,包括:存储器和处理器;所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现cxl设备的带外管理方法的步骤。
33、一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现cxl设备的带外管理方法的步骤。
34、本发明有益效果为:本发明所提出的cxl设备管理方式能够对所连接的cxl设备进行有效管理,更直观的了解当前cxl设备状态或cxl资源池利用率与分配情况,且热维护的方式可以避免服务器停用的情况发生,维护方式更加便捷,支持远程监控和自动化管理,极大的提高了服务器的稳定性和可用性。
本文地址:https://www.jishuxx.com/zhuanli/20241106/323253.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表