技术新讯 > 信息存储应用技术 > 识别和隔离出现电源故障的DIMM的方法与流程  >  正文

识别和隔离出现电源故障的DIMM的方法与流程

  • 国知局
  • 2024-07-31 19:12:36

本发明涉及信息处理设备中的ram(随机存取存储器),特别是识别出现电源故障的dimm(双线内存模块)并将其与信息处理设备的其他部件隔离。

背景技术:

1、ddr5是ddr(双倍数据速率)内存的第五次和最新的迭代,它将在主流市场上接替ddr4,并提供更大的带宽、更多的容量和更好的电源效率。ddr5rdimm(带寄存器的双列直插内存模块)和lrdimm(低负载双列直插内存模块)模块支持vr(voltage regulator)-on-dimm(vod)电源架构,其中内存电源管理ic(pmic)位于dimm上,提供ddr5组件所需的电源轨(power rails)。

2、ddr5 pmic芯片为dimm进行电压控制,可以更有效地控制系统电源负载,提高电源转换效率。因此,pmic提高了信号完整性和兼容性,甚至降低了主板设计的供电成本。作为电源管理ic,pmic芯片具有寄存器,可以记录不同的电压故障和临界温度故障。

3、在传统的解决方案中,当服务器中的一个ddr5 dimm出现pmic故障时,它将触发平台级电源故障,然后整个服务器被关闭(shut down),其电源被阻断,以避免服务器主板的硬件被烧毁。另一方面,如果内存控制器的一个通道安装了两个dimms,将不可能确定这两个dimm中的哪一个出现了故障,因为这两个dimms的pmic相关硬件在主板设计上是绑定在一起的。为了找出出现电源故障的dimm,用户必须拔掉服务器的电源线,然后再插上电源线重新启动系统,这时uefi(统一可扩展固件接口)会检测到出现pmic故障的dimm,并找出故障类型。因此,当ddr5 dimm出现pmic故障时,传统的解决方案需要用户干预,并导致服务器长时间停运。另外,有些发生电源故障的dimm在重插电源线上电,并尝试通过uefi进行故障定位的时候,会发生dimm上的电源短路,从而会导致dimm的烧毁甚至会进一步导致服务器主板烧毁。

技术实现思路

1、因此,本发明在一个方面提供了一种识别信息处理设备中出现电源故障的dimm的方法。该方法包括以下步骤:确定在信息处理系统的多个组件中,出现电源故障的dimm导致了系统级别的电源故障;关闭所述信息处理设备,同时继续向所述多个组件提供待机电源;进一步定位到某一个实际发生电源故障的dimm;以及报告所述出现电源故障的dimm的位置和故障类型。

2、在一些实施例中,确定步骤是由不同于信息处理装置的cpu(中央处理单元)之外的信息处理装置中额外的第一协处理器执行。

3、在一些实施例中,上述第一协处理器是fpga。

4、在一些实施例中,出现电源故障的dimm的位置是由第一协处理器在确定步骤中获得的。

5、在一些实施例中,出现电源故障的dimm的位置包括该dimm相对于cpu的内存控制器的通道和插槽信息。

6、在一些实施例中,报告步骤进一步包括以下步骤:由第一协处理器从出现电源故障的dimm的管理ic读取出现电源故障的dimm的故障类型;以及将出现电源故障的dimm的位置和故障类型从第一协处理器传输到第二协处理器。

7、在一些实施例中,上述第二协处理器是基板管理控制器。

8、在一些实施例中,上述方法进一步包括由第二协处理器将出现电源故障的dimm的位置和故障类型写入系统事件日志的步骤。

9、在一些实施例中,上述方法进一步包括在报告了出现电源故障的dimm的位置和故障类型后,在信息处理设备的下一次重启中隔离出现电源故障的dimm的步骤。

10、在一些实施例中,在信息处理设备的下一次重启中隔离出现电源故障的dimm的步骤,进一步包括通过第二协处理器向信息处理设备的固件接口发送出现故障的dimm的禁用配置;以及在下一次重启中根据dimm禁用配置通过固件接口禁用出现电源故障的dimm。

11、在一些实施例中,出现电源故障的dimm是ddr5 dimm。

12、根据本发明的另一个方面,提供了一种信息处理装置,该装置包括一个或多个处理器、一个存储器;以及一个或多个程序。该一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行,该一个或多个程序包括指令以执行以下方法:确定在信息处理系统的多个组件中,出现电源故障的dimm导致了系统级别的电源故障;关闭所述信息处理设备,同时继续向所述多个组件提供待机电源;进一步定位到某一个实际发生电源故障的dimm;以及报告所述出现电源故障的dimm的位置和故障类型。

13、在一些实施例中,上述一个或多个处理器包括cpu、第一协处理器和第二协处理器。上述一个或多个程序存储在存储器中并被配置为由第一协处理器协同第二协处理器和cpu一起执行。

14、在一些实施例中,第一协处理器是fpga,而第二协处理器是bmc。

15、在一些实施例中,第一协处理器通过smbus(系统管理总线)连接到出现电源故障的dimm。

16、在本发明的另一个方面,提供了一种程序产品,包括计算机可读存储介质和程序代码,该程序代码被配置为可由处理器执行,以执行包括以下操作:确定在信息处理系统的多个组件中,出现电源故障的dimm导致了系统级别的电源故障;关闭信息处理设备,同时继续向多个组件供电;进一步定位到某一个实际发生电源故障的dimm;以及报告出现电源故障的dimm的位置和故障类型。

17、因此,本发明的实施例提供了快速识别出现电源故障的dimm的方法,例如具有pmic故障的ddr5 dimm。一旦识别了出现电源故障的dimm,客户就可以尽快进行更换。此外,在一些实施例中,如果客户不更换出现电源故障的dimm,则uefi将自动禁用故障的dimm,并继续使用剩余的良好dimm启动系统。识别和隔离出现电源故障的dimm的过程是完全自动的,不需要用户干预,因此它减少了信息处理设备的宕机时间和售后服务成本。

技术特征:

1.一种识别信息处理设备中出现电源故障的dimm的方法,包括以下步骤:

2.根据权利要求1所述的方法,其中所述确定步骤是由不同于所述信息处理装置的cpu之外的信息处理装置中额外的第一协处理器执行的。

3.根据权利要求2所述的方法,其中所述第一协处理器是fpga。

4.根据权利要求2所述的方法,其中所述出现电源故障的dimm的位置由所述第一协处理器在所述确定步骤中获得。

5.根据权利要求1-4中任一项所述的方法,其中所述位置包括所述出现电源故障的dimm相对于cpu的内存控制器的通道和插槽信息。

6.根据权利要求4所述的方法,其中所述报告步骤进一步包括:

7.根据权利要求6所述的方法,其中所述第二协处理器是基板管理控制器。

8.根据权利要求6所述的方法,还包括以下步骤:

9.根据权利要求1所述的方法,还包括在所述报告步骤之后的以下步骤:

10.根据权利要求9所述的方法,其中所述隔离步骤进一步包括以下步骤:

11.根据权利要求1所述的方法,其中所述出现电源故障的dimm是ddr5dimm。

12.一种信息处理装置,包括

13.根据权利要求12所述的信息处理装置,其中所述一个或多个处理器包括cpu、第一协处理器和第二协处理器;所述一个或多个程序存储在所述存储装置中并被配置为由所述第一协处理器协同第二协处理器和cpu一起执行。

14.根据权利要求13所述的信息处理装置,其中所述第一协处理器是fpga,而所述第二协处理器是基板管理控制器。

15.根据权利要求14所述的信息处理装置,其中所述第一协处理器通过smbus连接到所述出现电源故障的dimm。

技术总结一种识别信息处理设备中出现电源故障的DIMM的方法。该方法包括以下步骤:确定在信息处理系统的多个组件中,出现电源故障的DIMM导致了电源故障;关闭所述信息处理设备,同时继续向所述多个组件提供待机电源;以及报告所述出现电源故障的DIMM的位置和故障类型。识别和隔离出现电源故障的DIMM的过程是完全自动的,不需要用户干预,因此它降低了信息处理设备的服务成本。技术研发人员:刘志君,克里夫顿 E·凯尔,卢晓东,欧阳斌受保护的技术使用者:联想(北京)有限公司技术研发日:技术公布日:2024/1/15

本文地址:https://www.jishuxx.com/zhuanli/20240731/181865.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。