技术新讯 > 信息存储应用技术 > 用于防止电子设备中的存储器故障的设备和方法与流程  >  正文

用于防止电子设备中的存储器故障的设备和方法与流程

  • 国知局
  • 2024-07-31 19:39:39

背景技术:

1、动态随机存取存储器(dynamic random-access memory,dram)中的错误是现代计算集群中的硬件故障的常见形式。故障通常在硬件替换成本和服务中断方面都是昂贵的。最终用户(诸如客户服务)和原始设备制造商(original equipment manufacturer,oem)对有效的存储器错误处理都具有高要求。

技术实现思路

技术特征:

1.一种用于管理存储器电路(202)的修复的控制装置(20),所述控制装置包括处理电路(24),其被配置为:

2.根据权利要求1所述的控制装置,其中,所述处理电路被配置为记录来自所述存储器电路的存储器错误通知,并且基于所述存储器错误通知来确定所述得分。

3.根据权利要求1所述的控制装置,其中,所述处理电路被配置为利用经训练的预测器处理所述存储器电路的所述存储器错误通知以确定所述得分。

4.根据权利要求3所述的控制装置,其中,所述经训练的预测器是经训练的机器学习模型。

5.根据权利要求3所述的控制装置,其中,所述经训练的预测器基于历史存储器错误数据集来训练。

6.根据权利要求5所述的控制装置,其中,所述历史存储器错误数据集包括故障存储器电路的故障数据,所述故障数据包括故障位置数据。

7.根据权利要求5所述的控制装置,其中,所述经训练的预测器基于加权历史存储器错误数据集来训练,其中执行加权来强调错误分类的样本和/或存储器错误样本。

8.根据权利要求1所述的控制装置,其中,所述处理电路被配置为基于所述存储器电路的温度、错误的数量、可校正错误的数量、不可校正错误的数量、所述存储器电路的制造数据和所述存储器电路的修复历史中的至少一个来确定所述得分。

9.根据权利要求1所述的控制装置,其中,所述得分与所述存储器电路的存储器位置相关联,并且所述存储器位置由双列直插存储器模块dimm标识符、存储体、行、列和单元中的至少一个来标识。

10.根据权利要求1所述的控制装置,其中,触发所述修复包括调用封装后修复处理程序或运行时封装后修复处理程序。

11.根据权利要求10所述的控制装置,其中,所述封装后修复处理程序或运行时封装后修复处理程序通过指示由系统管理中断控制器提供的修复处理程序执行封装后修复过程来触发。

12.根据权利要求10所述的控制装置,其中,所述封装后修复处理程序或运行时封装后修复处理程序通过指示由托管在包括所述控制装置的计算设备上的操作系统提供的修复处理程序执行封装后修复过程来触发。

13.根据权利要求1所述的控制装置,其中,触发所述修复过程包括发起使用电熔丝方案的故障行地址修复操作。

14.根据权利要求1所述的控制装置,其中,所述处理电路被配置为触发所述存储器电路的存储器压力测试,并且基于在所述存储器压力测试期间或之后生成的存储器错误通知来确定所述得分。

15.根据权利要求1所述的控制装置,其中,所述处理电路被配置为在触发所述修复过程之前触发操作系统的执行的挂起,并且在所述修复过程之后触发所述操作系统的所述执行的继续。

16.根据权利要求15所述的控制装置,其中,所述处理电路被配置为触发在系统管理随机存取存储器smram中保存处理器的状态。

17.根据权利要求1所述的控制装置,其中,所述处理电路包括中央处理单元、人工智能芯片、神经网络芯片、向量神经网络指令芯片和深度学习芯片中的至少一个。

18.一种计算设备(200),包括:

19.根据权利要求18所述的计算设备,其中,所述计算设备包括系统管理中断控制器(204),其中,所述系统管理中断控制器(204)被配置为提供用于触发所述修复过程的修复处理程序,其中,所述控制装置的所述处理电路被配置为经由所述修复处理程序控制所述系统管理中断控制器以在所述得分达到阈值时触发所述存储器电路的所述至少一个存储器单元的所述修复过程。

20.根据权利要求18所述的计算设备,其中,所述计算设备被配置为托管操作系统,其中,所述操作系统被配置为提供用于触发所述修复过程的修复处理程序,其中,所述控制装置的所述处理电路被配置为指示由所述操作系统提供的所述修复处理程序在所述得分达到阈值时触发所述存储器电路的所述至少一个存储器单元的所述修复过程。

21.根据权利要求18所述的计算设备,其中,所述计算设备被配置为托管操作系统,其中,所述操作系统被配置为提供所述控制装置的功能。

22.根据权利要求18所述的计算设备,包括实施所述控制装置的所述处理电路的一个或多个处理器(206),其中,所述一个或多个处理器被配置为在系统管理模式smm中或在所述一个或多个处理器的安全执行环境中提供所述控制装置的所述功能。

23.一种用于管理存储器电路的修复的方法,所述方法包括:

24.一种具有程序代码的计算机程序,当所述计算机程序在计算机、处理器或可编程硬件部件上执行时,所述程序代码用于执行根据权利要求13所述的方法。

技术总结各种示例涉及用于管理存储器电路的修复的控制装置、控制设备、方法和计算机程序,并且涉及对应的计算设备。该控制装置包括处理电路,其被配置为确定存储器电路的至少一个存储器单元的存储器故障概率的得分,并且当得分达到阈值时触发存储器电路的至少一个存储器单元的修复过程。技术研发人员:邬正龙,步道成,吴都健,李玉福,文森特·齐默受保护的技术使用者:英特尔公司技术研发日:技术公布日:2024/2/21

本文地址:https://www.jishuxx.com/zhuanli/20240731/183462.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。