技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种多层堆叠介质的管理方法及相关设备与流程  >  正文

一种多层堆叠介质的管理方法及相关设备与流程

  • 国知局
  • 2024-09-05 14:43:08

本技术涉及计算机,尤其涉及一种多层堆叠介质的管理方法、装置、计算设备、计算机非易失性可读存储介质、计算机程序产品。

背景技术:

1、计算设备,也称作计算机,通常采用冯诺依曼体系结构,在该体系结构中,计算功能由处理器如中央处理器(central processing unit,cpu)完成,存储功能由存储器如双列直插式存储器模块(dual in-line memory module,dimm)完成。上述计算设备可以部署在客户的使用环境(也称作用户环境、现网)中,从而提供计算和存储能力。统计数据表明,用户环境中的计算设备发生故障的根因主要是dimm发生故障。为降低生产环境失效率,可以通过温度电压拉偏情况下通过算法激发故障等故障检测方法,对dimm进行故障检测,从而提前检测出故障概率高的dimm,提高出厂的dimm的可靠性。

2、随着cpu算力的提升,计算设备对于存储(尤其是内存)有了更高的要求。基于此,多层堆叠介质如高带宽存储器(high bandwidth memory,hbm)应运而生。hbm由于具有较高的带宽,被广泛应用于各类计算设备(如服务器)中。

3、然而,hbm等多层堆叠介质采用多层堆叠的结构,对dimm进行故障激发的方法并不适用于hbm,进而导致部署包括hbm的计算设备在用户环境的故障率激增。

技术实现思路

1、本技术提供了一种多层堆叠介质的管理方法,该方法通过在多层堆叠介质的时序参数偏离标准值后进行测试获得时序裕量,基于时序裕量进行健康状态预测,基于预测结果对多层堆叠介质进行管理,例如在多层堆叠介质的健康状态为异常时进行替换或隔离,降低用户环境的故障率,保障用户环境的稳定性。本技术还提供了上述方法对应的装置、计算设备、计算机非易失性可读存储介质、计算机程序产品。

2、第一方面,本技术提供一种多层堆叠介质的管理方法。该方法可以由计算设备执行。该计算设备可以是用户环境中的计算设备。其中,计算设备可以为终端或服务器。终端包括但不限于智能手机、平板电脑、智能穿戴设备。该计算设备包括多层堆叠介质,例如包括高带宽存储器(high bandwidth memory,hbm)。

3、具体地,计算设备可以获取多层堆叠介质的至少一个时序参数在偏离标准值后进行测试所得的至少一个时序参数的时序裕量,该时序参数是从时间维度描述所述多层堆叠介质的性能的参数,例如可以包括写恢复延时(write recovery time,twr),时序裕量是使得多层堆叠介质的性能满足要求时时序参数的测试值与标准值(通常是设计值或典型值)的最大偏移量,该最大偏移量能够反映多层堆叠介质当前对时序参数偏移标准值的最大容忍度,因而可以根据至少一个时序参数的时序裕量,预测多层堆叠介质的健康状态,并根据多层堆叠介质的健康状态,对多层堆叠介质进行管理。

4、该方法中,计算设备基于时序参数偏离标准值后进行测试所得的时序裕量预测多层堆叠介质的健康状态,由于时序裕量受堆叠结构的影响比较小,因此,基于时序裕量进行预测具有较高可靠性,相应地,基于高可靠性的预测结果对多层堆叠介质进行管理也具有较高可靠性,例如在多层堆叠介质的健康状态为异常(如不健康)时,可以对多层堆叠介质进行隔离或替换,从而降低用户环境故障率。即使多层堆叠介质在出厂前未能被提前识别,也能在用户环境中对该多层堆叠介质的健康状态进行持续监控、有效管理,保障了用户环境的稳定性。

5、在一些可能的实现方式中,计算设备对多层堆叠介质的健康检测可以根据需求在不同阶段执行。例如,用户对于启动时间的容忍度较高,可以选择在计算设备的上电初始化阶段执行对多层堆叠介质的健康检测。又例如,用户对于启动时间的容忍度较低,可以选择在计算设备的运行阶段执行对多层堆叠介质的健康检测。在不同阶段,计算设备可以通过不同方式实现对多层堆叠介质的健康检测。当所述计算设备处于上电初始化阶段时,计算设备可以获取所述多层堆叠介质的至少一个时序参数在偏离标准值后进行存储器内建自测试(memory built-in self test,mbist)所得的所述至少一个时序参数的时序裕量。又例如,当所述计算设备处于运行阶段时,计算设备可以获取所述多层堆叠介质的至少一个时序参数在偏离标准值后进行读写测试或基于算子的压力测试所得的所述至少一个时序参数的时序裕量。

6、该方法支持在不同阶段采用相应的测试方式对多层堆叠介质进行测试,提高了适用性,能够满足不同的业务需求。例如,在运行阶段对多层堆叠介质进行测试时可以避免启动时间过长,满足用户对启动时间的需求。

7、在一些可能的实现方式中,计算设备包括处理器,该处理器可以是支持通用计算的处理器,或者是适应某个特定领域中的常见应用和算法的处理器,也称作特定域架构(domain specific architecture,dsa)处理器。处理器可以包括多个缓存。处理器中还包括算子,算子可以是预提供的算子或者是用户自定义的算子,该算子是处理器中用于实现计算逻辑(例如是用户定义的特定计算逻辑)的计算单元。相应地,基于算子的压力测试可以通过多个缓存对多层堆叠介质并发操作实现。

8、在该方法中,基于算子的压力测试能够通过上述混合操作,对多层堆叠介质施加更大的读写应力,有利于提升检测出多层堆叠介质潜在缺陷的概率,如此可以将存在潜在缺陷的多层堆叠介质提前检出并进行替换或隔离等管理,保障用户环境的安全性。

9、在一些可能的实现方式中,计算设备可以将至少一个时序参数的时序裕量或时序裕量的衰减幅度与至少一个时序参数对应的阈值进行比较,根据比较结果预测所述多层堆叠介质的健康状态。

10、其中,计算设备可以比较时序裕量和相应的阈值确定时序裕量的富裕程度,进而根据富裕程度预测多层堆叠介质的健康状态。时序裕量对应的阈值可以根据经验值设置。例如,多层堆叠介质的厂商可以通过对多层堆叠介质进行大量测试,获得时序裕量与剩余寿命的关系。基于该时序裕量与剩余寿命的关系可以设置时序裕量对应的阈值。在确定时序裕量的富裕程度时,可以定性评估,也可以定量评估。其中,定性评估可以是比较时序裕量与一个或多个阈值的大小,确定富裕级别,定量评估可以是基于时序裕量与阈值的差或商确定量化的富裕程度。

11、计算设备也可以将第一轮测试获得的时序裕量作为时序裕量的初始值,然后根据本轮测试后时序裕量的最小值以及初始值,确定至少一个时序参数的时序裕量的衰减幅度。计算设备可以将至少一个时序参数的时序裕量的衰减幅度与对应的阈值进行比较,确定时序裕量的富裕程度,该富裕程度能够反映多层堆叠介质的健康状态。

12、该方法支持采用不同方式确定时序裕量的富裕程度,进而根据富裕程度预测多层堆叠介质的健康状态,具有较高准确度。

13、在一些可能的实现方式中,至少一个时序参数包括目标参数,目标参数对应的阈值包括第一阈值和第二阈值,其中,第一阈值小于所述第二阈值。相应地,当目标参数的时序裕量小于所述第一阈值,则说明时序裕量小,运行老化导致的时序失效风险大,预期该多层堆叠介质的寿命短,计算设备可以确定多层堆叠介质的健康状态为异常,当目标参数的时序裕量大于或等于所述第一阈值且小于或等于第二阈值,则说明时序裕量中等,运行老化导致的时序失效风险中等,预期寿命相对较长,计算设备可以确定多层堆叠介质的健康状态为劣化,当目标参数的时序裕量大于所述第二阈值,则说明时序裕量高,运行老化导致的时序失效风险小,预期寿命长,计算设备可以确定所述多层堆叠介质的健康状态为正常。

14、该方法中,计算设备设置多个阈值,将时序裕量或时序裕量的衰减幅度与多个阈值分别比较,可以实现细粒度地评估时序裕量的富裕程度,进而实现精细化地评估多层堆叠介质的健康状态(或寿命)。

15、在一些可能的实现方式中,计算设备根据多层堆叠介质的健康状态,对多层堆叠介质进行管理可以包括如下多种情况:当多层堆叠介质的健康状态为异常,计算设备向用户发送告警;当多层堆叠介质的健康状态为劣化,提高检测频率,并按照提高后的检测频率对所述多层堆叠介质进行下一轮健康检测,当所述多层堆叠介质的健康状态为正常,按照当前检测频率对所述多层堆叠介质进行下一轮健康检测。

16、该方法针对多层堆叠介质的不同健康状态,分别提出了相应的管理方式,实现了对不同健康状态的多层堆叠介质进行针对性管理,保障用户环境的稳定性。

17、在一些可能的实现方式中,当所述多层堆叠介质的健康状态为异常,计算设备还可以对所述多层堆叠介质进行隔离或替换。该方法通过自动对多层堆叠介质进行隔离或替换,一方面可以避免人工隔离或替换前发生故障,影响用户环境的稳定性,另一方面降低了人力成本和时间成本。

18、第二方面,本技术提供一种多层堆叠介质的管理装置。该装置可以应用于计算设备,所述计算设备包括多层堆叠介质。该装置可以包括多个功能单元,多个功能单元可以协同实现如本技术第一方面或第一方面的任一种实现方式所述的多层堆叠介质的管理方法。

19、第三方面,本技术提供一种计算设备。所述计算设备包括多层堆叠介质、基本输入输出系统(basic input/output system,bios)和处理器。其中,多层堆叠介质、bios和处理器进行相互的通信。bios用于对表征多层堆叠介质的性能的至少一个时序参数进行配置以使得所述时序参数偏离标准值,所述处理器执行计算机可读指令,以执行上述第一方面或第一方面的任一种实现方式所述的多层堆叠介质的管理方法。

20、第四方面,本技术提供一种计算机非易失性可读存储介质。计算机非易失性可读存储介质可以包括但不限于快闪存储器、硬盘(hard disk drive,hdd)、固态硬盘(solidstate drive,ssd)。所述计算机非易失性可读存储介质中存储有指令,所述指令指示计算设备执行上述第一方面或第一方面的任一种实现方式所述的多层堆叠介质的管理方法。

21、第五方面,本技术提供了一种包含指令的计算机程序产品,当其在计算设备上运行时,使得计算设备执行上述第一方面或第一方面的任一种实现方式所述的多层堆叠介质的管理方法。

22、本技术在上述各方面提供的实现方式的基础上,还可以进行进一步组合以提供更多实现方式。

本文地址:https://www.jishuxx.com/zhuanli/20240905/287806.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。