一种机械硬盘故障风险评估方法、机械硬盘和存储介质与流程

2023-02-10 16:48:40 来源：中国专利 TAG：

1.本技术实施例涉及存储领域，尤其涉及一种机械硬盘故障风险评估方法、机械硬盘和存储介质。

背景技术：

2.硬盘故障会造成输入/输出(input/output，i/o)返回慢或超时，超冗余时会导致数据丢失等问题。
3.为了延长硬盘使用寿命，降低硬盘更换成本，需要及时预测出硬盘的故障风险，了解到硬盘发生故障的几率。具体的，可以使用自我监测、分析及报告技术(self-monitoring analysis and reporting technology，smart)、i/o等数据，通过支持向量机(support vector machine,svm)、随机森林、神经网络等统计和机器学习方法预测硬盘的整盘故障或坏块新增。
4.但是当硬盘只是局部故障时，例如机械硬盘(hard disk drive，hdd)的一个磁头或磁道发生故障，但硬盘其他区域仍可正常使用，此时获取到硬盘的整盘发生故障的几率只能评价整个硬盘的故障风险，没有考虑硬盘的局部故障。

技术实现要素：

5.本技术实施例提供一种机械硬盘故障风险评估方法，用于基于机械硬盘的局部区域生产故障风险信息，可以支持对硬盘的局部区域进行隔离，避免了浪费硬盘中可正常使用区域的存储空间，本技术实施例还提供了相应的机械硬盘和计算机可读存储介质。
6.本技术第一方面提供一种机械硬盘故障风险评估方法，包括：获取机械硬盘局部区域内的故障数据；根据局部区域内的故障数据确定局部区域的故障风险信息，局部区域的故障风险信息用于指示局部区域发生故障的几率。
7.本技术中，机械硬盘的局部区域是对机械硬盘进行划分得到的，全部的局部区域组成完整的机械硬盘，局部区域的故障数据为该局部区域内存在的故障数据。
8.该第一方面，获取到机械硬盘局部区域内的故障数据，就可以根据局部区域内的故障数据确定局部区域的故障风险信息，其中局部区域的故障风险信息用于指示局部区域发生故障的几率，由此得到的故障风险信息考虑了硬盘的局部故障，可以支持对硬盘的局部区域进行隔离，避免了浪费硬盘中可正常使用区域的存储空间。
9.在第一方面的一种可能的实现方式中，该方法还包括：当局部区域的故障风险信息所指示的发生故障的几率超出风险线，确定局部区域为机械硬盘的故障区域；对故障区域进行隔离。
10.本技术中的风险线可以是用户预先设置好的。
11.该种可能的实现方式中，确定故障风险信息所指示的发生故障的几率超出风险线的局部区域，然后对该局部区域进行隔离，即只对故障区域进行隔离，使得未故障的局部区域可以继续使用，避免了浪费硬盘中可正常使用区域的存储空间。
12.在第一方面的一种可能的实现方式中，机械硬盘位于存储系统，存储系统包括机械硬盘在内的多块硬盘；多块硬盘构成存储池；存储池包含预留空间；上述步骤对故障区域进行隔离包括：获取故障区域的物理地址；获取物理地址对应在存储池中的逻辑地址；将位于逻辑地址对应的故障区域内的数据搬迁至预留空间。
13.本技术中，存储系统包括存储池，存储池由多块硬盘组成，预留空间为存储池中的部分硬盘。
14.该种可能的实现方式中，获取到故障区域的物理地址后，可以将物理地址转换为对应的逻辑地址，基于该逻辑地址，可以将故障区域的数据搬迁至预留空间，从而实现隔离，提升了方案的可实现性。
15.在第一方面的一种可能的实现方式中，该方法还包括：当预留空间的空间大小小于第一预设值时，从存储池中选择第一硬盘，第一硬盘的故障区域的数量小于第二预设值；其中，第一硬盘是不同于机械硬盘的硬盘；使用第一硬盘的剩余存储空间存储第一硬盘的故障区域中的数据，以释放预留空间中第一硬盘的故障区域占用的空间大小。
16.该种可能的实现方式中，当预留空间的空间大小过小时，需要释放预留空间，因此可以从存储池中选择出故障区域最少的第一硬盘，来用第一硬盘修复自身的故障数据，即使用第一硬盘的剩余存储空间存储第一硬盘的故障区域中的数据，从而可以释放出预留空间中第一硬盘的故障区域占用的空间大小，增加了预留空间的空间大小。
17.在第一方面的一种可能的实现方式中，上述步骤：获取机械硬盘局部区域内的故障数据包括：获取机械硬盘局部区域内的第一不可修复错误计数unc；根据局部区域内的故障数据确定局部区域的故障风险信息包括：根据局部区域内的第一unc的数量确定局部区域的故障风险信息。
18.该种可能的实现方式中，将unc作为故障数据的指标，提升了方案的可实现性。
19.在第一方面的一种可能的实现方式中，上述步骤：获取机械硬盘局部区域内的第一不可修复错误计数unc包括：获取机械硬盘局部区域内的第一unc以及第一unc的时空分布数据，时空分布数据包括第一unc发生的时间以及第一unc位于机械硬盘中的位置；基于时空分布数据预测和统计出unc特征；对第一unc和unc特征进行选择以得到机械硬盘局部区域内的第二unc；根据局部区域内的第一unc的数量确定局部区域的故障风险信息包括：根据局部区域内的第二unc的数量确定局部区域的故障风险信息。
20.该种可能的实现方式中，可以基于unc的时空分布数据预测和统计出新的unc特征，构造出新的扩展的特征，然后从新的unc特征和原本的unc选择出更具代表性的第二unc，将第二unc作为故障数据的指标，提高了故障风险信息风险评估的准确性。
21.在第一方面的一种可能的实现方式中，unc特征包括第一unc的增速信息，上述步骤：根据局部区域内的第二unc的数量确定局部区域的故障风险信息包括：根据局部区域内的第二unc的数量和第一unc的增速信息确定局部区域的故障风险信息。
22.本技术中，第一unc的增速信息为第一unc在预设时间段内增加的速度信息。
23.该种可能的实现方式中，将第二unc和第一unc的增速信息一起作为故障数据的指标，进一步提高了故障风险信息风险评估的准确性。
24.在第一方面的一种可能的实现方式中，局部区域包括机械硬盘的磁头或磁道。
25.该种可能的实现方式中，对机械硬盘划分的局部区域可以为机械硬盘的一个磁
头，也可以为机械硬盘的一个磁道，提升了方案的可实现性。
26.在第一方面的一种可能的实现方式中，上述步骤：获取机械硬盘局部区域内的故障数据包括：获取机械硬盘的整盘维度数据；基于整盘维度数据统计出整盘维度特征；基于整盘维度数据和整盘维度特征确定局部区域的故障数据。
27.该种可能的实现方式中，机械硬盘的整盘维度数据为机械硬盘的整个盘维度的数据，机械硬盘自身可以统计和记录整盘数据，然后基于整盘维度数据还可以进一步统计和扩展出整盘维度特征，然后对整盘维度数据和整盘维度特征进行选择，从而确定局部区域的故障数据，提升了方案的可实现性。
28.在第一方面的一种可能的实现方式中，上述步骤：根据局部区域内的故障数据生成局部区域的故障风险信息包括：将局部区域的故障数据输入至训练好的神经网络模型，训练好的神经网络模型的输入为局部区域的故障数据，训练好的神经网络模型的输出为局部区域的故障风险信息。
29.该种可能的实现方式中，基于有监督或无监督的神经网络模型算法得到局部区域的故障风险信息，提升了方案的可实现性。
30.在第一方面的一种可能的实现方式中，整盘维度数据包括自我监测分析及报告技术数据、输入输出数据和成长缺陷列表数据中的至少一项。
31.该种可能的实现方式中，整盘维度数据具体可以为自我监测分析及报告技术数据、输入输出数据或成长缺陷列表数据，提升了方案的可实现性。
32.本技术第二方面，提供了一种机械硬盘，用于执行上述第一方面或第一方面的任意可能的实现方式中的方法。具体地，该计算机设备包括用于执行上述第一方面或第一方面的任意可能的实现方式中的方法的模块或单元，如：获取单元和第一确定单元。
33.本技术第三方面提供一种机械硬盘，包括处理器和通信接口，所述处理器用于执行第一方面或第一方面的任意可能的实现方式中的方法。
34.本技术第四方面提供一种存储一个或多个计算机执行指令的计算机可读存储介质，当计算机执行指令被处理器执行时，处理器执行如上述第一方面或第一方面任意一种可能的实现方式的方法。
35.本技术第五方面提供一种存储一个或多个计算机执行指令的计算机程序产品，当计算机执行指令被处理器执行时，处理器执行如上述第一方面或第一方面任意一种可能的实现方式的方法。
36.本技术第六方面提供了一种芯片系统，该芯片系统包括至少一个处理器和接口，该接口用于接收数据和/或信号，至少一个处理器用于支持计算机设备实现上述第一方面或第一方面任意一种可能的实现方式中所涉及的功能。在一种可能的设计中，芯片系统还可以包括存储器，存储器，用于保存计算机设备必要的程序指令和数据。该芯片系统，可以由芯片构成，也可以包含芯片和其他分立器件。
附图说明
37.图1为一种集中式存储系统的系统框架示意图；
38.图2为机械硬盘局部区域故障的示意图；
39.图3为本技术实施例提供的机械硬盘故障风险评估方法一实施例示意图；
40.图4为本技术实施例提供的机械硬盘故障风险评估方法另一实施例示意图；
41.图5为本技术实施例提供的机械硬盘故障风险评估方法另一实施例示意图；
42.图6为本技术实施例提供的机械硬盘故障风险评估方法另一实施例示意图；
43.图7为本技术实施例提供的机械硬盘故障风险评估方法另一实施例示意图；
44.图8为本技术实施例提供的机械硬盘一结构示意图；
45.图9为本技术实施例提供的机械硬盘另一结构示意图；
46.图10为本技术实施例提供的机械硬盘另一结构示意图。
具体实施方式
47.下面结合附图，对本技术的实施例进行描述，显然，所描述的实施例仅仅是本技术一部分的实施例，而不是全部的实施例。本领域普通技术人员可知，随着技术发展和新场景的出现，本技术实施例提供的技术方案对于类似的技术问题，同样适用。
48.本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
49.本技术实施例提供一种机械硬盘故障风险评估方法、机械硬盘和存储介质，用于基于机械硬盘的局部区域评估机械硬盘故障的风险，本技术实施例还提供了相应的计算机可读存储介质、计算机程序产品及芯片系统。以下分别进行详细说明。
50.请参阅图1，在图1所示的应用场景中，用户通过应用程序来存取数据。运行这些应用程序的计算机被称为“应用服务器”。应用服务器100可以是物理机，也可以是虚拟机。物理应用服务器包括但不限于桌面电脑、服务器、笔记本电脑以及移动设备。应用服务器100通过光纤交换机110访问存储系统120以存取数据。然而，交换机110只是一个可选设备，应用服务器100也可以直接通过网络与存储系统120通信。
51.图1所示的存储系统120是一个集中式存储系统。集中式存储系统的特点是有一个统一的入口，所有从外部设备来的数据都要经过这个入口，这个入口就是集中式存储系统的引擎。引擎121是集中式存储系统中最为核心的部件，许多存储系统的高级功能都在其中实现。
52.如图1所示，引擎121中有一个或多个控制器，图1以引擎121包含两个控制器为例予以说明。控制器0与控制器1之间具有镜像通道，那么当控制器0将一份数据写入其内存124后，可以通过所述镜像通道将所述数据的副本发送给控制器1，控制器1将所述副本存储在自己本地的内存124中。由此，控制器0和控制器1互为备份，当控制器0发生故障时，控制器1可以接管控制器0的业务，当控制器1发生故障时，控制器0可以接管控制器1的业务，从而避免硬件故障导致整个存储系统的不可用。当引擎121中部署有4个控制器时，任意两个控制器之间都具有镜像通道，因此任意两个控制器互为备份。
53.引擎121还包含前端接口125和后端接口126，其中前端接口125用于与应用服务器
100通信，从而为应用服务器100提供存储服务。而后端接口126用于与硬盘134通信，以扩充存储系统的容量。通过后端接口126，引擎121可以连接更多的硬盘134，从而形成一个非常大的存储资源池。
54.在硬件上，如图1所示，控制器0至少包括处理器123、内存124。处理器123是一个中央处理器(central processing unit，cpu)，用于处理来自存储系统外部(服务器或者其他存储系统)的数据访问请求，也用于处理存储系统内部生成的请求。示例性的，处理器123通过前端端口125接收应用服务器100发送的写数据请求时，会将这些写数据请求中的数据暂时保存在内存124中。当内存124中的数据总量达到一定阈值时，处理器123通过后端端口将内存124中存储的数据发送给硬盘134进行持久化存储。
55.内存124是指与处理器直接交换数据的内部存储器，它可以随时读写数据，而且速度很快，作为操作系统或其他正在运行中的程序的临时数据存储器。内存包括至少两种存储器，例如内存既可以是随机存取存储器，也可以是只读存储器(read only memory,rom)。举例来说，随机存取存储器是动态随机存取存储器(dynamic random access memory,dram)，或者存储级存储器(storage class memory,scm)。dram是一种半导体存储器，与大部分随机存取存储器(random access memory，ram)一样，属于一种易失性存储器(volatile memory)设备。scm是一种同时结合传统储存装置与存储器特性的复合型储存技术，存储级存储器能够提供比硬盘更快速的读写速度，但存取速度上比dram慢，在成本上也比dram更为便宜。然而，dram和scm在本实施例中只是示例性的说明，内存还可以包括其他随机存取存储器，例如静态随机存取存储器(static random access memory，sram)等。而对于只读存储器，举例来说，可以是可编程只读存储器(programmable read only memory,prom)、可抹除可编程只读存储器(erasable programmable read only memory,eprom)等。另外，内存124还可以是双列直插式存储器模块或双线存储器模块(dual in-line memory module，简称dimm)，即由动态随机存取存储器(dram)组成的模块，还可以是固态硬盘(solid state disk,ssd)。实际应用中，控制器0中可配置多个内存124，以及不同类型的内存124。本实施例不对内存124的数量和类型进行限定。此外，可对内存124进行配置使其具有保电功能。保电功能是指系统发生掉电又重新上电时，内存124中存储的数据也不会丢失。具有保电功能的内存被称为非易失性存储器。
56.内存124中存储有软件程序，处理器123运行内存124中的软件程序可实现对硬盘的管理。例如将硬盘抽象化为存储资源池，然后划分为lun提供给服务器使用等。这里的lun其实就是在服务器上看到的硬盘。当然，一些集中式存储系统本身也是文件服务器，可以为服务器提供共享文件服务。
57.控制器1，以及其他图1中未示出的控制器，的硬件组件和软件结构与控制器0类似，这里不再赘述。
58.需要说明的是，图1中只示出了一个引擎121，然而在实际应用中，存储系统中可包含两个或两个以上引擎121，多个引擎121之间做冗余或者负载均衡。
59.图1所示的是一种盘控一体的集中式存储系统。在该系统中，引擎121具有硬盘槽位，硬盘134可直接部署在引擎121中，后端接口126属于可选配置，当系统的存储空间不足时，可通过后端接口126连接更多的硬盘或硬盘框。硬盘134具体可以为机械硬盘。
60.请参阅图2，机械硬盘出现故障时，极大概率是机械硬盘的局部区域出现故障，例
如机械硬盘存在单磁道完整划伤、单磁头划伤、区域划伤或者跨磁道划伤，存在划伤的区域对应的存储空间会出现故障，无法存储数据。
61.下面结合上述集中式存储系统架构和机械硬盘局部区域的故障可能情况对本技术实施例中的机械硬盘故障风险评估方法进行描述，请参阅图3，本技术实施例中机械硬盘故障风险评估方法一个实施例包括：
62.301、获取机械硬盘局部区域内的故障数据。
63.以控制器为例，控制器可以获取一个机械硬盘的故障数据，然后对该机械硬盘进行局部区域的划分，即将整个机械硬盘划分为多个局部区域，多个局部区域组成该完整的机械硬盘，然后获取每个局部区域内的故障数据。
64.示例性的，将机械硬盘划分为局部区域a、局部区域b和局部区域c，机械硬盘的故障数据为10个，那么可以确定出局部区域a内的故障数据为8个，局部区域b内的故障数据为2个，局部区域c内的故障区域为0个。
65.可选的，可以将机械硬盘的一个磁头或一个磁道作为一个局部区域。
66.302、根据局部区域内的故障数据确定局部区域的故障风险信息。
67.当获取到机械硬盘局部区域内的故障数据后，就可以根据局部区域内的故障数据来确定每个局部区域的故障风险信息，其中，局部区域的故障风险信息用于指示局部区域发生故障的几率。
68.示例性的，故障风险信息用故障风险评分等级来表示，评分大于70分为高风险等级，评分在10分至70分之间为中风险等级，评分小于10分为低风险等级，故障风险评分等级越高，则该局部区域发送故障的几率也越高，其中评分可以为局部区域的故障数据的数量的10倍。当局部区域a内的故障数据为8个，那么局部区域a的评分为80分，对应为高风险等级，局部区域b内的故障数据为2个，那么局部区域a的评分为20分，对应为中风险等级，局部区域c内的故障区域为0个，那么局部区域a的评分为0分，对应为低风险等级，由此确定出每个局部区域的故障风险信息。
69.本技术实施例中，获取到机械硬盘局部区域内的故障数据，就可以根据局部区域内的故障数据确定局部区域的故障风险信息，其中局部区域的故障风险信息用于指示局部区域发生故障的几率，由此得到的故障风险信息考虑了硬盘的局部故障，可以支持对硬盘的局部区域进行隔离，避免了浪费硬盘中可正常使用区域的存储空间。
70.请参阅图4，本技术实施例中机械硬盘故障风险评估方法另一个实施例包括：
71.401、获取机械硬盘局部区域内的故障数据。
72.402、根据局部区域内的故障数据确定局部区域的故障风险信息。
73.403、当局部区域的故障风险信息所指示的发生故障的几率超出风险线，确定局部区域为机械硬盘的故障区域。
74.404、对故障区域进行隔离。
75.确定了局部区域的故障风险信息后，可以根据该故障风险信息对对应的局部区域进行隔离，从而避免对整个机械硬盘进行隔离，浪费存储空间。
76.具体的，风险线可以是用户预先设置好的，示例性的，用户设置的风险线为高风险等级，局部区域a内的故障数据为8个，那么局部区域a的评分为80分，对应为高风险等级，局部区域b内的故障数据为2个，那么局部区域a的评分为20分，对应为中风险等级，局部区域c
内的故障区域为0个，那么局部区域a的评分为0分，对应为低风险等级，此时可以确定故障区域为局部区域a，然后只对局部区域a进行隔离，而局部区域b和局部区域c可以继续正常使用，避免了对整个机械硬盘隔离，而释放了局部区域b和局部区域c的存储空间。
77.可选的，机械硬盘位于存储系统中，存储系统包括机械硬盘在内的多块硬盘，而多块硬盘构成存储池(storage pool，pool)，即存储系统包括该存储池，而存储池包含预留空间，预留空间为多块硬盘中的部分硬盘，则上述步骤404：对故障区域进行隔离，具体可以为获取故障区域的物理地址，然后将机械硬盘的故障区域的物理地址转换为对应在存储池中的逻辑地址，从而可以通知存储池记录该故障区域，并将位于逻辑地址对应的故障区域内的数据搬迁至预留空间(over-provisioning，op)，而原来的故障区域不再使用，从而完成隔离。
78.上述步骤可以基于隔离策略来执行，隔离策略可以根据故障区域的区域范围、故障区域的风险评分信息以及预留空间的空间大小等因素来确定。示例性的，当预留空间的空间大小有限，而风险线设置为中风险等级，那么隔离策略可以是先隔离高风险等级的故障区域，当预留空间还有剩余时再隔离中风险等级的故障区域，还可以是只隔离某一区域范围的故障区域，本技术实施例不再赘述。
79.本技术实施例中，确定故障风险信息所指示的发生故障的几率超出风险线的局部区域，然后对该局部区域进行隔离，即只对故障区域进行隔离，使得未故障的局部区域可以继续使用，避免了浪费硬盘中可正常使用区域的存储空间。
80.请参阅图5，本技术实施例中机械硬盘故障风险评估方法另一个实施例包括：
81.501、获取机械硬盘局部区域内的故障数据。
82.502、根据局部区域内的故障数据确定局部区域的故障风险信息。
83.503、当局部区域的故障风险信息所指示的发生故障的几率超出风险线，确定局部区域为机械硬盘的故障区域。
84.504、对故障区域进行隔离。
85.505、当预留空间的空间大小小于第一预设值时，从存储池中选择第一硬盘。
86.当对故障区域进行隔离多次后，存储池中的预留空间可能空间不够，因此需要释放预留空间，具体的，当预留空间的空间大小小于第一预设值时，从存储池中选择第一硬盘，其中，第一硬盘的故障区域的数量小于第二预设值，且第一硬盘是不同于机械硬盘的硬盘。
87.需要说明的是，第一预设值和第二预设值都可以为用户预先设置好的，第一预设值可以为任意的存储空间大小，例如100mb，第二预设值可以为1个，可选的，第一硬盘就是存储池中被隔离的最少的硬盘。
88.506、使用第一硬盘的剩余存储空间存储第一硬盘的故障区域中的数据，以释放预留空间中第一硬盘的故障区域占用的空间大小。
89.获取到第一硬盘后，就可以使用第一硬盘的剩余存储空间存储第一硬盘的故障区域中的数据，因第一硬盘的故障区域足够少，第一硬盘自身的剩余存储空间可以存储，使得存储池的预留空间不用存储第一硬盘的故障区域中的数据，从而释放预留空间中第一硬盘的故障区域占用的空间大小。
90.可选的，为了释放预留空间，还可以从存储池中选择第二硬盘，第二硬盘的故障区
域的数量大于第三预设值，即第二硬盘可以是存储池中被隔离的最多的硬盘，此时可以直接将第二硬盘进行替换，从而释放大量的预留空间。
91.本技术实施例中，当预留空间的空间大小过小时，需要释放预留空间，因此可以从存储池中选择出故障区域最少的第一硬盘，来用第一硬盘修复自身的故障数据，即使用第一硬盘的剩余存储空间存储第一硬盘的故障区域中的数据，从而可以释放出预留空间中第一硬盘的故障区域占用的空间大小，增加了预留空间的空间大小。
92.本技术实施例中，获取到的故障数据可以是机械硬盘的整盘维度的故障数据，还可以是局部维度的故障数据，下面分别进行说明：
93.1、故障数据为机械硬盘的局部维度的故障数据：
94.请参阅图6，本技术实施例中机械硬盘故障风险评估方法另一实施例包括：
95.601、获取机械硬盘局部区域内的第一unc。
96.将机械硬盘的不可修复错误计数(uncorrected error count，unc)作为故障数据使用，第一unc具体可以表示为矩阵，每一列表示为数据属性，每一行为对应的值，并对第一unc进行数据清洗，即对第一unc的数据格式进行格式转换、去重或者缺失值的处理，格式转换可以为去除单位，去重可以为将重复的行删除，缺失值处理可以为将该缺失值对应的行全部删除。
97.可选的，除了获取第一unc，还可以获取第一unc的时空分布数据，时空分布数据包括第一unc发生的时间以及第一unc位于机械硬盘中的位置，因unc具有局部性特点，即硬盘某区域存在unc，则其临近区域存在unc的概率更高，因此可以基于时空分布数据预测和统计出unc特征，示例性的，基于unc时空分布数据构造局部区域的统计量，例如局部区域为磁头或磁道时，统计每个磁头或者每个磁道的unc，或者临近的磁头或磁道的unc的差值，或者基于每个磁头或者每个磁道的unc的数量进行预测，若某个磁头的unc数量过多，预测该磁头附近的磁头也存在unc，从而在第一unc中扩展行和列，得到unc特征，然后基于数据分布、时序波动性、特征相关性和重要度进行特征选择，例如基于皮尔森相关系数(pearson correlation coefficient)，从第一unc和unc特征中选择出第二unc。
98.可选的，还可以统计局部区域a、局部区域b和局部区域c的unc发生的时间，扩展得到每个局部区域unc的在预设时间段内的增量，即第一unc的增速信息。
99.602、根据局部区域内的第一unc的数量确定局部区域的故障风险信息。
100.确定局部区域的故障风险信息的方法可以参照上述步骤302，不同之处仅在于故障数据具体为第一unc，此处不再赘述。
101.可选的，当获取机械硬盘局部区域内的第二unc时，可以将第二unc作为故障数据，例如第一unc为10个，选择得到的第二unc为5个，那么将5个第二unc作为故障数据。
102.可选的，当还获取到第一unc的增速信息时，还可以根据局部区域内的第二unc的数量和第一unc的增速信息共同来确定局部区域的故障风险信息，示例性的，当第一unc的增速信息显示该局部区域的增速越大，那么可以对应的增加风险等级评分的数值，增速越小则对应减少。
103.本技术实施例中，可以基于unc的时空分布数据预测和统计出新的unc特征，构造出新的扩展的特征，然后从新的unc特征和原本的unc选择出更具代表性的第二unc，将第二unc作为故障数据的指标，还可以将第二unc和第一unc的增速信息一起作为故障数据的指
标，提高了故障风险信息风险评估的准确性。
104.2、故障数据为机械硬盘的整盘维度的故障数据：
105.请参阅图7，本技术实施例中机械硬盘故障风险评估方法另一实施例包括：
106.701、获取机械硬盘的整盘维度数据。
107.整盘维度数据可以是自我监测分析及报告技术(self-monitoring analysis and reporting technology，smart)数据，可以是输入输出(input/output，i/o)数据，还可以是成长缺陷列表(grown defected list，glist)数据中的至少一项。获取到整盘维度数据后，还可以对整盘维度数据进行清洗，可以参照步骤601的方法。
108.702、基于整盘维度数据统计出整盘维度特征。
109.703、基于整盘维度数据和整盘维度特征确定局部区域的故障数据。
110.对于整盘维度数据，还可以对其进行扩展，构造差分特征、滑窗累积增量特征等，从而基于已知的整盘维度数据构造出新的行和列，得到整盘维度特征，然后对其进行选择确定局部区域的故障数据。其中，局部区域还可以是使用聚类算法，例如k-means算法进行划分得到的。
111.704、将局部区域的故障数据输入至训练好的神经网络模型。
112.训练好的神经网络模型的输入为局部区域的故障数据，训练好的神经网络模型的输出为局部区域的故障风险信息。
113.本技术实施例中，机械硬盘的整盘维度数据为机械硬盘的整个盘维度的数据，机械硬盘自身可以统计和记录整盘数据，然后基于整盘维度数据还可以进一步统计和扩展出整盘维度特征，然后对整盘维度数据和整盘维度特征进行选择，从而确定局部区域的故障数据，通过神经网络模型得到局部区域的故障风险信息，提升了方案的可实现性。
114.需要说明的是，本技术实施例提供的机械硬盘故障风险评估方法还适用于固态硬盘(solid state drives，ssd)。
115.如图8所示，本技术实施例提供的机械硬盘800的一实施例包括：
116.获取单元801，用于获取机械硬盘局部区域内的故障数据。该获取单元801可以执行上述方法实施例中的步骤301。
117.第一确定单元802，用于根据局部区域内的故障数据确定局部区域的故障风险信息，局部区域的故障风险信息用于指示局部区域发生故障的几率。该第一确定单元802可以执行上述方法实施例中的步骤302。
118.本技术实施例中，获取单元801获取到机械硬盘局部区域内的故障数据，第一确定单元802就可以根据局部区域内的故障数据确定局部区域的故障风险信息，其中局部区域的故障风险信息用于指示局部区域发生故障的几率，由此得到的故障风险信息考虑了硬盘的局部故障，可以支持对硬盘的局部区域进行隔离，避免了浪费硬盘中可正常使用区域的存储空间。
119.如图9所示，本技术实施例提供的机械硬盘900的另一实施例包括：
120.获取单元901，用于获取机械硬盘局部区域内的故障数据。该获取单元901可以执行上述方法实施例中的步骤501。
121.第一确定单元902，用于根据局部区域内的故障数据确定局部区域的故障风险信息，局部区域的故障风险信息用于指示局部区域发生故障的几率。该第一确定单元902可以
component interconnect，pci)总线或扩展工业标准结构(extended industry standard architecture，eisa)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图10中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。
134.在本技术的另一实施例中，还提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，当设备的至少一个处理器执行该计算机执行指令时，设备执行上述图3至图7部分实施例所描述的机械硬盘故障风险评估方法。
135.在本技术的另一实施例中，还提供一种计算机程序产品，该计算机程序产品包括计算机执行指令，该计算机执行指令存储在计算机可读存储介质中；设备的至少一个处理器可以从计算机可读存储介质读取该计算机执行指令，至少一个处理器执行该计算机执行指令使得设备执行上述图3至图7部分实施例所描述的机械硬盘故障风险评估方法。
136.在本技术的另一实施例中，还提供一种芯片系统，该芯片系统包括至少一个处理器和接口，该接口用于接收数据和/或信号，至少一个处理器用于支持实现上述图3至图7部分实施例所描述的机械硬盘故障风险评估方法。在一种可能的设计中，芯片系统还可以包括存储器，存储器，用于保存计算机设备必要的程序指令和数据。该芯片系统，可以由芯片构成，也可以包含芯片和其他分立器件。
137.本技术实施例图8和图9所示的硬盘结构，具体可以由软件实现或者硬件实现，或者由软件和硬件结合实现。
138.所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
139.在本技术所提供的几个实施例中，应该理解到，所公开的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
140.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
141.另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
142.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动第一硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程
序代码的介质。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：计算机实现的方法、设备和计算机程序产品与流程

一种机械硬盘故障风险评估方法、机械硬盘和存储介质与流程

相关文献

最热文献