一种故障处理方法及设备与流程
- 国知局
- 2024-10-15 09:57:15
本申请涉及计算机,尤其涉及一种故障处理方法及设备。
背景技术:
1、近年来,随着互联网技术(internet technology,it)系统分布式架构的普及,逐渐出现了大量由单个节点构建的业务系统。目前,当业务系统中某个节点的操作系统出现故障时,只能人工介入处理,效率较低且耗费人力。
技术实现思路
1、本申请提供一种故障处理方法及设备,用以提升故障处理效率,降低成本。
2、第一方面,本申请提供一种故障处理方法,该方法可应用于包含有多个操作系统的计算节点。具体的,该方法包括:计算节点在接收到第一启动指令后,首先判断预设的启动标识信息在多个操作系统对应的哪个系统盘上。比如,确定预设的启动标识信息设置在多个操作系统中的第一操作系统对应的第一系统盘上,则启动第一操作系统。然后,计算节点在启动第一操作系统后,将第一系统盘上设置的所述启动标识信息删除,并在第二系统盘上设置所述启动标识信息,该第二系统盘是所述多个操作系统中除第一操作系统之外的任一第二操作系统对应的系统盘。最后,在检测到当前运行的第一操作系统出现故障时,在确定所述启动标识信息设置在所述第二系统盘时,启动第二操作系统接替第一操作系统工作。
3、通过上述技术方案,当计算节点的操作系统出现故障时,可根据启动标识信息自动将操作系统切换到其它正常的操作系统,无需人工参与重启过程,能够提升故障处理效率,提升用户体验。
4、在一种可能的实现中,计算节点在检测到当前运行的所述第一操作系统出现故障之前,所述方法还包括:计算节点将所述第一操作系统的第一配置文件同步到所述第二系统盘。
5、通过上述技术方案,在第一操作系统启动之后,计算节点可将第一操作系统的第一配置文件同步给第二系统盘,以保证对端系统盘的数据一致性。
6、在一种可能的实现中,计算节点启动所述第二操作系统接替所述第一操作系统工作之后,所述方法还包括:在所述第一操作系统的故障消除后,将所述第二系统盘上设置的所述启动标识信息删除,并在所述第一系统盘上设置所述启动标识信息。
7、通过上述技术方案,当第二操作系统接替第一操作系统继续进行工作后,可将第二系统盘的启动标识信息更新到第一系统盘上,以使得当第一操作系统恢复正常运行时,后续可以重启第一操作系统,实现循环启动操作系统。
8、在一种可能的实现中,在所述第一系统盘上设置所述启动标识信息之后,还包括:计算节点确定所述第二系统盘出现故障,在确定出所述启动标识信息设置在所述第一系统盘时,则启动所述第一操作系统接替所述第二操作系统工作。
9、通过上述技术方案,当检测到对端操作系统的系统盘故障时,可将启动标识信息恢复到原系统盘上,避免由于系统盘硬件故障导致的数据同步异常的情况发生。
10、在一种可能的实现中,计算节点启动所述第二操作系统接替所述第一操作系统工作之后,所述方法还包括:计算节点将所述第二操作系统的第二配置文件同步到所述第一系统盘。通过上述技术方案,可将第二配置文件同步给第一系统盘,以保证两个数据盘上的数据一致。
11、在一种可能的实现中,所述方法还包括:计算节点将第二系统盘上的第一配置文件发送给第一系统盘。然后计算节点根据所述第一配置文件对所述第一操作系统进行数据恢复。
12、通过上述技术方案,可利用第一系统盘在发生故障之前同步给第二系统盘的文件对第一系统盘对应的操作系统进行数据恢复。
13、在一种可能的实现中,计算节点将所述第一操作系统的第一配置文件同步到所述第二系统盘之前,所述方法还包括:计算节点对所述第一配置文件的文件变化状态进行检测;根据检测结果确定所述第一配置文件的文件变化状态为文件大小修改或者文件内容修改。
14、在一种可能的实现中,计算节点将所述第二操作系统的第二配置文件同步到所述第一系统盘之前,所述方法还包括:计算节点对所述第二配置文件的文件变化状态进行检测,根据检测结果确定所述第二配置文件的文件变化状态为文件大小修改或者文件内容修改。
15、通过上述技术方案,可以避免由于误操作等原因导致的故障同步到对端系统盘。
16、第二方面,本申请提供一种故障处理装置,该装置可包括:接收模块和处理模块。示例性的,接收模块卡用于接收第一启动指令。处理模块可用于将所述第一系统盘上设置的所述启动标识信息删除,并在第二系统盘上设置所述启动标识信息,所述第二系统盘是所述多个操作系统中除所述第一操作系统之外的任一第二操作系统对应的系统盘;并在检测到当前运行的所述第一操作系统出现故障时,在确定出所述启动标识信息设置在所述第二系统盘时,则启动所述第二操作系统接替所述第一操作系统工作。
17、第三方面,本申请还提供一种计算设备集群,包括至少一个计算设备,每个计算设备包括处理器和存储器;所述至少一个计算设备的处理器用于执行所述至少一个计算设备的存储器中存储的指令,以使得所述计算设备集群执行上述第一方面或第一方面任一种可能实现方式中所述的方法。
18、第四方面,本申请还提供一种计算机可读存储介质,包括计算机程序指令,当所述计算机程序指令由计算设备集群执行时,所述计算设备集群执行上述第一方面或第一方面任一种可能实现方式中所述的方法。
19、第五方面,本申请还提供一种包含指令的计算机程序产品,当所述指令被计算设备集群运行时,使得所述计算设备集群执行上述第一方面或第一方面任一种可能实现方式中所述的方法。
20、关于第二方面至第五方面各种实施方式所带来的技术效果,可以参考对于第一方面或第一方面的各种实施方式的技术效果的介绍,在此处不作过多赘述。
技术特征:1.一种故障处理方法,其特征在于,所述方法应用于包含有多个操作系统的计算节点,所述方法包括:
2.如权利要求1所述的方法,其特征在于,所述计算节点在检测到当前运行的所述第一操作系统出现故障之前,所述方法还包括:
3.如权利要求1所述的方法,其特征在于,所述计算节点启动所述第二操作系统接替所述第一操作系统工作之后,所述方法还包括:
4.如权利要求3所述的方法,其特征在于,在所述第一系统盘上设置所述启动标识信息之后,还包括:
5.如权利要求3或4所述的方法,其特征在于,在所述第一系统盘上设置所述启动标识信息之后,所述方法还包括:
6.如权利要求2所述的方法,其特征在于,所述计算节点将所述第一操作系统的第一配置文件同步到所述第二系统盘之前,所述方法还包括:
7.如权利要求5所述的方法,其特征在于,所述计算节点将所述第二操作系统的第二配置文件同步到所述第一系统盘之前,所述方法还包括:
8.一种计算设备集群,其特征在于,包括至少一个计算设备,每个计算设备包括处理器和存储器;
9.一种计算机可读存储介质,其特征在于,包括计算机程序指令,当所述计算机程序指令由计算设备集群执行时,所述计算设备集群执行如权利要求1-7中任一项所述的方法。
10.一种包含指令的计算机程序产品,其特征在于,当所述指令被计算设备集群运行时,使得所述计算设备集群执行如权利要求1-7中任一项所述的方法。
技术总结本申请提供一种故障处理方法及设备,方法可应用于包含有多个操作系统的计算节点,具体的,计算节点在接收到第一启动指令后,确定预设的启动标识信息设置在多个操作系统中的第一操作系统对应的第一系统盘上,则启动第一操作系统;然后,将第一系统盘上设置的启动标识信息删除,并在除第一操作系统之外的第二操作系统对应的第二系统盘上设置启动标识信息。当检测到当前运行的第一操作系统出现故障时,在确定出启动标识信息设置在第二系统盘时,自动启动第二操作系统接替第一操作系统工作。无需人工介入重启,能够提高故障处理效率,提升用户体验。技术研发人员:雷和阳,周钊,张海艳受保护的技术使用者:华为技术有限公司技术研发日:技术公布日:2024/10/10本文地址:https://www.jishuxx.com/zhuanli/20241015/315864.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表