故障处理方法、产品、设备及介质与流程
- 国知局
- 2024-08-02 12:42:34
本发明涉及计算机,特别是涉及一种故障处理方法、一种计算机程序产品、一种电子设备及一种存储介质。
背景技术:
1、在大规模集群环境中,网络稳定性对于整个系统的性能和可靠性至关重要。网络是分布式系统中节点间通信的媒介,网络的稳定性直接影响到数据传输的效率和速度。然而,网络故障问题在大规模集群中往往又时常发生,不稳定的网络可能导致数据包丢失、延迟增加,进而影响整个集群的处理性能。
技术实现思路
1、鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种故障处理方法、一种计算机程序产品、一种电子设备及一种存储介质。
2、第一方面,本发明实施例公开了一种故障处理方法,应用于服务器集群,所述服务器集群包括多个计算节点和管理节点,所述方法包括:
3、按照待测虚拟网络地址对应的定时检测周期,遍历所有管理节点的虚拟网络地址管理服务,获取所述待测虚拟网络地址在所述服务器集群中的数目;
4、根据所述待测虚拟网络地址的数目确定网络状态,根据所述网络状态确定故障处理方法。
5、如上述方法,可选地,所述根据所述待测虚拟网络地址的数目确定网络状态,包括:
6、若所述待测虚拟网络地址的数目等于1,则确定所述服务器集群网络正常;
7、否则,确定所述服务器集群发生网络故障。
8、如上述方法,可选地,所述根据所述网络状态确定故障处理方法,包括:
9、若所述待测虚拟网络地址的数目大于1,则
10、在其中一个管理节点中保留所述待测虚拟网络地址,在其他管理节点中的清除所述待测虚拟网络地址;
11、若所述待测虚拟网络地址的数目为0,则在所述所有管理节点中重启所述虚拟网络地址管理服务。
12、如上述方法,可选地,按照待测虚拟网络地址对应的定时检测周期,遍历所有管理节点的虚拟网络地址管理服务之前,还包括:
13、根据所述服务器集群中每个虚拟网络地址的紧急程度,确定每个虚拟网络地址对应的定时检测周期。
14、如上述方法,可选地,还包括:
15、若所述服务器集群中第一虚拟网络地址发生故障,则第二虚拟网络地址必发生故障,则确定所述第一虚拟网络地址与所述第二虚拟网络地址具有依赖关系;
16、将所述第一虚拟网络地址的定时检测周期和所述第二虚拟网络地址的定时检测周期设置为同一个定时检测周期。
17、如上述方法,可选地,还包括:
18、若第一虚拟网络地址与第二虚拟网络地址不具有依赖关系,则将所述第一虚拟网络地址的定时检测周期和所述第二虚拟网络地址的定时检测周期设置为两个不同的定时检测周期。
19、如上述方法,可选地,所述在其中一个管理节点中保留所述待测虚拟网络地址,在其他管理节点中清除所述待测虚拟网络地址,包括:
20、遍历登录所有管理节点的虚拟网络地址管理服务;
21、将存在所述待测虚拟网络地址的管理节点按遍历顺序记录在遍历列表中;
22、清除所述遍历列表中除第一个管理节点以外的其他管理节点中的所述待测虚拟网络地址。
23、如上述方法,可选地,所述在其中一个管理节点中保留所述待测虚拟网络地址,在其他管理节点中清除所述待测虚拟网络地址,包括:
24、遍历登录所有管理节点的虚拟网络地址管理服务;
25、将存在所述待测虚拟网络地址的管理节点按遍历顺序记录在遍历列表中;
26、从所述遍历列表中随机选择一个管理节点作为保留节点;
27、清除所述遍历列表中除所述保留节点以外的其他管理节点中的所述待测虚拟网络地址。
28、如上述方法,可选地,所述在其中一个管理节点中保留所述待测虚拟网络地址,在其他管理节点中清除所述待测虚拟网络地址,包括:
29、遍历登录所有管理节点的虚拟网络地址管理服务;
30、将存在所述待测虚拟网络地址的管理节点按遍历顺序记录在遍历列表中;
31、清除所述遍历列表中除最后一个管理节点以外的其他管理节点中的所述待测虚拟网络地址。
32、如上述方法,可选地,所述在其中一个管理节点中保留所述待测虚拟网络地址,在其他管理节点中清除所述待测虚拟网络地址,包括:
33、遍历登录所有管理节点的虚拟网络地址管理服务;
34、将存在所述待测虚拟网络地址的管理节点按遍历顺序记录在遍历列表中;获取所述遍历列表中优先级最高的管理节点作为保留节点;
35、清除所述遍历列表中除所述保留节点以外的其他管理节点中的所述待测虚拟网络地址。
36、如上述方法,可选地,遍历登录所有管理节点的虚拟网络地址管理服务之前,还包括:
37、确定每个管理节点的优先级。
38、如上述方法,可选地,所述遍历所有管理节点的虚拟网络地址管理服务,获取所述待测虚拟网络地址在所述服务器集群中的数目,包括:
39、遍历登录所有管理节点的虚拟网络地址管理服务;
40、记录每个管理节点中所述待测虚拟网络地址的数目;
41、将所有管理节点中所述待测虚拟网络地址的数目之和,作为所述待测虚拟网络地址在所述服务器集群中的数目。
42、第二方面,本发明实施例公开了一种计算机程序产品,应用于服务器集群,所述服务器集群包括多个计算节点和管理节点,所述计算机程序产品包括:包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现如上述第一方面中任一项所述的故障处理方法的步骤。
43、第三方面,本发明还公开了一种电子设备,包括:处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上述第一方面中任一项所述的故障处理方法的步骤。
44、第四方面,本发明还公开了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上述第一方面中任一项所述的故障处理方法的步骤。
45、本发明实施例包括以下优点:
46、通过设置虚拟网络地址对应的定时检测周期,避免非网络故障引起的虚拟ip丢失问题造成的网络处理,在定时检测周期到达时,通过检测虚拟网络地址在服务器集群中的数目分析当前的网络状态,针对不同的网络状态采用不同的故障处理方法进行处理,网络故障恢复能力确保了训练任务即使在网络问题发生时也能持续进行,避免了因中断而导致的训练进度丢失,提高了集群服务的稳定性。
技术特征:1.一种故障处理方法,其特征在于,应用于服务器集群,所述服务器集群包括多个计算节点和管理节点,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述待测虚拟网络地址的数目确定网络状态,包括:
3.根据权利要求2所述的方法,其特征在于,所述根据所述网络状态确定故障处理方法,包括:
4.根据权利要求1所述的方法,其特征在于,按照待测虚拟网络地址对应的定时检测周期,遍历所有管理节点的虚拟网络地址管理服务之前,还包括:
5.根据权利要求4所述的方法,其特征在于,还包括:
6.根据权利要求5所述的方法,其特征在于,还包括:
7.根据权利要求3所述的方法,其特征在于,所述在其中一个管理节点中保留所述待测虚拟网络地址,在其他管理节点中清除所述待测虚拟网络地址,包括:
8.根据权利要求3所述的方法,其特征在于,所述在其中一个管理节点中保留所述待测虚拟网络地址,在其他管理节点中清除所述待测虚拟网络地址,包括:
9.根据权利要求3所述的方法,其特征在于,所述在其中一个管理节点中保留所述待测虚拟网络地址,在其他管理节点中清除所述待测虚拟网络地址,包括:
10.根据权利要求3所述的方法,其特征在于,所述在其中一个管理节点中保留所述待测虚拟网络地址,在其他管理节点中清除所述待测虚拟网络地址,包括:
11.根据权利要求10所述的方法,其特征在于,遍历登录所有管理节点的虚拟网络地址管理服务之前,还包括:
12.根据权利要求1所述的方法,其特征在于,所述遍历所有管理节点的虚拟网络地址管理服务,获取所述待测虚拟网络地址在所述服务器集群中的数目,包括:
13.一种计算机程序产品,包括计算机程序/指令,其特征在于,所述计算机程序/指令被处理器执行时实现权利要求1-12中任一项所述的故障处理方法的步骤。
14.一种电子设备,其特征在于,包括:处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1-12中任一项所述的故障处理方法的步骤。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1-12中任一项所述的故障处理方法的步骤。
技术总结本发明实施例提供了一种人工智能训练平台网络故障处理方法、产品、设备及介质,涉及计算机技术领域,该方法包括:按照待测虚拟网络地址对应的定时检测周期,遍历所有管理节点的虚拟网络地址管理服务,获取待测虚拟网络地址在服务器集群中的数目;根据待测虚拟网络地址的数目确定网络状态,根据网络状态确定故障处理方法,本发明实施例通过设置虚拟IP对应的定时检测周期,在定时检测周期到达时,通过检测虚拟IP在服务器集群中的数目分析当前的网络状态,针对不同的网络状态采用不同的故障处理方法进行处理,网络故障恢复能力确保了训练任务即使在网络问题发生时也能持续进行,提高了集群服务的稳定性。技术研发人员:卢冰受保护的技术使用者:苏州元脑智能科技有限公司技术研发日:技术公布日:2024/8/1本文地址:https://www.jishuxx.com/zhuanli/20240802/237450.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表