技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种云平台故障检测及运维系统、方法、设备及存储介质与流程 > 正文

一种云平台故障检测及运维系统、方法、设备及存储介质与流程

国知局
2024-08-30 14:40:14

本发明涉及云计算领域，特别涉及一种云平台故障检测及运维系统、方法、设备及存储介质。

背景技术：

1、随着云计算的发展，政府、企业上云越来越广泛，基于云计算技术构建的云平台，集成了软件和服务，提供了可靠、灵活、可扩展的方式来构建、部署和管理服务，云平台可以屏蔽底层物理机异构设备的复杂性和差异性等，支持统一集中供应计算、存储、网络等资源。

2、随着企业将更多业务迁移到云环境，云平台的稳定性和可靠性变得至关重要。一旦发生故障，可能会导致业务中断、数据丢失、用户体验下降等问题，及时发现故障并进行故障恢复，可保证云平台服务的稳定性和可用性，提升用户体验，同时及时预警潜在的更大问题，可减少业务中断的风险。

3、虚拟机的本质是通过软件模拟的具有完整硬件系统功能的、运行在一个完全隔离环境中的完整计算机系统，在物理服务器中创建虚拟机时，需要将实体物理服务器的内存、cpu（central processing unit，中央处理器）等进行虚拟化，然后将其分配给虚拟机。因此，当物理服务器发生异常故障或集群关键指标异常时，会影响客户业务，导致正在运行的用户业务被意外中断，虚拟机的高可用性对于保障系统的稳定运行至关重要。

4、一旦云平台产生了告警，如果只靠运维人员进行故障定位和恢复难免存在效率低下的问题，而如果只考虑单一告警，没有对集群指标进行全面分析，可能出现故障定位根因不准确的问题，无法预警和避免潜在问题。因此，从多维度对故障进行评估，定位出根因并采取合适的恢复手段是必要的。

技术实现思路

1、有鉴于此，本发明的目的在于提供一种云平台故障检测及运维系统、方法、设备及存储介质，能够提升故障处理准确性，提高故障定位和恢复效率，降低运维成本，实现无人值守故障恢复。其具体方案如下：

2、第一方面，本技术公开了一种云平台故障检测及运维系统，包括：

3、告警信息推送模块，用于在云平台的告警系统中配置告警推送，以便基于所述告警推送通过预先配置的url模式将相应的告警信息推送至计算节点评估模块；

4、计算节点评估模块，用于对所述告警信息进行筛选，以确定计算节点的目标告警，基于所述目标告警以及预设评估项对所述计算节点进行评估，获取相应的评估结果；

5、故障恢复模块，用于基于所述评估结果确定对虚拟机执行的故障恢复操作，监测云平台集群的剩余资源，若所述剩余资源大于或等于目标阈值，则基于所述故障恢复操作向所述云平台集群发送故障恢复指令，并监控所述云平台集群基于所述故障恢复指令进行故障恢复动作的动作执行结果，以便根据所述动作执行结果进行相应的操作，完成对所述云平台的故障检测及运维。

6、可选的，所述系统，还包括：

7、黑名单加入模块，用于若所述计算节点正在进行维护或扩缩容的操作，或所述计算节点上的虚拟机不接受迁移和疏散，则将所述计算节点的名称加入黑名单，并不再对所述黑名单中的计算节点进行处理。

8、可选的，所述目标告警包括节点ready状态异常、节点对应的nova服务异常、物理服务器bmc事件、节点控制网、业务网、存储网异常、节点bond网卡异常以及节点异常宕机中任意一种或几种的组合。

9、可选的，所述预设评估项包括是否存在虚拟机、nova-compute状态、文件打开数是否超过预设阈值、网络连通性检测、光纤通道链路连接是否正常、逻辑卷管理服务是否正常、预设时间内是否发生过重启、智能平台管理接口内是否有代码纠错故障以及文件系统是否只读。

10、可选的，所述计算节点评估模块，包括：

11、第一评估单元，用于对控制网、业务网以及存储网进行网络连通性检测，以便将随机选择的若干台能够ping通网关的所述计算节点确定为测试节点，对故障节点与所述测试节点进行ping连通性检测，若所述故障节点与所述测试节点均可以ping通且满足丢包率要求，则判定网络正常，否则所述网络连通性检测的评估不通过，以基于所述网络连通性检测完成对所述计算节点的评估；所述网络连通性检测包括控制网是否中断、业务网是否中断以及存储网是否中断；

12、第二评估单元，用于检测所述计算节点上是否存在目标路径，若存在，则统计所述计算节点上的全部光纤通道端口的数量以及处于在线状态的光纤通道端口的数量，若所述全部光纤通道端口的数量大于零，且所述处于在线状态的光纤通道端口的数量等于零，则判定所述光纤通道链路连接异常，否则判定所述光纤通道链路连接正常，以基于所述光纤通道链路连接是否正常的评估项完成对所述计算节点的评估；

13、第三评估单元，用于查询存储后端列表，根据相应的查询结果判定所述计算节点是否存在目标存储协议的后端，若存在，则判定所述计算节点存在逻辑卷管理后端，若测试逻辑卷的创建以及所述测试逻辑卷的读写操作均可成功执行，则判定所述逻辑卷管理服务正常，以基于所述逻辑卷管理服务是否正常的评估项完成对所述计算节点的评估。

14、可选的，所述系统，还包括：

15、异常宕机故障定位模块，用于若存在异常宕机的故障，则直接检测物理服务器的电源状态，并在判定所述电源状态异常时，判断逻辑卷管理服务是否正常，以根据相应的判断结果对故障进行快速定位。

16、可选的，所述系统，还包括：

17、故障恢复开关配置模块，用于配置故障恢复开关，若所述故障恢复开关为关闭状态，则在确定所述评估结果后不再执行任何操作，若所述故障恢复开关为开启状态，则在确定所述评估结果后，利用基于所述评估结果确定的所述故障恢复操作对虚拟机进行相应的故障恢复操作。

18、可选的，所述故障恢复模块，包括：

19、后端存储类型查询单元，用于查询虚拟机系统盘和数据盘的后端存储类型；

20、恢复策略确定单元，用于如果所述系统盘和所述数据盘的后端存储类型相同，则直接确定与所述后端存储类型对应的恢复策略，并基于所述恢复策略对所述虚拟机进行故障恢复操作；其中，不同的后端存储类型对应不同的恢复策略，并且所述后端存储类型包括分布式文件系统、光纤通道以及逻辑卷管理；

21、执行操作单元，用于如果所述系统盘和所述数据盘的后端存储类型不相同，则统计所述虚拟机对应的各所述恢复策略，并确定各所述恢复策略中的执行操作；

22、疏散操作执行单元，用于若各所述恢复策略中存在疏散操作，则对所述虚拟机执行所述疏散操作；

23、迁移操作执行单元，用于若各所述恢复策略中不存在疏散操作，但各所述恢复策略中存在迁移操作，则对所述虚拟机执行所述迁移操作；

24、日志告警操作执行单元，用于若各所述恢复策略中不存在所述迁移操作，但各所述恢复策略中存在日志告警操作，则对所述虚拟机执行所述日志告警操作；

25、无操作单元，用于若各所述恢复策略中不存在日志告警操作，则对所述虚拟机不执行任何操作。

26、可选的，所述系统，还包括：

27、统一运管工具利用模块，用于在对计算节点进行状态评估以及故障恢复时，通过预先部署的统一运管工具进行网络状态检测、物理机电源状态获取以及关机的操作。

28、第二方面，本技术公开了一种云平台故障检测及运维方法，包括：

29、在云平台的告警系统中配置告警推送，以便基于所述告警推送通过预先配置的url模式将相应的告警信息推送至计算节点评估模块；

30、通过所述计算节点评估模块对所述告警信息进行筛选，以确定计算节点的目标告警，基于所述目标告警以及预设评估项对所述计算节点进行评估，获取相应的评估结果；

31、基于所述评估结果确定对虚拟机执行的故障恢复操作，监测云平台集群的剩余资源，若所述剩余资源大于或等于目标阈值，则基于所述故障恢复操作向所述云平台集群发送故障恢复指令，并监控所述云平台集群基于所述故障恢复指令进行故障恢复动作的动作执行结果，以便根据所述动作执行结果进行相应的操作，完成对所述云平台的故障检测及运维。

32、第三方面，本技术公开了一种电子设备，包括：

33、存储器，用于保存计算机程序；

34、处理器，用于执行所述计算机程序以实现前述的云平台故障检测及运维方法。

35、第四方面，本技术公开了一种计算机可读存储介质，用于保存计算机程序，所述计算机程序被处理器执行时实现前述的云平台故障检测及运维方法。

36、本技术公开了一种云平台故障检测及运维系统，包括：告警信息推送模块，用于在云平台的告警系统中配置告警推送，以便基于所述告警推送通过预先配置的url模式将相应的告警信息推送至计算节点评估模块；计算节点评估模块，用于对所述告警信息进行筛选，以确定计算节点的目标告警，基于所述目标告警以及预设评估项对所述计算节点进行评估，获取相应的评估结果；故障恢复模块，用于基于所述评估结果确定对虚拟机执行的故障恢复操作，监测云平台集群的剩余资源，若所述剩余资源大于或等于目标阈值，则基于所述故障恢复操作向所述云平台集群发送故障恢复指令，并监控所述云平台集群基于所述故障恢复指令进行故障恢复动作的动作执行结果，以便根据所述动作执行结果进行相应的操作，完成对所述云平台的故障检测及运维。可见，本技术通过云平台故障检测及运维系统实时监听平台关键告警，多维度评估计算节点健康状态，确认故障原因，根据评估规则给出故障恢复策略，自动执行故障恢复动作，全流程自动化恢复故障。这样一来，提升了故障处理的准确性，提高了故障定位和恢复的效率，降低了运维成本，实现了无人值守故障恢复。