技术新讯 > 电子通信装置的制造及其应用技术 > 对云服务进行混沌演练的方法和装置与流程  >  正文

对云服务进行混沌演练的方法和装置与流程

  • 国知局
  • 2024-10-09 14:34:15

本技术涉及云计算,特别涉及一种对云服务进行混沌演练的方法和装置。

背景技术:

1、随着云计算技术的不断发展,云服务的应用场景越来越广泛,云服务的稳定性和可靠性也变得越来越重要。

2、为了提升云服务稳定性和可靠性,各云服务厂商都开发了相应的混沌演练系统,对云服务进行混沌演练。其中,对云服务进行混沌演练是指人为的在云服务中制造故障,进而测试云服务的容错机制、故障应对能力等。

3、在混沌演练系统中,技术人员可以选择对目标云服务进行混沌演练的故障生成工具,并触发故障生成工具在目标云服务中制造相应的故障,进而实现对目标云服务进行混沌演练。

4、目前可选择的故障生成工具很多,同一故障生成工具所造成的故障对不同的云服务造成的影响也不同。这样每次对目标云服务进行混沌演练前,都需要人工的在多个故障生成工具中,选择对目标云服务进行攻击的故障生成工具,如此导致对云服务进行混沌演练的效率较低。

技术实现思路

1、本技术实施例提供了一种对云服务进行混沌演练的方法和装置,可以提高对云服务进行混沌演练的效率,相应的技术方案如下:

2、第一方面,提供了一种对云服务进行混沌演练的方法,应用于云计算平台上的混沌演练系统,云计算平台上还包含多个云服务,多个云服务运行在云计算平台管理的多个实例上,该方法包括:

3、云计算平台接收用户选择的目标云服务,根据目标云服务在实例上的运行过程中产生的多个指标的状态数据,确定存在故障隐患的一个或多个目标指标,状态数据包括利用率和/或故障次数。确定一个或多个目标指标对应的至少一个第一故障生成工具,该第一故障生成工具用于生成针对所述目标云服务的故障。根据所述第一故障生成工具生成的故障,对所述目标云服务进行混沌演练。

4、本技术所示的方案中,云计算平台可以根据目标云服务在实例上运行过程中产生的多个指标的状态数据,预测该多个指标中可能会出现故障的目标指标。然后可以在指标与故障生成工具的对应关系中,确定目标指标对应的第一故障生成工具。如此混沌演练系统便可以实现对故障生成工具自动化推荐,无需技术人员在多个故障生成工具中,选择对目标云服务进行混沌演练的故障生成工具。

5、在一种可实现的方式中,该多个指标至少包括实例对应的处理器、存储器、网络和文件系统。上述根据目标云服务在实例上的运行过程中产生的多个指标的状态数据,确定存在故障隐患的一个或多个目标指标,包括:对于每个指标,根据指标对应的利用率超出利用率阈值的次数或指标出现故障的次数,确定指标对应的故障隐患评分。将故障隐患评分最高的指定数目的指标确定为目标指标。

6、本技术所示的方案中,云计算平台可以根据实例运行目标云服务的过程中处理器、存储器的利用率超出利用率的次数,确定处理器、存储器对应的故障隐患评分。其中,该利用率阈值可是安全阈值,次数越多对应指标出现故障的概率就越高,对应的故障隐患评分就越高。云计算平台可以根据实例运行目标云服务的过程中网络或文件系统出现故障的次数,如断网、丢包等,确定网络对应的故障隐患评分。其中,故障次数越多网络出现故障的概率就越高,对应的故障隐患评分就越高。可见,在本技术中可以根据多个指标的状态数据预测运行目标云服务的实例可能出现故障的目标指标,进而通过对应的故障生成工具对目标云服务进行混沌演练,还可以提高对目标云服务进行混沌演练的针对性,提高对目标云服务进行混沌演练的价值。

7、在一种可实现的方式中,上述确定一个或多个目标指标对应的至少一个第一故障生成工具,包括:在目标云服务的重要性评分大于评分阈值的情况下,将目标指标在指标与故障生成工具的对应关系中对应的且属于可回退类型的故障生成工具,确定为目标指标对应的至少一个第一故障生成工具。其中,可回退类型是指所述故障生成工具对目标云服务造成的故障消失后目标云服务能自动恢复正常。

8、本技术所示的方案中,云计算平台可以对目标云服务的重要性进行评估,如果目标云服务的重要性评分大于评分阈值,则说明目标云服务的重要性比较高。因此可以仅采用可回退类型的故障生成工具对目标云服务进行混沌演练。可回退类型的故障生成工具是指在目标云服务或实例上造成的故障在排除后,目标云服务能够自动恢复正常运行的故障生成工具。如此,通过可回退类型的故障生成工具对重要的目标云服务进行混沌演练,可以避免故障生成工具在目标云服务造成的故障无法及时修复进而对目标云服务正常运行产生较大的影响。

9、在一种可实现的方式中,上述确定一个或多个目标指标对应的至少一个第一故障生成工具之前,包括:根据目标云服务对应的属性信息,确定目标云服务的重要性评分,其中,属性信息包括依赖目标云服务的其他云服务的数量、目标云服务的服务水平目标slo、目标云服务的覆盖区域。

10、在一种可实现的方式中,上述根据目标云服务对应的属性信息,确定目标云服务的重要性评分,包括:根据数量与评分的对应关系,确定依赖目标云服务的其他云服务的数量对应的第一评分;根据slo与评分的对应关系,确定目标云服务的slo对应的第二评分;根据覆盖区域与评分的对应关系,确定目标云服务的覆盖区域对应的第三评分;根据第一评分、第二评分和第三评分,确定目标云服务的重要性评分。

11、本技术所示的方案中,可以根据依赖目标云服务的其他云服务的数量、目标云服务的slo、目标云服务的覆盖区域,实现对目标云服务的重要性评估。其中,依赖目标云服务的其他云服务的数量越多,该目标云服务出现不可恢复的故障后,对云平台的影响越大,对应的第一评分就越高。云服务的slo越高该目标云服务出现不可恢复的故障后,对云平台的影响越大对应的第二评分就越高。目标云服务的覆盖区域可以是全局覆盖或者是区域覆盖,分别对应的全局云服务和区域云服务,全局云服务出现不可恢复的故障后,对云平台的影响更大,对应的第三评分就越高。本技术能够从多个方面对云服务的重要性进行评估,进而可以准确的确定目标云服务的重要性,然后可以根据目标云服务的重要性对故障生成工具进行针对性推荐,能够提高目标云服务对推荐故障生成工具的针对性,并且可以混沌演练的效率和价值。

12、在一种可实现的方式中,在对目标云服务进行混沌演练后,如果确定目标云服务未达到设置的slo,则记录对目标云服务演练失败。

13、本技术所示的方案中,在使用故障生成工具对云服务进行演练之后,可以检测演练过程中或者演练之后,可以根据对应的云服务是否未达到设置的slo,确定是否演练成功,并对演练结果进行记录。其中,该设置的slo可以是云服务原本的slo,也可以略微低于原本的slo。

14、在一种可实现的方式中,在记录的对目标云服务进行的历史混沌演练中,确定导致对目标云服务演练失败的第二故障生成工具,根据第二故障生成工具对目标云服务进行混沌演练。

15、本技术所示的方案中,云计算平台可以对每个云服务进行混沌演练的结果进行记录。在对目标云服务进行演练时,在目标云服务进行混沌演练的历史记录中,确定对目标云服务演练失败时,使用的第二故障生成工具。然后可以将该第二故障生成工具再次作为本次对目标云服务进行混沌演练的故障生成工具。这样,通过历史演练失败的故障生成工具再次对目标云服务进行混沌演练,可以验证目标云服务相对之前是否提升了故障应对能力。

16、第二方面,提供了一种对云服务进行混沌演练的装置,该装置应用于云计算平台上的混沌演练系统,云计算平台上还包含多个云服务,多个云服务运行在云计算平台管理的多个实例上,该装置包括:

17、接收模块,用于接收用户选择的目标云服务,目标云服务为多个云服务中的一个;

18、确定模块,根据目标云服务在实例上的运行过程中产生的多个指标的状态数据,确定存在故障隐患的一个或多个目标指标,状态数据包括利用率和/或故障次数;确定一个或多个目标指标对应的至少一个第一故障生成工具,第一故障生成工具用于生成针对目标云服务的故障;

19、演练模块,用于根据第一故障生成工具生成的故障,对目标云服务进行混沌演练。

20、在一种可实现的方式中,上述多个指标至少包括实例的处理器、存储器、网络和文件系统;上述确定模块,用于对于每个指标,根据指标对应的利用率超出利用率阈值的次数,或指标出现故障的次数,确定指标对应的故障隐患评分;将故障隐患评分最高的指定数目的指标确定为目标指标。

21、在一种可实现的方式中,上述确定模块,用于在目标云服务的重要性评分大于评分阈值的情况下,将目标指标在指标与故障生成工具的对应关系中对应的且属于可回退类型的故障生成工具,确定为目标指标对应的至少一个第一故障生成工具,其中,可回退类型是指故障生成工具对目标云服务造成的故障消失后目标云服务能自动恢复正常。

22、在一种可实现的方式中,上述确定模块,还用于根据目标云服务对应的属性信息,确定目标云服务的重要性评分,其中,属性信息包括依赖目标云服务的其他云服务的数量、目标云服务的slo、目标云服务的覆盖区域。

23、在一种可实现的方式中,上述确定模块,用于根据数量与评分的对应关系,确定依赖目标云服务的其他云服务的数量对应的第一评分;根据slo与评分的对应关系,确定目标云服务的slo对应的第二评分;根据覆盖区域与评分的对应关系,确定目标云服务的覆盖区域对应的第三评分;根据第一评分、第二评分和第三评分,确定目标云服务的重要性评分。

24、在一种可实现的方式中,对云服务进行混沌演练的装置中还包括记录模块,用于在对目标云服务进行混沌演练后,如果确定目标云服务未达到设置的slo,则记录对目标云服务演练失败。

25、在一种可实现的方式中,确定模块,还用于在记录的对目标云服务进行的历史混沌演练中,确定导致对目标云服务演练失败的第二故障生成工具。演练模块,还用于根据第二故障生成工具对目标云服务进行混沌演练。

26、第三方面,提供了一种计算设备集群,该计算设备集群包括至少一个计算设备,每个计算设备包括处理器和存储器,其中,至少一个计算设备的处理器用于执行至少一个计算设备的存储器中存储的指令,以使得计算设备集群执行如第一方面或在第一方面任一种可实现的方式中所述的方法。

27、第四方面,提供了一种包含指令的计算机程序产品,当该指令被计算设备集群运行时,使得计算设备集群执行如第一方面或在第一方面任一种可实现的方式中所述的方法。

28、第五方面,提供了一种计算机可读存储介质,包括计算机程序指令,当该计算机程序指令由计算设备集群执行时,该计算设备集群可以执行如第一方面或在第一方面任一种可实现的方式中所述的方法。

本文地址:https://www.jishuxx.com/zhuanli/20241009/305686.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。