技术新讯 > 电子通信装置的制造及其应用技术 > 运维平台、故障排查方法及相关设备与流程  >  正文

运维平台、故障排查方法及相关设备与流程

  • 国知局
  • 2024-10-15 09:40:08

本公开涉及计算机,尤其涉及一种运维平台、故障排查方法及相关设备。

背景技术:

1、随着互联网技术在全球范围内的不断发展,包括平推荐台在内的各种互联网业务平台通常在全球均存在多个部署环境。目前,对于业务平台的运行维护仍多通过管理人员人工完成。这样,当一个业务平台的部署环境增多或者其提供业务增多时,业务平台的维护成本,特别是人力成本,也将相应地不断增加。

2、为了降低业务平台的维护成本,同时提高业务平台的维护效率,目前急需一种能够在业务平台的运行过程中,自动化实现问题发现、问题分析以及问题修复及报告的运维平台。

技术实现思路

1、有鉴于此,本公开的实施例提供一种运维平台、故障排查方法及相关设备,能够在业务平台的运行过程中,自动化实现问题发现、问题分析以及问题修复及报告。

2、本公开实施例所述的运维平台可以包括:调试接口、代理模块以及多个故障排查引擎;其中,所述多个故障排查引擎中的每个故障排查引擎分别与一个后端云环境相对应;

3、所述调试接口用于接收业务管理平台的提交的针对某一个维护对象的运行维护信息以及将所述故障排查引擎生成的故障排查报告返回至所述业务管理平台;其中,所述运行维护信息包括:所述维护对象的标识、问题描述信息以及环境信息;

4、所述代理模块用于接收所述运行维护信息,基于所述运行维护信息中的环境信息确定所述维护对象对应的后端云环境,将所述运行维护信息提交至与所述后端云环境对应的故障排查引擎,以及将所述故障排查引擎生成的故障排查报告返回至所述调试接口;

5、所述故障排查引擎用于基于所述运行维护信息中的问题描述信息确定与所述问题描述信息对应的故障排查链路图,基于所述故障排查链路图以及所述维护对象的标识对所述维护对象进行故障排查,确定与所述问题描述对应的故障根本原因,生成所述故障排查报告,以及将所述故障排查报告返回至所述代理模块。

6、在本公开的实施例中,所述调试接口为表现层状态转化应用程序接口,用于接收来自所述业务管理平台中告警模块、巡检模块或管理员模块提交的针对所述维护对象的运行维护信息。

7、在本公开的实施例中,所述代理模块包括:

8、映射关系存储模块,用于存储预先设定的环境信息与后端云环境之间的第一映射关系;

9、运维信息接收模块,用于接收来自所述调试接口的运行维护信息;

10、环境信息提取模块,用于从接收的运行维护信息中提取环境信息;

11、映射模块,用于基于所述第一映射关系以及提取的环境信息确定与所述维护对象对应的目标后端云环境;以及

12、转发模块,用于将接收的运行维护信息提交至与所述目标后端云环境对应的故障排查引擎,以及将来自所述故障排查引擎的故障排查报告返回至所述调试接口。

13、在本公开的实施例中,所述故障排查引擎包括:

14、问题表象提取模块,用于从所述运行维护信息中提取问题描述信息;

15、故障排查链路图规划模块,用于存储预先设置的至少一个故障排查链路图以及问题描述信息与所述故障排查链路图之间的第二映射关系,以及基于所述第二映射关系,确定与所述问题描述信息对应的目标故障排查链路图;

16、检查以及分析模块,用于基于所述目标故障排查链路图对所述维护对象进行故障排查,确定与所述问题描述对应的故障根本原因;

17、问题修复模块,用于基于所述故障根本原因生成故障修复方案;

18、报告模块,用于基于所述目标故障排查链路图、所述故障根本原因以及所述故障修复方案生成故障排查报告,并将所述故障排查报告返回至所述代理模块。

19、在本公开的实施例中,所述故障排查链路图包含至少一个分支子链路,每个分支子链路包含至少一个节点;其中,每个分支子链路对应一类故障原因;每个节点对应一个故障具体原因,并定义故障排查方法以及归因条件。

20、在本公开的实施例中,所述检查以及分析模块针对所述故障排查链路图所包含的节点,分别执行所述节点对应的故障排查方法,确定所述维护对象是否符合当前节点对应的归因条件,直至确定所述维护对象符合当前节点对应的归因条件,并将当前节点所对应的故障具体原因作为与所述问题描述对应的故障根本原因。

21、在本公开的实施例中,所述故障排查链路图规划模块进一步用于为所述每个分支子链路分配一个优先级;以及

22、所述检查以及分析模块按照所述优先级从高到低的顺序,从所述至少一个分支子链路中确定目标分支子链路,并针对所述目标分支子链路包含的至少一个节点,分别执行所述节点对应的故障排查方法。

23、在本公开的实施例中,所述检查以及分析模块采用二分法从所述目标分支子链路包含的至少一个节点中选择目标节点,并执行所述目标节点对应的故障排查方法。

24、本公开实施例所述的故障排查方法包括:接收业务管理平台的提交的针对某一个维护对象的运行维护信息;其中,所述运行维护信息包括:所述维护对象的标识、问题描述信息以及环境信息;基于所述运行维护信息中的环境信息确定所述业务管理平台对应的后端云环境;将所述运行维护信息提交至与所述后端云环境对应的故障排查引擎;由所述故障排查引擎基于所述运行维护信息中的问题描述信息确定与所述问题描述信息对应的故障排查链路图,基于所述故障排查链路图对所述维护对象信息对应的维护对象进行故障排查,确定与所述问题描述对应的故障根本原因,基于所述故障根本原因生成并向所述业务管理平台反馈故障排查报告。

25、在本公开的实施例中,上述方法进一步包括:预先存储环境信息与所述后端云环境之间的第一映射关系;其中,基于所述运行维护信息中的环境信息确定所述业务管理平台对应的后端云环境包括:基于所述第一映射关系以及所接收运行维护信息中的环境信息确定所述业务管理平台对应的后端云环境。

26、在本公开的实施例中,上述方法进一步包括:存储预先设置的至少一个故障排查链路图,以及问题描述信息与所述故障排查链路图之间的第二映射关系;其中,基于所述运行维护信息中的问题描述信息确定与所述问题描述信息对应的故障排查链路图包括:从所述运行维护信息中提取问题描述信息;以及基于所述第二映射关系,确定与所提取出的问题描述信息对应的目标故障排查链路图。

27、在本公开的实施例中,所述故障排查链路图包含至少一个分支子链路,每个分支子链路包含至少一个节点;其中,每个分支子链路对应一类故障原因;每个节点对应一个故障具体原因,并定义故障排查方法以及归因条件。

28、在本公开的实施例中,基于所述故障排查链路图对所述维护对象信息对应的维护对象进行故障排查,确定与所述问题描述对应的故障根本原因包括:针对所述故障排查链路图所包含的节点,分别执行所述节点对应的故障排查方法,确定所述维护对象是否符合当前节点对应的归因条件,直至确定所述维护对象符合当前节点对应的归因条件,并将当前节点所对应的故障具体原因作为与所述问题描述对应的故障根本原因。

29、在本公开的实施例中,上述方法进一步包括:为所述每个分支子链路分配一个优先级;其中,针对所述故障排查链路图所包含的节点,分别执行所述节点对应的故障排查方法包括:按照所述优先级从高到低的顺序,从所述至少一个分支子链路中确定目标分支子链路;以及针对所述目标分支子链路包含的至少一个节点,分别执行所述节点对应的故障排查方法。

30、在本公开的实施例中,针对所述目标分支子链路包含的至少一个节点,分别执行所述节点对应的故障排查包括:采用二分法从所述目标分支子链路包含的至少一个节点中选择目标节点;以及执行所述目标节点对应的故障排查方法。

31、此外,本公开的实施例还提供了一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述故障排查方法。

32、本公开的实施例还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行上述故障排查方法。

33、本公开的实施例还提供了一种计算机程序产品,包括计算机程序指令,当所述计算机程序指令在计算机上运行时,使得计算机执行上述故障排查方法。

34、本公开实施例所述的运维平台、故障排查方法及相关设备中不仅可以支持不同的后台云环境,并且可以针对发现的问题表象,快速自动进行故障排查,大大减少人工的操作,从而极大地降低了对业务平台进行运维所需的人力成本。

35、进一步,本公开实施例所述的运维平台支持分支判断逻辑,同时支持对不同分支配置优先级,从而可以进一步大大提升故障排查效率。

本文地址:https://www.jishuxx.com/zhuanli/20241015/314937.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。