技术新讯 > 计算推算,计数设备的制造及其应用技术 > 分布式应用的故障定位方法、装置、存储介质及电子设备与流程  >  正文

分布式应用的故障定位方法、装置、存储介质及电子设备与流程

  • 国知局
  • 2024-09-14 15:00:22

本发明涉及金融科技领域或其他相关领域,具体而言,涉及一种分布式应用的故障定位方法、装置、存储介质及电子设备。

背景技术:

1、随着分布式架构的广泛应用,其可靠性以及稳定性日益成为人们关注的焦点。然而,由于分布式架构自身存在的分散性以及异构性,故障根因的种类、规模、影响范围日趋复杂。目前,现有技术中对分布式应用进行故障定位所采用的故障定位方法存在故障传播可解释性较弱、可诊断故障类型较少、数据分析采集量较大等不足。

2、针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

1、本发明实施例提供了一种分布式应用的故障定位方法、装置、存储介质及电子设备,以至少解决现有技术中对分布式应用进行故障定位所采用的故障定位方法存在故障传播可解释性较弱的技术问题。

2、根据本发明实施例的一个方面,提供了一种分布式应用的故障定位方法,包括:获取分布式应用的拓扑图的节点清单,并依据节点清单进行数据采集,得到每个节点对应的目标指标数据,其中,拓扑图中包含分布式应用的多个节点,以及用于表征各节点之间的关联关系的多条边;依据每个节点对应的目标指标数据确定每个节点的节点状态信息,并将每个节点的节点状态信息添加至拓扑图,得到第一拓扑图,其中,节点状态信息用于表征节点是否异常;对第一拓扑图进行剪枝处理,得到目标拓扑图,并依据目标拓扑图进行故障定位,得到故障定位结果。

3、进一步地,依据每个节点对应的目标指标数据确定每个节点的节点状态信息,包括:通过预先训练的目标异常检测模型依据每个节点对应的目标指标数据计算每个节点的异常概率值,其中,异常概率值用于表征节点的异常程度;分别对每个节点的异常概率值与预设阈值进行比对,并确定异常概率值大于等于预设阈值的节点的节点状态为异常状态,以及确定异常概率值小于预设阈值的节点的节点状态为正常状态;依据每个节点的节点状态和每个节点的异常概率值组成每个节点的节点状态信息。

4、进一步地,对第一拓扑图进行剪枝处理,得到目标拓扑图,包括:遍历第一拓扑图中的节点,确定至少一个第一节点,并依据至少一个第一节点的节点标识组成第一节点队列,其中,第一节点为出度为预设值,且节点状态为正常状态的节点;对第一节点队列中的第一个第一节点进行出队处理,并在第一拓扑图中对第一个第一节点进行剪枝,得到剪枝后的拓扑图;依据剪枝后的拓扑图确定第一个第一节点的邻居节点,并依据邻居节点判断是否对第一节点队列进行更新,得到判断结果;若判断结果表征对第一节点队列进行更新,则将邻居节点的节点标识添加至第一节点队列;重复执行的对第一节点队列中的第一个第一节点进行出队处理,并在第一拓扑图中对第一个第一节点进行剪枝,得到剪枝后的拓扑图;依据剪枝后的拓扑图确定第一个第一节点的邻居节点,并依据邻居节点判断是否对第一节点队列进行更新,得到判断结果;若判断结果表征对第一节点队列进行更新,则将邻居节点的节点标识添加至第一节点队列的步骤,直至第一节点队列为空,得到目标拓扑图。

5、进一步地,依据邻居节点判断是否对第一节点队列进行更新,得到判断结果,包括:计算邻居节点的当前出度,并获取邻居节点的节点状态;在邻居节点的当前出度为预设值,且邻居节点的节点状态为正常状态的情况下,将对第一节点队列进行更新作为判断结果;在邻居节点的当前出度不为预设值,或者,邻居节点的节点状态为异常状态的情况下,将不对第一节点队列进行更新作为判断结果。

6、进一步地,依据目标拓扑图进行故障定位,得到故障定位结果,包括:依据目标拓扑图确定多条故障传播路径;对于每条故障传播路径,对故障传播路径中包含的所有节点的异常概率值进行均值计算,得到每条故障传播路径对应的目标异常概率值,其中,目标异常概率值用于表征故障传播路径的异常程度;依据每条故障传播路径对应的目标异常概率值确定故障定位结果。

7、进一步地,依据每条故障传播路径对应的目标异常概率值确定故障定位结果,包括:对多条故障传播路径对应的目标异常概率值进行排序,得到排序结果;依据排序结果从多条故障传播路径中确定目标故障传播路径;将目标故障传播路径中的叶子节点作为故障根因节点,得到故障定位结果。

8、进一步地,在获取分布式应用的拓扑图的节点清单之前,该方法还包括:获取分布式应用的多个节点和各节点之间的关联关系;依据各节点之间的关联关系确定多条边;依据多个节点和多条边生成分布式应用的拓扑图。

9、根据本发明实施例的另一方面,还提供了一种分布式应用的故障定位装置,包括:获取模块,用于获取分布式应用的拓扑图的节点清单,并依据节点清单进行数据采集,得到每个节点对应的目标指标数据,其中,拓扑图中包含分布式应用的多个节点,以及用于表征各节点之间的关联关系的多条边;确定模块,用于依据每个节点对应的目标指标数据确定每个节点的节点状态信息,并将每个节点的节点状态信息添加至拓扑图,得到第一拓扑图,其中,节点状态信息用于表征节点是否异常;处理模块,用于对第一拓扑图进行剪枝处理,得到目标拓扑图,并依据目标拓扑图进行故障定位,得到故障定位结果。

10、根据本发明实施例的另一方面,还提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现上述的分布式应用的故障定位方法。

11、根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,其中,计算机程序被设置为运行时执行上述的分布式应用的故障定位方法。

12、根据本发明实施例的另一方面,还提供了一种电子设备,该电子设备包括一个或多个处理器;存储器,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现用于运行程序,其中,程序被设置为运行时执行上述的分布式应用的故障定位方法。

13、在本发明实施例中,采用依据拓扑图和图剪枝技术进行故障定位的方式,首先获取分布式应用的拓扑图的节点清单,并依据节点清单进行数据采集,得到每个节点对应的目标指标数据,其中,拓扑图中包含分布式应用的多个节点,以及用于表征各节点之间的关联关系的多条边;依据每个节点对应的目标指标数据确定每个节点的节点状态信息,并将每个节点的节点状态信息添加至拓扑图,得到第一拓扑图,其中,节点状态信息用于表征节点是否异常;对第一拓扑图进行剪枝处理,得到目标拓扑图,并依据目标拓扑图进行故障定位,得到故障定位结果。

14、在上述过程中,通过将每个节点的节点状态信息添加至拓扑图,可以得到包含节点状态信息的第一拓扑图,能够直观的展示每个节点的节点状态;通过对第一拓扑图进行剪枝处理,得到目标拓扑图,实现了对无关节点的过滤,能够提高故障定位的效率和准确性;依据目标拓扑图进行故障定位,能够得到故障根因的传播路径以及根因节点,效果直观,具备较强的可解释性。

15、由此可见,通过本发明的技术方案,达到了更快更准确地进行故障定位的目的,从而实现了增强故障传播可解释性的技术效果,进而解决了现有技术中对分布式应用进行故障定位所采用的故障定位方法存在故障传播可解释性较弱的技术问题。

本文地址:https://www.jishuxx.com/zhuanli/20240914/296648.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。