分布式节点的隔离方法及装置与流程
- 国知局
- 2024-09-14 15:07:08
本技术实施例涉及计算机领域,具体而言,涉及一种分布式节点的隔离方法及装置。
背景技术:
1、节点的亚健康状态通常是指在一个网络或分布式系统中,某个节点的性能或功能没有达到预期的标准。亚健康状态的节点虽然可以继续运行,但这种状态可能会影响整个系统的性能和可靠性。为了避免亚健康状态的扩散以及亚健康状态节点对系统运行的影响,设计了一种节点隔离机制,但对亚健康状态的节点进行隔离可能会影响系统的正常运行,因此在面对亚健康状态的节点时,一般仍采取向上告警不隔离的方案,这样的方案会使系统中的节点的亚健康状态长期存在,影响系统的整体运行,节点的亚健康状态的处理效率不高。
技术实现思路
1、本技术实施例提供了一种分布式节点的隔离方法及装置,以至少解决相关技术中节点的亚健康状态的处理效率较低的问题。
2、根据本技术的一个实施例,提供了一种分布式节点的隔离方法,分布式系统包括监控节点和多个分布式节点,所述监控节点与所述多个分布式节点连接,所述方法应用于所述多个分布式节点中的目标分布式节点,所述方法包括:
3、在检测到所述目标分布式节点当前的运行状态为亚健康状态的情况下,根据所述目标分布式节点上的配置信息检测所述目标分布式节点所对应的决策时机,其中,所述决策时机用于指示由所述监控节点决策所述目标分布式节点是否隔离的时机;
4、在检测到所述决策时机已到达的情况下,继续运行并向所述监控节点上报隔离请求,其中,所述隔离请求用于请求对所述目标分布式节点进行隔离;
5、接收所述监控节点响应所述隔离请求所返回的隔离指令,其中,所述监控节点用于响应所述隔离请求根据所述多个分布式节点的运行信息生成所述隔离指令;
6、按照所述隔离指令对所述目标分布式节点进行隔离。
7、作为一种可选的实施方式,所述根据所述目标分布式节点上的配置信息检测所述目标分布式节点所对应的决策时机,包括:
8、从所述配置信息中提取决策标识,其中,所述决策标识用于指示所述决策时机;
9、监控在所述目标分布式节点上是否到达所述决策标识所指示的所述决策时机。
10、作为一种可选的实施方式,所述监控在所述目标分布式节点上是否到达所述决策标识所指示的所述决策时机,包括:
11、在所述决策时机为第一决策时机的情况下,执行恢复操作,其中,所述恢复操作用于将所述运行状态从所述亚健康状态恢复至健康状态,所述第一决策时机用于指示在分布式节点处于所述亚健康状态后未能从所述亚健康状态恢复至所述健康状态的情况下由所述监控节点决策分布式节点的隔离;检测所述运行状态的状态变化信息,其中,所述状态变化信息用于指示所述运行状态是否从所述亚健康状态转换为健康状态;在所述状态变化信息用于指示所述运行状态仍未从所述亚健康状态转换为所述健康状态的情况下,确定检测到所述第一决策时机已到达;
12、在所述决策时机为第二决策时机的情况下,确定检测到所述第二决策时机已到达,其中,所述第二决策时机用于指示在分布式节点处于亚健康状态时由所述监控节点决策分布式节点的隔离。
13、作为一种可选的实施方式,所述从所述配置信息中提取决策标识,包括:
14、从所述配置信息中提取自动恢复标识,其中,所述决策标识包括所述自动恢复标识,所述自动恢复标识用于指示所述目标分布式节点的从所述亚健康状态到所述健康状态的自动恢复能力;
15、在所述自动恢复标识为第一标识值的情况下,确定所述决策时机为所述第一决策时机,其中,所述第一标识值用于指示所述目标分布式节点具备从所述亚健康状态到所述健康状态的自动恢复能力;
16、在所述自动恢复标识为第二标识值的情况下,确定所述决策时机为所述第二决策时机,其中,所述第二标识值用于指示所述目标分布式节点不具备从所述亚健康状态到所述健康状态的自动恢复能力。
17、作为一种可选的实施方式,所述在检测到所述目标分布式节点当前的运行状态为亚健康状态的情况下,根据所述目标分布式节点上的配置信息检测所述目标分布式节点所对应的决策时机,包括:通过第一进程检测所述目标分布式节点当前的运行状态;在所述第一进程检测到所述目标分布式节点当前的运行状态为所述亚健康状态的情况下,通过所述第一进程将所述目标分布式节点上的隔离状态机从正常状态转移到故障状态,其中,所述目标分布式节点上的第二进程用于在所述隔离状态机从所述正常状态转移到所述故障状态的情况下,执行根据所述目标分布式节点上的配置信息检测所述目标分布式节点所对应的决策时机的操作;
18、所述在检测到所述决策时机已到达的情况下,继续运行并向所述监控节点上报隔离请求,包括:在所述第二进程检测到所述决策时机已到达的情况下,通过所述第一进程控制所述目标分布式节点继续运行,并将所述隔离状态机从故障状态转移到隔离状态,其中,所述第二进程用于在所述隔离状态机从所述故障状态转移到所述隔离状态的情况下,执行向所述监控节点上报隔离请求的操作;
19、所述接收所述监控节点响应所述隔离请求所返回的隔离指令,包括:通过所述第二进程在向所述监控节点上报隔离请求的操作之后接收所述监控节点响应所述隔离请求所返回的隔离指令;
20、所述按照所述隔离指令对所述目标分布式节点进行隔离,包括:通过所述第一进程按照所述第二进程所接收到的所述隔离指令对所述目标分布式节点进行隔离。
21、作为一种可选的实施方式,所述按照所述隔离指令对所述目标分布式节点进行隔离,包括:
22、在所述隔离指令用于指示禁止隔离所述目标分布式节点的情况下,继续运行所述目标分布式节点上的业务;
23、在所述隔离指令用于指示允许隔离所述目标分布式节点的情况下,从所述隔离指令中提取参考分布式节点,其中,所述参考分布式节点是所述监控节点根据所述多个分布式节点的运行信息从所述多个分布式节点中筛选出的用于承接所述目标分布式节点上的业务的分布式节点;将所述目标分布式节点上的业务转移至所述参考分布式节点;隔离所述目标分布式节点。
24、作为一种可选的实施方式,在所述根据所述目标分布式节点上的配置信息检测所述目标分布式节点所对应的决策时机之前,所述方法还包括:
25、检测所述目标分布式节点当前的运行参数;
26、在所述运行参数超出目标参数范围的情况下,从所述目标分布式节点上的所述配置信息中提取修复标识,其中,所述修复标识用于指示所述目标分布式节点对所述亚健康状态的修复能力;
27、在所述修复标识用于指示所述目标分布式节点对所述亚健康状态具备修复能力的情况下,执行修复操作,其中,所述修复操作用于对所述亚健康状态进行修复;
28、在所述修复操作对所述亚健康状态修复失败,或者,所述修复标识用于指示所述目标分布式节点对所述亚健康状态不具备修复能力的情况下,确定检测到所述目标分布式节点当前的运行状态为亚健康状态。
29、根据本技术的另一个实施例,提供了一种分布式节点的隔离装置,分布式系统包括监控节点和多个分布式节点,所述监控节点与所述多个分布式节点连接,所述装置应用于所述多个分布式节点中的目标分布式节点,所述装置包括:
30、第一检测模块,用于在检测到所述目标分布式节点当前的运行状态为亚健康状态的情况下,根据所述目标分布式节点上的配置信息检测所述目标分布式节点所对应的决策时机,其中,所述决策时机用于指示由所述监控节点决策所述目标分布式节点是否隔离的时机;
31、上报模块,用于在检测到所述决策时机已到达的情况下,继续运行并向所述监控节点上报隔离请求,其中,所述隔离请求用于请求对所述目标分布式节点进行隔离;
32、接收模块,用于接收所述监控节点响应所述隔离请求所返回的隔离指令,其中,所述监控节点用于响应所述隔离请求根据所述多个分布式节点的运行信息生成所述隔离指令;
33、隔离模块,用于按照所述隔离指令对所述目标分布式节点进行隔离。
34、根据本技术的又一个实施例,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
35、根据本技术的又一个实施例,还提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
36、通过本技术,由于在检测到所述目标分布式节点当前的运行状态为亚健康状态的情况下,根据所述目标分布式节点上的配置信息检测所述目标分布式节点所对应的决策时机,在检测到所述决策时机已到达即由所述监控节点决策所述目标分布式节点是否隔离的时机到达的情况下,继续运行并向所述监控节点上报隔离请求,接收所述监控节点响应所述隔离请求所返回的隔离指令,按照所述隔离指令对所述目标分布式节点进行隔离,即先检测是否到达需要进行隔离决策的时机,在需要进行隔离决策的时机到达的情况下,请求监控节点根据多个分布式节点的运行信息生成隔离指令指示目标分布式节点的隔离,由监控节点结合多个分布式节点的运行信息生成隔离指令指示目标分布式节点的隔离,能够充分衡量节点的隔离举措对整个系统运行情况的影响,给出适应于系统内各节点运行情况的目标分布式节点的隔离指令,保证了处于亚健康状态的节点在存在隔离需求的情况下合理采取隔离措施,减少亚健康状态的节点对系统的运行的影响,因此,可以解决节点的亚健康状态的处理效率较低的问题,达到提高节点的亚健康状态的处理效率的效果。
本文地址:https://www.jishuxx.com/zhuanli/20240914/297022.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表