应用于多服务集群的运维数据处理方法、装置和设备与流程
- 国知局
- 2024-09-19 14:37:20
本技术涉及大数据处理,特别是涉及一种应用于多服务集群的运维数据处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
背景技术:
1、目前,对于多服务集群运行的系统采用的运维方法主要是手动的方式或者半手动的方式。通过构建一个连接集群接口的系统,手动的去创建服务资源,或者直接在集群上通过脚本创建服务资源,对于集群服务的监控和告警,则是需要提前创建日志采集、服务告警的服务,等待达到一个阈值或者机器出现某种异常,通过被动触发的形式来对发送有关告警信息。
2、这种方式不仅耗费资源去创建许多监控、告警的服务,所发送的告警信息也无法准确描述接下来应该如何操作来解除告警信息,并且存在效率低下、成本较高的问题。
3、然而相关技术中,自动进行运维数据处理的方法大多是需要针对单个服务进行的,在数据量较大的情况下,运维数据处理的效率较低。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种能够在数据量较大的情况下提升运维数据处理效率的应用于多服务集群的运维数据处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
2、第一方面,本技术提供了一种应用于多服务集群的运维数据处理方法,包括:
3、获取目标集群中多个服务的当前运行数据;
4、将所述当前运行数据输入运维管理模型,得到不同所述服务的运行关系信息和服务重要性信息,其中,所述运维管理模型是根据多个不同的所述服务的历史运行数据训练得到的,所述运行关系信息用于表征不同的所述服务之间的关联度;
5、根据所述运行关系信息和所述服务重要性信息选取至少一个目标监控服务;
6、对所述目标监控服务的运行状态进行监控;
7、在所述目标监控服务的运行状态异常的情况下,对所述目标集群进行运维数据处理。
8、在其中一个实施例中,所述根据所述运行关系信息和所述服务重要性信息选取至少一个目标监控服务,包括:
9、获取服务监控需求,并按照所述服务重要性信息依次遍历多个所述服务;
10、在当前服务对应的服务重要性信息符合所述服务监控需求的情况下,选取所述当前服务作为目标监控服务;
11、在所述当前服务对应的服务重要性信息不符合所述服务监控需求的情况下,根据所述运行关系信息确认是否选取所述当前服务作为所述目标监控服务。
12、在其中一个实施例中,所述在所述当前服务对应的服务重要性信息不符合所述服务监控需求的情况下,根据所述运行关系信息确认是否选取所述当前服务作为所述目标监控服务,包括:
13、在存在与所述当前服务的关联度大于预设关联度阈值的所述目标监控服务的情况下,判定所述当前服务不作为所述目标监控服务;
14、在不存在与所述当前服务的关联度大于预设关联度阈值的所述目标监控服务的情况下,判定所述当前服务作为所述目标监控服务。
15、在其中一个实施例中,所述对所述目标监控服务的运行状态进行监控,包括:
16、根据所述当前运行数据匹配所述目标监控服务对应的目标节点;
17、监控所述目标节点的资源使用量;
18、在所述资源使用量超过预设使用阈值的情况下,判定所述目标监控服务的运行状态异常。
19、在其中一个实施例中,所述在所述目标监控服务的运行状态异常的情况下,对所述目标集群进行运维数据处理,包括:
20、在所述目标监控服务的运行状态异常的情况下,对所述目标监控服务进行回滚处理。
21、在其中一个实施例中,所述在所述目标监控服务的运行状态异常的情况下,对所述目标监控服务进行回滚处理之后,还包括:
22、根据所述运行关系信息选取目标关联服务,其中,所述目标关联服务与所述目标监控服务的关联度超过预设关联度阈值;
23、检查所述目标关联服务的运行状态;
24、在所述目标关联服务的运行状态异常的情况下,对所述目标关联服务进行回滚处理。
25、第二方面,本技术还提供了一种应用于多服务集群的运维数据处理装置,包括:
26、数据获取模块,用于获取目标集群中多个服务的当前运行数据;
27、信息获取模块,用于将所述当前运行数据输入运维管理模型,得到不同所述服务的运行关系信息和服务重要性信息,其中,所述运维管理模型是根据多个不同的所述服务的历史运行数据训练得到的,所述运行关系信息用于表征不同的所述服务之间的关联度;
28、服务选取模块,用于根据所述运行关系信息和所述服务重要性信息选取至少一个目标监控服务;
29、服务监控模块,用于对所述目标监控服务的运行状态进行监控;
30、数据处理模块,用于在所述目标监控服务的运行状态异常的情况下,对所述目标集群进行运维数据处理。
31、在其中一个实施例中,所述服务选取模块包括:
32、服务遍历单元,用于获取服务监控需求,并按照所述服务重要性信息依次遍历多个所述服务;
33、服务选取单元,用于在当前服务对应的服务重要性信息符合所述服务监控需求的情况下,选取所述当前服务作为目标监控服务;
34、信息认定单元,用于在所述当前服务对应的服务重要性信息不符合所述服务监控需求的情况下,根据所述运行关系信息确认是否选取所述当前服务作为所述目标监控服务。
35、在其中一个实施例中,所述信息认定单元,具体用于:在存在与所述当前服务的关联度大于预设关联度阈值的所述目标监控服务的情况下,判定所述当前服务不作为所述目标监控服务;在不存在与所述当前服务的关联度大于预设关联度阈值的所述目标监控服务的情况下,判定所述当前服务作为所述目标监控服务。
36、在其中一个实施例中,所述服务监控模块包括:
37、节点匹配单元,用于根据所述当前运行数据匹配所述目标监控服务对应的目标节点;
38、资源监控单元,用于监控所述目标节点的资源使用量;
39、异常认定单元,用于在所述资源使用量超过预设使用阈值的情况下,判定所述目标监控服务的运行状态异常。
40、在其中一个实施例中,所述数据处理模块包括:
41、数据回滚单元,用于在所述目标监控服务的运行状态异常的情况下,对所述目标监控服务进行回滚处理。
42、在其中一个实施例中,所述数据回滚单元还用于根据所述运行关系信息选取目标关联服务,其中,所述目标关联服务与所述目标监控服务的关联度超过预设关联度阈值;检查所述目标关联服务的运行状态;在所述目标关联服务的运行状态异常的情况下,对所述目标关联服务进行回滚处理。
43、第三方面,本技术还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
44、获取目标集群中多个服务的当前运行数据;
45、将所述当前运行数据输入运维管理模型,得到不同所述服务的运行关系信息和服务重要性信息,其中,所述运维管理模型是根据多个不同的所述服务的历史运行数据训练得到的,所述运行关系信息用于表征不同的所述服务之间的关联度;
46、根据所述运行关系信息和所述服务重要性信息选取至少一个目标监控服务;
47、对所述目标监控服务的运行状态进行监控;
48、在所述目标监控服务的运行状态异常的情况下,对所述目标集群进行运维数据处理。
49、第四方面,本技术还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
50、获取目标集群中多个服务的当前运行数据;
51、将所述当前运行数据输入运维管理模型,得到不同所述服务的运行关系信息和服务重要性信息,其中,所述运维管理模型是根据多个不同的所述服务的历史运行数据训练得到的,所述运行关系信息用于表征不同的所述服务之间的关联度;
52、根据所述运行关系信息和所述服务重要性信息选取至少一个目标监控服务;
53、对所述目标监控服务的运行状态进行监控;
54、在所述目标监控服务的运行状态异常的情况下,对所述目标集群进行运维数据处理。
55、第五方面,本技术还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
56、获取目标集群中多个服务的当前运行数据;
57、将所述当前运行数据输入运维管理模型,得到不同所述服务的运行关系信息和服务重要性信息,其中,所述运维管理模型是根据多个不同的所述服务的历史运行数据训练得到的,所述运行关系信息用于表征不同的所述服务之间的关联度;
58、根据所述运行关系信息和所述服务重要性信息选取至少一个目标监控服务;
59、对所述目标监控服务的运行状态进行监控;
60、在所述目标监控服务的运行状态异常的情况下,对所述目标集群进行运维数据处理。
61、上述应用于多服务集群的运维数据处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品,通过将获取到的目标集群中多个服务的当前运行数据输入运维管理模型,得到不同服务的运行关系信息和服务重要性信息,从而得到不同的服务之间的关联度,再根据运行关系信息和服务重要性信息选取至少一个目标监控服务,并对目标监控服务的运行状态进行监控,能够根据目标集群中多个服务之间的关联关系,选取一部分服务进行关联监控,利用多个服务之间的关联度,确定需要监控的目标监控服务,并在目标监控服务的运行状态异常的情况下,对目标集群进行运维数据处理,能够从多个不同服务之间存在关联性的方面缩小数据监控的范围,在数据量较大的情况下提升运维数据处理效率。
本文地址:https://www.jishuxx.com/zhuanli/20240919/299205.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。