技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于多降噪策略的告警收敛方法及系统与流程  >  正文

一种基于多降噪策略的告警收敛方法及系统与流程

  • 国知局
  • 2024-07-31 23:11:27

【】本发明涉及告警信息处理,特别涉及一种基于多降噪策略的告警收敛方法及系统。

背景技术

0、背景技术:

1、目前,告警的产生一般是通过配置固定阈值、条件,当达到阈值或者满足条件后自动触发告警信息。由于故障期间,特别是集群系统故障,将会导致产生大量的告警信息甚至引发告警风暴,使得运维人员很难从这些告警信息中筛选出重要信息进行处理。当然,在一些场合中也会通过窗口期、告警信息类型等手段进行去重降噪处理,但无法对告警信息进行有效收敛,且容易产生误报、漏报情况。鉴于上述存在的问题,本案发明人对该问题进行深入研究,遂有本案产生。

技术实现思路

0、技术实现要素:

1、本发明要解决的技术问题,在于提供一种基于多降噪策略的告警收敛方法及系统,解决现有技术存在无法对告警信息进行有效收敛,且容易产生误报、漏报情况的问题。

2、本发明是这样实现的:

3、第一方面,一种基于多降噪策略的告警收敛方法,所述方法包括:

4、在告警生成阶段,利用告警规则中的告警触发条件对上游监控中间件产生的业务指标数据进行分析,并在业务指标数据满足告警规则中的告警触发条件时触发产生告警信息,所述告警信息中携带有业务信息;

5、在告警处理阶段,根据告警信息中携带的业务信息,对触发产生的告警信息进行过滤、聚合、抑制或者静默处理,并将处理后的告警信息进行入库;

6、在告警管理阶段,根据设置的分组维度对入库的告警信息进行分组和展示。

7、进一步的,所述告警规则包括独立告警规则和组合告警规则;

8、每所述独立告警规则均定义有一告警触发条件,每所述告警触发条件均描述了一种业务异常场景;

9、所述组合告警规则通过至少两个独立告警规则组合而成,或者所述组合告警规则通过至少一个组合告警规则和至少一个独立告警规则组合而成,或者所述组合告警规则通过至少两个组合告警规则组合而成。

10、进一步的,所述利用告警规则中的告警触发条件对上游监控中间件产生的业务指标数据进行分析具体包括:

11、根据实际业务需求配置独立告警规则或者组合告警规则,并在独立告警规则或者组合告警规则生效后,利用独立告警规则或者组合告警规则中的告警触发条件对上游监控中间件产生的业务指标数据进行分析;

12、或者根据实际业务需求选择预先定义好的告警规则组合模板,并在告警规则组合模板生效后,利用告警规则组合模板中的告警触发条件对上游监控中间件产生的业务指标数据进行分析。

13、进一步的,所述告警信息中携带的业务信息至少包括告警规则id以及业务指标数据来源的业务系统的标识;

14、所述对触发产生的告警信息进行过滤处理具体为:预先设置告警过滤条件,利用设置的告警过滤条件对触发产生的告警信息进行过滤,从而去除不满足告警过滤条件的告警信息;

15、所述对触发产生的告警信息进行聚合处理具体为:根据告警信息中携带的业务信息,对触发产生的告警信息进行分组;对各个分组进行去重降噪处理,并将同一个分组内的所有告警信息压缩成一条告警信息;

16、所述对触发产生的告警信息进行抑制处理具体为:预先设置第一指定时间周期,对于触发产生的告警信息,将处于第一指定时间周期之外的告警信息标记为抑制状态,且不对标记为抑制状态的告警信息执行后续操作;

17、所述对触发产生的告警信息进行静默处理具体为:预先设置第二指定时间周期,对于触发产生的告警信息,将处于第二指定时间周期之内的告警信息标记为静默状态,且不对标记为静默状态的告警信息执行后续操作。

18、进一步的,在告警管理阶段,还包括:提供对各个分组的激活、关闭操作,且分组的激活、关闭操作将批量作用于该分组内的所有告警信息。

19、进一步的,在告警管理阶段,还包括:设置告警关闭条件,系统周期性自动扫描入库的告警信息,并将满足告警关闭条件的告警信息进行自动关闭。

20、进一步的,在告警管理阶段,设置的分组维度包括但不限于告警规则、业务系统、告警等级、告警类型。

21、第二方面,一种基于多降噪策略的告警收敛系统,所述系统包括告警生成收敛模块、告警处理收敛模块以及告警管理收敛模块;

22、所述告警生成收敛模块,用于在告警生成阶段,利用告警规则中的告警触发条件对上游监控中间件产生的业务指标数据进行分析,并在业务指标数据满足告警规则中的告警触发条件时触发产生告警信息,所述告警信息中携带有业务信息;

23、所述告警处理收敛模块,用于在告警处理阶段,根据告警信息中携带的业务信息,对触发产生的告警信息进行过滤、聚合、抑制或者静默处理,并将处理后的告警信息进行入库;

24、所述告警管理收敛模块,用于在告警管理阶段,根据设置的分组维度对入库的告警信息进行分组和展示。

25、进一步的,所述告警规则包括独立告警规则和组合告警规则;每所述独立告警规则均定义有一告警触发条件,每所述告警触发条件均描述了一种业务异常场景;所述组合告警规则通过至少两个独立告警规则组合而成,或者所述组合告警规则通过至少一个组合告警规则和至少一个独立告警规则组合而成,或者所述组合告警规则通过至少两个组合告警规则组合而成;

26、所述利用告警规则中的告警触发条件对上游监控中间件产生的业务指标数据进行分析具体包括:

27、根据实际业务需求配置独立告警规则或者组合告警规则,并在独立告警规则或者组合告警规则生效后,利用独立告警规则或者组合告警规则中的告警触发条件对上游监控中间件产生的业务指标数据进行分析;

28、或者根据实际业务需求选择预先定义好的告警规则组合模板,并在告警规则组合模板生效后,利用告警规则组合模板中的告警触发条件对上游监控中间件产生的业务指标数据进行分析。

29、进一步的,所述告警信息中携带的业务信息至少包括告警规则id以及业务指标数据来源的业务系统的标识;

30、所述对触发产生的告警信息进行过滤处理具体为:预先设置告警过滤条件,利用设置的告警过滤条件对触发产生的告警信息进行过滤,从而去除不满足告警过滤条件的告警信息;

31、所述对触发产生的告警信息进行聚合处理具体为:根据告警信息中携带的业务信息,对触发产生的告警信息进行分组;对各个分组进行去重降噪处理,并将同一个分组内的所有告警信息压缩成一条告警信息;

32、所述对触发产生的告警信息进行抑制处理具体为:预先设置第一指定时间周期,对于触发产生的告警信息,将处于第一指定时间周期之外的告警信息标记为抑制状态,且不对标记为抑制状态的告警信息执行后续操作;

33、所述对触发产生的告警信息进行静默处理具体为:预先设置第二指定时间周期,对于触发产生的告警信息,将处于第二指定时间周期之内的告警信息标记为静默状态,且不对标记为静默状态的告警信息执行后续操作。

34、通过采用本发明的技术方案,至少具有如下有益效果:

35、1、通过在告警生成阶段利用告警规则中的告警触发条件来触发产生告警信息,并赋予告警规则丰富的业务属性,使产生的告警信息中携带有丰富的业务信息,从而能够方便后续对告警信息进行收敛;同时在告警处理阶段中,又根据携带的业务信息对告警信息进行过滤、聚合、抑制或者静默处理,能够实现对告警信息进行有效收敛,从而更加精确的提炼出有价值的告警信息,使开发运维人员能够根据告警信息快速、有效地定位故障。

36、2、通过设计告警规则包括独立告警规则和组合告警规则,其中,每个独立告警规则均通过告警触发条件描述了一种业务异常场景,且每个独立告警规则均相互独立;每个组合告警规则均通过至少两个独立告警规则、或者至少一个组合告警规则和至少一个独立告警规则、又或者至少两个组合告警规则组合而成;使得在具体使用时,能够通过自由组合独立告警规则来形成新的组合告警规则,从而在告警生成阶段实现更精确的故障诊断,减少无效告警信息的产生。

37、3、通过根据实际业务需求预先定义好各种告警规则组合模板,并将定义的告警规则组合模板存储到数据库中,使用户可以直接从数据库获取所需的告警规则组合模板使用,不仅可以降低用户的配置难度,降低告警配置成本,而且有助于进一步提高故障评估的准确性。

本文地址:https://www.jishuxx.com/zhuanli/20240730/196312.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。