一种结合人工智能算法的服务提前监控方法和系统与流程
- 国知局
- 2024-11-19 09:44:47
本发明涉及服务监控,尤其涉及一种结合人工智能算法的服务提前监控方法和系统。
背景技术:
1、在做面向c端用户的saas系统时,后台数据库访问系统不但需要支持各种应用的访问请求,也包括客户对系统数据的调用获取。当线上客户做活动或营销导致用户流量突然增大,以及客户突然调用系统数据请求激增,都会带来系统访问量增大,从而使得后台服务集群资源占用过大,引起系统服务访问性能下降,甚至导致系统服务崩溃情况发生。
2、目前主流系统服务性能监控做法是实时监控集群cpu利用率、内存使用等服务器资源占用情况,并通过针对具体场景和具体数据存储集群做不同阈值告警管控,比如设置cpu利用率达到90%即产生告警并通知系统运维管理人员进行干预处理。
3、在申请号为cn111679958a,申请名称为《一种服务器监控系统》的专利中公开了一种服务器监控系统,数据采集模块将采集的服务器信息数据输送给数据处理模块,数据处理模块对得到的服务器信息数据进行识别、分析、处理并将处理后的数据输送给数据存储模块进行存储,数据存储模块的数据通过数据展示模块进行归纳和可视化,数据处理模块识别服务器异常时将异常信息输送给告警模块触发告警,运维助手模块通过数据传输模块与数据处理模块连接并监控系统运行情况。通过10秒为周期的数据上报,增加监控的实时性和数据有效性;多维度的指标监控,综合展现服务器性能全貌;可通过组合使用告警函数来配置告警规则,定制化告警策略。
4、在申请号为cn117389845a,申请名称为《一种具有异常告警作用的服务器监控系统》的专利中,公开了一种具有异常告警作用的服务器监控系统,包括括信息采集模块,用以对服务器运行信息进行采集;实时监控模块,用以在采集服务器运行信息后对服务器进行实时监控,实时监控模块与信息采集模块连接;统计监控模块,用以在采集服务器运行信息后对服务器进行统计监控,统计监控模块与信息采集模块连接;安全保障模块,用以在服务器处于危险状态时对用户进行告警,并对服务器数据采取保障措施,安全保障模块与实时监控模块和统计监控模块连接可对服务器进行预告警,但以上两个专利方案只考虑了服务器统计信息,服务器统计信息是结果,没有结合接口调用和实际业务开展等主因方面做到的提前预警还比较有限,当系统性能达到监控阈值时,往往已经来不及对集群性能进行保障,不得不采用服务降级或触发熔断等处理机制保障系统服务稳定。
技术实现思路
1、本发明的目的是为了解决现有技术中存在的缺点,采用业务数据辅助判断来实现服务器性能提前监控,以便达到告警预警尽早干预,通过新增备用服务器、切换高性能集群服务器等手段保障系统服务稳定性,同时通过对未来业务量和资源使用情况的预测更合理分配服务器资源使用,提高服务器资源使用效率,而提供了一种结合人工智能算法的服务提前监控方法,包括以下步骤:
2、s1:获取线上订单数据、后台接口调用日志数据和服务器运行数据在内的存储信息,将所述存储信息存入数据库;
3、s2:根据所述存储信息和告警规则集构造订单量时序预测模型、接口调用时序预测模型和服务器cpu利用率预测模型;
4、s3:所述订单量时序预测模型、所述接口调用时序预测模型和所述服务器cpu利用率预测模型根据告警规则和所述告警规则集进行实时数据预测,根据所述订单量、所述接口调用量和所述cpu使用情况判断是否触发告警规则。
5、优选地,在步骤s1中,所述获取线上订单数据,进一步包括:
6、所述告警规则的异常处理时长作为时间刻度,根据用户在线上程序的操作实时采集用户下单数据,根据所述时间刻度对所述下单数据进行汇总得到所述线上订单数据。
7、优选地,在步骤s1中,所述获取后台调用日志数据,进一步包括:
8、在接口调用服务中增加上报机制,根据所述上报机制对接口进行id编码,并记录调用接口的开始调用时间、结束调用时间和根据开始调用时间和结束调用时间计算的总调用时间在内的时长,对所述接口的所述总调用时间进行排序,判断所述接口运行时长是否超过接口阈值,将超过所述接口阈值的接口调用日志数据存入所述数据库。
9、优选地,在步骤s1中,所述获取服务器运行数据,进一步包括:
10、在时间刻度内统计服务器cpu利用率、内存使用、负载特征在内的服务器运行情况,对服务器的运行状态设置状态标签,根据所述服务器运行情况通过手动添加或脚本监控修改所述状态标签为最终标签,将所述服务器运行情况和所述最终标签在内的所述服务器运行数据存入数据库。
11、优选地,在步骤s2中,所述构造订单量时序预测模型,进一步包括:
12、根据所述线上订单数据构造时序训练数据,对所述时序训练数据进行空值处理和标准化处理在内的操作,对所述时序训练数据进行平稳性分析,通过差分阶数和参数调优法优化训练模型,最终构造为所述订单量时序预测模型。
13、优选地,在步骤s2中,所述构造接口调用时序预测模型,进一步包括:
14、根据在所述时间刻度内所述总调用时间为预测目标,构造数据服务接口调用数据,根据所述数据服务接口调用数据进行接口训练模型和参数调优,并保存最终的所述接口训练模型为所述接口调用时序预测模型。
15、优选地,在步骤s2中,所述构造服务器cpu利用率预测模型,进一步包括:
16、将在若干时间范围内的所述线上订单数据、所述后台接口调用日志数据和所述服务器运行数据作为样本集,根据所述样本集构造的特征进行数据处理获得特征数据,根据所述特征数据的重要性进行特征筛选,将符合条件的特征作为已选特征集,不符合条件的特征作为候选特征集,根据所述已选特征集进行利用率训练模型并参数调优,并保存最终的所述利用率训练模型。
17、优选地,在步骤s3中,所述告警规则,进一步包括:
18、根据采样范围选取所述线上订单数据得到样本集,根据所述状态标签选取出现卡顿或崩溃的所述样本集为警告样本,遍历所述警告样本记录的订单量a,并统计当所述样本集中记录出现超过订单量a正常记录的数量b,并统计所述警告样本中超过订单量a的记录数量c,计算c/(b+c)的比率,当超过警告阈值,则设置规则当在时间窗口内订单数超过所述警告阈值时则触发告警,当触发告警时,根据告警规则将告警信息及时通知系统管理人员,让系统管理人员可以提前介入干预。
19、优选地,在步骤s3中,所述实时数据预测,进一步包括:
20、订单量预测,获取设定时间内的所述线上订单数据,根据所述差分阶数确定的阶数和参数调优法优化训练模型,预测未来设定时间内的订单量数据;
21、接口调用预测,根据设定时间内的所述线上订单数据、后台接口调用日志数据和所述线上订单数据的特征值,加载所述接口调用时序预测模型,预测未来设定时间内的接口调用数据;
22、cpu利用率预测,根据设定时间内的所述线上订单数据、后台接口调用日志数据、服务器运行数据和所述线上订单数据的特征值,预测未来下一时间刻度的接口调用数据。
23、一种结合人工智能算法的服务提前监控系统,包括:
24、线上订单数据模块,用于对线上订单数据的采集和存入数据库,根据所述线上订单数据和告警规则集构造订单量时序预测模型;
25、后台调用日志采集模块,用于对后台接口调用日志数据的采集和存储存入数据库,根据所述后台接口调用日志数据和所述告警规则集构造接口调用时序预测模型;
26、服务器资源模块,用于对服务器运行数据进行采集和存入数据库,根据所述服务器运行数据和所述告警规则集构造服务器cpu利用率预测模型;
27、监控告警模块,所述订单量时序预测模型、所述接口调用时序预测模型和所述服务器cpu利用率预测模型根据告警规则和所述告警规则集进行实时数据预测,根据所述订单量、所述接口调用量和所述cpu使用情况判断是否触发告警规则,当触发告警规则对后台管理人员进行告警。
28、与现有技术相比,本发明的有益效果是:
29、(1)本发明通过分别采集业务订单数据、接口服务调用数据以及服务器运行数据,充分考虑实际业务增长情况,以及直接触达服务器性能的接口调用情况,给服务器资源使用带来的影响,统计挖掘数据规律丰富服务器监控告警策略;
30、(2)本发明通过结合人工智能算法的预测功能对是否触发告警规则进行提前预警,让系统管理人员可以提前介入干预,大大提高系统服务稳定性,并可结合服务器使用情况便于系统管理人员更合理分配服务器资源。
本文地址:https://www.jishuxx.com/zhuanli/20241118/330035.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表