一种云计算通用的块存储和文件存储业务异常监测方法与流程
- 国知局
- 2024-09-11 15:01:47
本发明属于存储业务异常监测方法,尤其涉及一种云计算通用的块存储和文件存储业务异常监测方法及监测系统。
背景技术:
1、在云计算领域,针对存储异常io的监控是一个重要的研究方向,它涉及到业务中断、eio(设备输入/输出错误)以及时延过大等问题的检测和处理。目前使用的存储监控主要包括以下几类:(1)当前性能监控和管理:云计算监控的关键用例之一是性能监控和管理,目的是实时了解应用程序和服务的性能表现,及时发现和解决潜在的性能问题;(2)安全监控:安全监控可以帮助企业和组织监控云计算环境的安全性,及时发现和应对安全威胁,帮助解决与存储相关的安全问题;(3)存储空间监控:云监控服务能够及时获取存储空间不足的实例信息,有助于避免因存储空间不足导致的数据无法写入和业务影响。
2、综上所述,目前对于存储业务的监控,大多是针对正常情况下的业务性能和空间,但是对于存储业务的异常情况,如io短暂跌0、发生eio或者时延过大等情况仍缺乏可靠有效的监控手段,因而难以满足用户对存储业务的多方位监控需求。
技术实现思路
1、为了克服现有存储监控方法无法在存储业务发生异常情况时对其进行有效监控的缺陷,本发明提出了一种新的云计算通用的块存储和文件存储业务异常监测方法。通过本方法可以对块存储和文件存储的业务异常进行及时监测和上报告警,使得故障能够得到及时处理,有助于提升运维效率。
2、本发明方法和系统的设计要点包括:
3、1.性能阈值设定与响应机制:本发明涵盖一种根据预设性能阈值(如内存使用率超过60%)自动触发响应措施(如内存加压)的系统和方法。
4、2.故障模拟与压力测试:本发明包括使用特定工具(如stress)对云主机进行内存加压,以模拟故障和进行压力测试的方法。
5、3.实时性能监控与日志记录:本发明包括一种实时监控云主机性能并记录测试结果的系统,包括每1秒打印一次结果的机制,本发明系统对于业务的闪断监控尤其敏感,对于存储业务连续性要求较高的业务比较友好。
6、4.超时时间设置与异常检测:本发明涵盖一种设置业务最大时延并检测时延超标或异常(如业务跌0或err io)的方法,本方法可以适用于多种存储类型的监控。
7、5.自动化脚本执行:本发明提供一种执行自动化脚本以进行性能测试和监控的方法,该脚本能够根据预设参数(如超时时间)自动调整行为。
8、具体地,本发明提供了一种云计算通用的块存储和文件存储业务异常监测方法,如图8所示,本方法包括下述步骤:
9、s1.在云平台上创建云主机ecs,同时附带创建一块数据盘;
10、s2.在云平台上针对步骤s1创建的云主机ecs创建告警规则;
11、s3.登录步骤s1创建的云主机ecs并安装相关组件,对块存储或文件存储下发读写业务,运行vdbench脚本进行存储测试,并将vdbench运行的结果文件替换到监控脚本的vdbench_file参数中;
12、s4.设置业务最大时延,执行监控脚本并将业务最大时延设置为超时时延;
13、s5.持续监控业务执行过程,当执行业务的时延大于步骤s4设置的超时时延或出现其他错误时,脚本使用stress工具对告警规则监控的指标参数进行修改实现故障模拟,进而触发步骤s2设置的告警规则。
14、进一步地,本发明云计算通用的块存储和文件存储业务异常监测方法步骤s2中所述的告警规则监控的指标包括但不限于:虚拟内存使用率、cpu使用率、cpu平均负载;
15、所述监控指标的参数可通过stress工具进行修改。
16、进一步地,本发明云计算通用的块存储和文件存储业务异常监测方法步骤s3中所述的相关组件包括但不限于:stress组件、bc计算器组件和监控执行脚本、vdbench工具、vdbench运行脚本和vdbench配置文件。
17、进一步地,本发明云计算通用的块存储和文件存储业务异常监测方法步骤s3中所述的对块存储或文件存储下发读写业务,下发的读写业务需保证vdbench每1秒打印一次结果。
18、可选地,本发明云计算通用的块存储和文件存储业务异常监测方法步骤s3中所述的对块存储或文件存储下发读写业务,下发的读写业务需保证vdbench每2秒或每5秒打印一次结果。
19、进一步地,本发明云计算通用的块存储和文件存储业务异常监测方法步骤s5中所述的其他错误包括但不限于:io业务跌0、err io。
20、优选地,本发明云计算通用的块存储和文件存储业务异常监测方法步骤s5中所述的脚本使用stress工具对告警规则监控的指标参数进行修改实现故障模拟,进而触发步骤s2设置的告警规则,当告警规则监控的指标为虚拟内存使用率时,脚本使用stress工具对ecs进行内存加压,使ecs内存使用占比异常升高,进而触发虚拟内存使用率告警规则。
21、另一方面,本发明还提供了一种云计算通用的块存储和文件存储业务异常监测系统,本监测系统运行时实现上述的云计算通用的块存储和文件存储业务异常监测方法的步骤。
22、另外,本发明还提供了一种计算机可读存储介质,所述存储介质上存储有计算机程序,所述程序被处理器执行时实现上述的云计算通用的块存储和文件存储业务异常监测方法的步骤。
23、综上,本发明云计算通用的块存储和文件存储业务异常监测方法具有以下优点:
24、(1)本方法集成了云计算资源管理、性能监控、自动化测试和告警系统,提供了一种新的云资源性能管理和故障模拟解决方案。本方法通过自动化测试和告警机制,可以更有效地监控和使用云资源,确保了资源的高效利用。
25、(2)本方法通过模拟故障和性能瓶颈,可以提前发现并解决潜在问题,增强了系统的稳定性和可靠性,且本方法在执行过程中不会影响其他云资源的使用,只会对当前云主机ecs造成影响,保障了云资源的独立性和安全性。
26、(3)本方法中采用的自动化监控和告警流程减少了人工检查和干预,降低了人力成本,且自动化监控和告警系统可以快速响应性能问题,及时采取措施,提升了响应速度,减少了系统故障时间。
27、(4)本方法采用基于数据驱动的决策,通过收集和分析性能数据,可以基于实际数据做出更加合理的资源管理和扩展决策。
技术特征:1.一种云计算通用的块存储和文件存储业务异常监测方法,其特征在于,所述方法包括:
2.根据权利要求1所述的云计算通用的块存储和文件存储业务异常监测方法,其特征在于,步骤s2中所述的告警规则监控的指标包括:虚拟内存使用率、cpu使用率、cpu平均负载;
3.根据权利要求1所述的云计算通用的块存储和文件存储业务异常监测方法,其特征在于,步骤s3中所述的相关组件包括:stress组件、bc计算器组件和监控执行脚本、vdbench工具、vdbench运行脚本和vdbench配置文件。
4.根据权利要求1所述的云计算通用的块存储和文件存储业务异常监测方法,其特征在于,步骤s3中所述的对块存储或文件存储下发读写业务,下发的读写业务需保证vdbench每1秒打印一次结果。
5.根据权利要求1所述的云计算通用的块存储和文件存储业务异常监测方法,其特征在于,步骤s3中所述的对块存储或文件存储下发读写业务,下发的读写业务需保证vdbench每2秒或每5秒打印一次结果。
6.根据权利要求1所述的云计算通用的块存储和文件存储业务异常监测方法,其特征在于,步骤s5中所述的其他错误包括:io业务跌0、err io。
7.根据权利要求1所述的云计算通用的块存储和文件存储业务异常监测方法,其特征在于,步骤s5中所述的脚本使用stress工具对告警规则监控的指标参数进行修改实现故障模拟,进而触发步骤s2设置的告警规则,当告警规则监控的指标为虚拟内存使用率时,脚本使用stress工具对ecs进行内存加压,使ecs内存使用占比异常升高,进而触发虚拟内存使用率告警规则。
8.一种云计算通用的块存储和文件存储业务异常监测系统,其特征在于,所述监测系统运行时实现权利要求1-7任一项所述的云计算通用的块存储和文件存储业务异常监测方法的步骤。
9.一种计算机可读存储介质,所述存储介质上存储有计算机程序,所述程序被处理器执行时实现权利要求1-7任一项所述的云计算通用的块存储和文件存储业务异常监测方法的步骤。
技术总结本发明涉及一种云计算通用的块存储和文件存储业务异常监测方法。本方法包括:创建云主机ECS和数据盘;创建告警规则;登录ECS并安装相关组件,对存储下发读写业务,运行vdbench脚本进行存储测试,并将vdbench运行的结果文件替换到监控脚本的vdbench_file参数中;执行监控脚本并将业务最大时延设置为超时时延;监控业务执行过程,当业务的时延大于超时时延或出现其他错误时,脚本使用stress工具对告警规则监控的指标参数进行修改实现故障模拟,进而触发告警规则。本方法通过自动化测试和告警机制提升了系统故障响应速度,可以更有效地监控和使用云资源,确保了资源的高效利用,同时,本方法通过模拟故障,可以提前发现并解决潜在问题,增强了系统的稳定性和可靠性。技术研发人员:余志灏受保护的技术使用者:中电云计算技术有限公司技术研发日:技术公布日:2024/9/9本文地址:https://www.jishuxx.com/zhuanli/20240911/292929.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。