平台运维集群中控管理系统的制作方法
- 国知局
- 2024-08-22 14:38:25
本发明涉及运维管理,具体为平台运维集群中控管理系统。
背景技术:
1、平台运维集群中控管理系统是指对大规模服务器集群进行统一管理和运维的平台系统。典型的平台运维集群由成千上万台物理服务器或虚拟机组成,用于运行各种业务应用程序,为终端用户提供不同的服务;现有的平台运维集群中控管理系统依然存在以下问题:
2、1.传统运维系统由于缺乏精准的负载预测能力,难以合理分配资源,导致资源利用率低下。为应对突发流量、避免系统瓶颈,不得不预留大量冗余资源,增加了硬件和运维成本。
3、2.随着业务需求的动态变化,现有系统难以快速响应并进行资源调整,以满足不断变化的应用需求,影响了业务连续性和用户体验。
技术实现思路
1、为了解决上述问题,本发明提供了平台运维集群中控管理系统。
2、本发明采用以下技术方案,平台运维集群中控管理系统,运维集群包括i种类型服务器,服务器包括多个处理节点,所述系统包括:
3、数据采集模块,用于采集i种类型单位时间的服务器时间序列数据,服务器时间序列数据包括服务器日志数据、服务器性能数据、用户行为数据、事件数据与天气数据;
4、第一数据处理模块,用于将第i种类型的服务器时间序列数据输入预训练的第i种类型的服务器负载预测模型中,获得未来时刻第i种类型服务器负载数据;
5、第二数据处理模块,根据未来时刻第i种类型服务器负载数据,判断是否对第i种类型服务器的处理节点,进行节点资源调整;若进行节点资源调整,则根据第i种类型服务器负载数据,生成与第i种类型服务器的处理节点调整策略。
6、作为上述技术方案的进一步描述:服务器日志数据包括请求数、会话数、状态码分布数量;状态码分布数量为各类状态码单位时间内的数量;服务器性能数据包括cpu使用率、内存使用率、磁盘i/o与网络流量;用户行为数据包括单位时间内的在线人数与在线总时长;事件数据包括节假日事件与体育赛事事件;天气数据包括温度与季节,温度为单位时间内的最高温度、季节为单位时间所处的季节。
7、作为上述技术方案的进一步描述:服务器负载数据包括请求数、cpu使用率、内存使用率、磁盘i/o、网络流量与会话数。
8、作为上述技术方案的进一步描述:所述服务器负载预测模型的训练方法包括:
9、预先收集服务器负载样本集,所述服务器负载样本包括服务器时间序列数据以及服务器负载数据,将服务器负载样本转换为特征向量;
10、预设预测时间步长t、滑动步长以及滑动窗口长度;将服务器负载样本集使用滑动窗口方法将其转化为多个训练样本,一个训练样本对应一个标签,并构成一组训练数据;
11、将训练数据作为服务器负载预测模型的输入,预测时间步长t后的未来时刻服务器负载数据作为输出,以每个时间步长t后的未来时刻实际服务器负载数据为预测目标,以预测准确率作为训练目标,对服务器负载预测模型进行训练,得到满足预测准确率的服务器负载预测模型;服务器负载预测模型为长短期记忆网络(lstm)或随机森林回归模型。
12、作为上述技术方案的进一步描述:判断是否进行节点资源调整的方法包括:
13、若预测的cpu使用率与内存使用率超过预设对应的阈值,或磁盘i/o低于预设阈值时,则对第i种类型服务器的处理节点,进行节点资源调整;反之则不进行节点资源调整。
14、作为上述技术方案的进一步描述:处理节点调整策略包括硬件调整策略与流量调整策略。
15、作为上述技术方案的进一步描述:硬件调整策略的生成方法包括:
16、将未来时刻的请求数、会话数、cpu使用率、内存使用率输入预训练的硬件调整模型中,输出标准节点硬件的增加数量;标准节点硬件为预先定制。
17、作为上述技术方案的进一步描述:所述硬件调整模型的训练方法包括:
18、预先收集u组调整数据;所述调整数据包括调整特征数据与标准节点硬件的增加数量;所述调整特征数据包括请求数、会话数、cpu使用率与内存使用率;所述调整特征数据在生成处理节点调整策略的情况下采集,在对应调整特征数据增加的标准节点硬件后,cpu使用率与内存使用率均未超过预设对应的阈值,以及磁盘i/o大于或等于预设阈值;
19、将所有调整数据作为硬件调整模型的输入,所述硬件调整模型以对每组调整特征数据预测的标准节点硬件的增加数量作为输出,以每组调整特征数据对应的实际标准节点硬件的增加数量作为预测目标,以最小化所有预测的标准节点硬件的增加数量的第一预测准确度之和作为训练目标;
20、对硬件调整模型进行训练,直至第一预测准确度之和达到收敛时停止训练;所述硬件调整模型为rnn模型或cnn模型。
21、作为上述技术方案的进一步描述:所述流量调整策略的生成方法包括:
22、将未来时刻的请求数与会话数输入预训练的流量调整模型中,输出带宽增量。
23、作为上述技术方案的进一步描述:所述流量调整模型的训练方法包括:
24、预先收集k组流量调整训练数据;流量调整训练数据包括流量调整特征数据与带宽增量;所述流量调整特征数据包括请求数与会话数;所述流量调整特征数据在生成处理节点调整策略的情况下采集,在对应流量调整特征数据增加带宽增量后,cpu使用率与内存使用率均未超过预设对应的阈值,以及磁盘i/o大于或等于预设阈值;
25、将所有流量调整训练数据作为流量调整模型的输入,所述流量调整模型以对每组流量调整特征数据预测的带宽增量作为输出,以每组流量调整特征数据对应的实际带宽增量作为预测目标,以最小化所有预测的带宽增量的第二预测准确度之和作为训练目标;对流量调整模型进行训练,直至第二预测准确度之和达到收敛时停止训练;所述流量调整模型为rnn模型或cnn模型。
26、有益效果:
27、本发明提供的平台运维集群中控管理系统,通过采集各种类型服务器单位时间的时间序列数据,包括日志数据、服务器性能数据、用户行为数据、事件数据与天气数据,来建立与未来时间的各种类型服务器负载数据之间的映射关系,通过实时单位时间的时间序列数据预测未来时刻的服务器负载数据;提前得知各种类型服务器的负载情况,若未来服务器资源不满足未来时刻用户的需求,通过未来时刻的请求数、会话数、cpu使用率、内存使用率,预测需要标准节点硬件的增加数量,以及通过未来时刻的请求数与会话数,预测未来时刻的带宽增量;实现根据业务需求动态调配资源,有效应对业务动态变化,保障业务的连续性。
28、通过对服务器负载进行预测,系统能够根据预测结果合理调整硬件资源和网络带宽,避免资源闲置造成浪费,提高资源利用效率,避免了预留大量冗余资源;同时通过预测并及时扩展带宽,确保网络通畅,优化用户体验。
29、系统整合了多种智能模型,通过数据建模和智能算法结合,能够自动化地优化资源利用、提高运维集群服务器稳定性,并能够应对业务的动态变化,提升了运维效率和服务质量。
技术特征:1.平台运维集群中控管理系统,运维集群包括i种类型服务器,服务器包括多个处理节点,其特征在于,所述系统包括:
2.根据权利要求1所述的平台运维集群中控管理系统,其特征在于,服务器日志数据包括请求数、会话数、状态码分布数量;状态码分布数量为各类状态码单位时间内的数量;服务器性能数据包括cpu使用率、内存使用率、磁盘i/o与网络流量;用户行为数据包括单位时间内的在线人数与在线总时长;事件数据包括节假日事件与体育赛事事件;天气数据包括温度与季节,温度为单位时间内的最高温度、季节为单位时间所处的季节。
3.根据权利要求1所述的平台运维集群中控管理系统,其特征在于,服务器负载数据包括请求数、cpu使用率、内存使用率、磁盘i/o、网络流量与会话数。
4.根据权利要求3所述的平台运维集群中控管理系统,其特征在于,所述服务器负载预测模型的训练方法包括:
5.根据权利要求3所述的平台运维集群中控管理系统,其特征在于,判断是否进行节点资源调整的方法包括:
6.根据权利要求5所述的平台运维集群中控管理系统,其特征在于,处理节点调整策略包括硬件调整策略与流量调整策略。
7.根据权利要求6所述的平台运维集群中控管理系统,其特征在于,硬件调整策略的生成方法包括:
8.根据权利要求7所述的平台运维集群中控管理系统,其特征在于,所述硬件调整模型的训练方法包括:
9.根据权利要求6所述的平台运维集群中控管理系统,其特征在于,所述流量调整策略的生成方法包括:
10.根据权利要求9所述的平台运维集群中控管理系统,其特征在于,所述流量调整模型的训练方法包括:
技术总结本发明涉及运维管理技术领域,特别涉及平台运维集群中控管理系统,运维集群包括i种类型服务器,服务器包括多个处理节点,所述系统包括:数据采集模块,用于采集i种类型单位时间的服务器时间序列数据,服务器时间序列数据包括服务器日志数据、服务器性能数据、用户行为数据、事件数据与天气数据;第一数据处理模块,用于将第i种类型的服务器时间序列数据输入预训练的第i种类型的服务器负载预测模型中,获得未来时刻第i种类型服务器负载数据;避免资源闲置造成浪费,提高资源利用效率,避免了预留大量冗余资源;同时通过预测并及时扩展带宽,确保网络通畅,优化用户体验。技术研发人员:陈鲲,唐锐,杨超受保护的技术使用者:云南神经元信息技术有限公司技术研发日:技术公布日:2024/8/20本文地址:https://www.jishuxx.com/zhuanli/20240822/279341.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。