技术新讯 > 电子通信装置的制造及其应用技术 > 一种基于人工智能的集群运维管理系统及方法与流程  >  正文

一种基于人工智能的集群运维管理系统及方法与流程

  • 国知局
  • 2024-10-09 16:05:26

本发明涉及集群运维管理,具体为一种基于人工智能的集群运维管理系统及方法。

背景技术:

1、‌集群是一种由多个计算机节点组成的分布式系统。这些节点通常通过高速网络互联并协同工作,以实现大规模数据处理和分析。集群可以提供高可用性、高可扩展性和高效能计算能力,因此在大数据采集领域中具有广泛的应用价值。

2、现有集群运维系统中,通常配置一个服务器对集群中的各工作节点的运行状态进行控制,当配置的服务器发生故障或服务器出现负载不均衡时,会降低集群对数据的处理分析能力,以及现有系统中,无法根据集群中各工作节点的运行数据,对各工作节点之间的干扰情况进行分析,导致集群运维系统无法精准完成用户端下发的任务,以及无法对集群中各主节点的运维情况进行有效管理。

技术实现思路

1、本发明的目的在于提供一种基于人工智能的集群运维管理系统及方法,以解决上述背景技术中提出的问题。

2、为了解决上述技术问题,本发明提供如下技术方案:一种基于人工智能的集群运维管理方法,所述方法包括:

3、s10:基于冷源群控系统,构建用于执行冷源群控任务的集群,集群包括主节点、工作节点和计算节点,集群的工作节点为冷源群控系统中的各系统组件,工作节点用于执行冷源群控子任务,集群的主节点为冷源群控系统中的各控制调度服务器,主节点用于根据计算节点分发的冷源群控子任务对系统组件进行调度控制,计算节点用于对用户端下发的冷源群控任务进行拆分,得到若干个冷源群控子任务,并将各冷源群控子任务分发至匹配的主节点,集群通过tcp协议实现不同节点之间的相互通信,计算节点根据用户端下发的冷源群控任务,对目标工作节点进行确定,结合主节点对各由冷源群控子任务转换的任务代码的算力能力,对各任务代码的分发情况进行分析;

4、s20:在选定目标工作节点开始执行任务代码时,对选定目标工作节点的实时运行数据进行采集,将采集的实时运行数据与实时目标运行数据进行比较,对选定目标工作节点的实时异常特征矩阵进行分析,结合其他各目标工作节点在选定目标工作节点异常运行时间段内分析出的特征矩阵,对其他各目标工作节点对选定目标工作节点的实时干扰指数进行预测,以及对其它各目标工作节点对选定目标工作节点的干扰介入值进行分析;

5、s30:利用预测的干扰指数和干扰介入值对深度学习模型进行训练,得到优化深度学习模型,将选定目标工作节点的实时运行数据输入优化深度学习模型,对其他各目标工作节点对选定目标工作节点的实时干扰情况进行分析;

6、s40:根据分析出的其他各目标工作节点对选定目标工作节点的实时干扰情况,对集群的运维决策进行确定,目标主节点根据确定结果,对选定目标工作节点的运行数据进行调控。

7、进一步的,所述s10包括:

8、s101:计算节点对用户端下发的冷源群控任务进行获取,根据各工作节点执行的冷源群控任务内容,对获取的冷源群控任务进行拆分,得到若干个冷源群控子任务,每一个工作节点执行一个冷源群控子任务,根据各工作节点对冷源群控子任务的执行情况,对目标工作节点进行确定;

9、s102:对各目标工作节点执行的冷源群控子任务转换的任务代码的数据量进行获取,按照数据量由大到小的顺序逐一对目标工作节点进行选定,计算节点对由选定目标工作节点执行的冷源群控子任务转换的任务代码的数据量e进行获取,计算节点根据γi=ui/yi对编号为i的主节点对由选定目标工作节点执行的冷源群控子任务转换的任务代码的算力能力进行预测,其中,i=1,2,…,n,表示各主节点对应的编号,n表示主节点总数,yi表示编号为i的主节点能够存储的最大数据量,xi表示编号为i的主节点已存储的任务代码的数据量,若yi-xi-e≤0,则ui=0,若yi-xi-e>0,则ui=yi-xi-e;

10、s103:以maxγi对应的编号进行确定,设确定的编号为k,k=1,2,…,n,则计算节点将由选定目标工作节点执行的冷源群控子任务转换的任务代码分发至编号为k的主节点,其中,max表示最大值符号;

11、s104:重复s102-s103的操作,直至目标工作节点均被选定,对各任务代码的分发情况进行确定。避免各主节点之间出现负载不均衡,进而影响集群对冷源群控任务的执行效率,导致冷源群控系统无法正常运行。

12、进一步的,所述s20包括:

13、s201:将接收任务代码的主节点记为目标主节点,随机选取一个目标主节点,若选取目标主节点接收的任务代码,由选定目标工作节点执行的冷源群控子任务转换得到,则选取主节点与选定目标工作节点之间通过tcp协议构建通信通道,选取主节点将接收的任务代码通过构建的通信通道输送至选定目标工作节点中;

14、s202:在选定目标工作节点开始执行任务代码时,对选定应目标工作节点的实时运行数据进行采集,以及对选定目标工作节点的实时目标运行数据进行获取,将采集的实时运行数据与获取的实时目标运行数据进行比对,以时间为横坐标,运行数据为纵坐标构建平面直角坐标系,将比对不一致的实时运行数据在平面直角坐标系中进行表示,按照时间先后顺序对表示在平面直角坐标系中的实时运行数据点进行编号处理,编号处理结果为:j=1,2,…,m;m表示编号总数,根据t=[g12,g23,…,g(m-1)m]对选定目标工作节点的实时异常特征矩阵进行确定,其中,g(m-1)m表示通过编号为m-1和编号为m的实时运行数据点计算的斜率值,基于实时异常特征矩阵的确定方法,对其他各目标工作节点在[t1,t1+d*(m-1)]时间段内的特征矩阵进行确定,其中,t1表示编号为1的实时运行数据对应的采集时间,d表示运行数据的采集间隔时间;

15、s203:根据矩阵方程对其他各目标工作节点对选定目标工作节点的实时干扰指数进行分析,其中,q=1,2,…,p,表示其他各目标工作节点对应的编号,p表示其他目标工作节点总数,aq表示编号为q的目标工作节点对选定目标工作节点的干扰指数,wq表示编号为q的目标工作节点在[t1,t1+d*(m-1)]时间段内的特征矩阵,t´表示根据选定目标工作节点的实时目标运行数据得到的实时特征矩阵,wq´表示根据编号为q的目标工作节点的实时目标运行数据得到的特征矩阵;

16、s204:根据wq-wq´对编号为q的目标工作节点对选定目标工作节点的干扰介入值进行分析,记wq-wq´=[sq12,sq23,…,sq(m-1)m],若sq12+…+sqc(c+1)=0且sq12+…+sq(c+1)(c+2)≠0,c=1,2,…,m-2,则编号为q的目标工作节点在t1+d*(c+1)时间点对应的目标运行数据,为编号为q的目标工作节点对选定目标工作节点的干扰介入值。

17、进一步的,所述s30包括:

18、s301:对编号为q的目标工作节点在不同干扰介入值下对选定目标工作节点的干扰指数进行确定,得到若干组训练数据,每组训练数据均包括干扰指数和干扰介入值,将得到的各组训练数据放入集合aq中,将7:3作为集合aq的划分比例,分别得到训练集和测试集,利用训练集对深度学习模型f(v)=w×v+b进行训练,利用测试集对训练后的深度学习模型进行测试,对深度模型f(v)=w×v+b中的权值w和偏置b进行调整,得到优化深度学习模型,v表示干扰介入值,f(v)表示干扰指数;

19、s302:将编号为q的目标工作节点在z时刻的运行数据输入优化深度学习模型,对编号为q的目标工作节点在z时刻对选定目标工作节点的干扰指数aqz进行确定。

20、进一步的,所述 s40包括:对选定目标工作节点在z时刻的目标运行数据rz,以及选定目标工作节点在z时刻的运行数据fz进行获取,若fz=rz,则不对集群中调度控制选定目标工作节点的目标主节点的任务代码进行调整,若fz≠rz,则对集群中调度控制选定目标工作节点的目标主节点的任务代码进行调整,任务代码调整结果为:将任务代码中分析出的rz调整为;

21、集群中调度控制选定目标工作节点的目标主节点根据调整值,对选定目标工作节点的运行参数进行调控。

22、一种基于人工智能的集群运维管理系统,所述系统包括任务分发分析模块、运行数据处理模块、干扰分析模块和集群运维管理模块;

23、所述任务分发分析模块用于对各任务代码的分发情况进行分析;

24、所述运行数据处理模块用于对其他各目标工作节点对选定目标工作节点的实时干扰指数进行预测,以及对其它各目标工作节点对选定目标工作节点的干扰介入值进行分析;

25、所述干扰分析模块对其他各目标工作节点对选定目标工作节点的实时干扰情况进行分析;

26、所述集群运维管理模块用于对集群中的各目标主节点对目标工作节点的调度控制进行运维管理。

27、进一步的,所述任务分发分析模块包括目标工作节点确定单元、算力能力预测单元和任务代码分发单元;

28、所述目标工作节点确定单元根据各工作节点对冷源群控子任务的执行情况,对目标工作节点进行确定;

29、所述算力能力预测单元根据由选定目标工作节点执行的冷源群控子任务转换的任务代码的数据量、各主节点的存储容量,以及各主节点对任务代码的存储情况,对各主节点对由选定目标工作节点执行的冷源群控子任务转换的任务代码的算力能力进行预测;

30、所述任务代码分发单元对算力能力预测单元传输的预测结果进行接收,计算节点根据接收信息,将任务代码分发至匹配的主节点。

31、进一步的,所述运行数据处理模块包括任务代码输送单元、特征矩阵确定单元、干扰指数预测单元和干扰介入值分析单元;

32、所述任务代码输送单元通过选取主节点和选定目标工作节点之间构建的通信通道,将选取主节点中接收的任务代码输送至选定目标工作节点中;

33、所述特征矩阵确定单元在选定目标工作节点开始执行任务代码时,对选定应目标工作节点的实时运行数据进行采集,以及对选定目标工作节点的实时目标运行数据进行获取,将采集的实时运行数据与获取的实时目标运行数据进行比对,基于比对结果,对选定目标工作节点的实时异常特征矩阵,以及其它各目标工作节点在选定目标工作节点异常运行时间段内分析出的特征矩阵进行确定;

34、所述干扰指数预测单元根据特征矩阵确定单元传输的特征矩阵和实时异常特征矩阵,构建矩阵方程,对其他各目标工作节点对选定目标工作节点的干扰值进行预测;

35、所述干扰介入值分析单元根据特征矩阵确定单元传输的特征矩阵,对其他各目标工作节点对选定目标工作节点的干扰介入值进行分析。

36、进一步的,所述干扰分析模块包括优化深度学习模型训练单元和干扰情况分析单元;

37、所述优化深度学习模型训练单元根据其他各目标工作节点在不同干扰介入值下对选定目标工作节点的干扰指数,得到深度学习模型的训练集和测试集,利用训练集和测试集分别对深度训练模型进行训练、测试,得到优化深度学习模型;

38、所述干扰情况分析单元将其他各目标工作节点的实时运行数据输入优化深度学习模型,对其他各目标工作节点对选定目标工作节点的实时干扰指数进行确定。

39、进一步的,所述集群运维管理模块将选定目标节点的实时目标运行数据与选定目标工作节点的实时运行数据进行比较,对集群中调度控制选定目标工作节点的目标主节点的运维情况进行管理。

40、与现有技术相比,本发明所达到的有益效果是:

41、1.本发明通过对各主节点对各任务代码的算力能力,对计算节点对各任务代码的分发情况进行确定,分发过程中,能够避免各主节点出现负载不均衡的情况,进而保证集群对冷源群控任务的执行效率。

42、2.本发明通过将采集的实时运行数据与获取的实时目标运行数据进行比对,对选定目标工作节点的实时异常特征矩阵和其他各目标工作节点的特征矩阵进行确定,并根据确定结果,构建矩阵方程,对其他各目标工作节点对目标工作节点的干扰指数进行预测,避免由于各冷源群控子任务之间存在的干扰,导致对应目标工作节点的运行数据与目标运行数据之间存在较大差异,有利于保证集群能够精准完成用户端下发的冷源群控任务。

43、3.本发明通过对干扰介入值和干扰指数之间的关系进行寻找,有利于快速对各目标主节点的目标运行数据进行运维管理,进一步提高了系统的使用效果。

本文地址:https://www.jishuxx.com/zhuanli/20240929/311619.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。