技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种计算集群温度告警方法、装置、存储介质及电子设备与流程  >  正文

一种计算集群温度告警方法、装置、存储介质及电子设备与流程

  • 国知局
  • 2024-07-31 23:27:35

本说明书涉及计算机,尤其涉及一种计算集群温度告警方法、装置、存储介质及电子设备。

背景技术:

1、随着科技的不断发展,计算集群应用的越来越广泛,尤其是面向大型人工智能训练部署领域的基于gpu的大规模计算集群。

2、由于计算集群常常需要执行模型训练以及推理等高算力的任务,因此,计算集群所在的机房可能会出现温度异常的现象。为了监测计算集群的温度,及时察觉并解决温度异常的情况,以防硬件受损或系统崩溃,一般是通过在计算集群所在的机房放置的传感器获取温度,再判断温度是否达到设置的告警阈值,基于判断结果进行温度告警。

3、但是,传感器可能存在误差,导致监测的温度数据不够准确,并且,传感器的位置选择可能不够合理,导致部分区域的温度监测不到位,无法及时发现温度异常。因此,如何对计算集群进行温度告警是一个非常重要的问题。

4、基于此,本说明书提供一种计算集群温度告警方法。

技术实现思路

1、本说明书提供一种计算集群温度告警方法、装置、存储介质及电子设备,以部分的解决现有技术存在的上述问题。

2、本说明书采用下述技术方案:

3、本说明书提供了一种计算集群温度告警方法,所述方法应用于计算集群,所述计算集群包括若干服务器;所述计算集群所在的物理环境中部署有若干传感器,所述传感器用于采集所述计算集群所在的物理环境的温度,所述方法包括:

4、获取各服务器的核心芯片的硬件温度;

5、将各硬件温度输入所述各服务器对应的预先训练的服务器告警模型,确定所述各服务器分别对应的第一状态;

6、确定通过各传感器采集到的环境温度,并将各第一状态和各环境温度输入预先训练的集群告警模型,确定所述计算集群对应的告警状态;

7、根据所述告警状态,对所述计算集群进行温度告警。

8、可选地,将各硬件温度输入所述各服务器对应的预先训练的服务器告警模型,确定所述各服务器分别对应的第一状态,具体包括:

9、针对每个服务器,将该服务器的硬件温度输入该服务器对应的预先训练的服务器告警模型,以从所述服务器告警模型包括的各第一规则中,确定与该服务器的硬件温度匹配的第一规则,并作为目标规则;所述第一规则至少包括第一结果;

10、将所述目标规则包括的第一结果作为该服务器对应的第一状态。

11、可选地,所述第一规则还包括第一条件;

12、从所述服务器告警模型包括的各第一规则中,确定与该服务器的硬件温度匹配的第一规则,并作为目标规则,具体包括:

13、针对每个第一规则,确定该第一规则包括的第一条件;

14、当该服务器的硬件温度满足所述第一条件时,将该第一规则作为该服务器的目标规则。

15、可选地,将各第一状态和各环境温度输入预先训练的集群告警模型,确定所述计算集群对应的告警状态,具体包括:

16、将各第一状态和各环境温度作为初始信息;

17、将所述初始信息输入预先训练的集群告警模型,以从所述集群告警模型包括的各第二规则中,确定与所述初始信息匹配的第二规则,并作为告警规则;所述第二规则至少包括第二结果;

18、将所述告警规则包括的第二结果作为所述计算集群对应的告警状态。

19、可选地,所述第二规则还包括第二条件;

20、从所述集群告警模型包括的各第二规则中,确定与所述初始信息匹配的第二规则,并作为告警规则,具体包括:

21、针对每个第二规则,确定该第二规则包括的第二条件;

22、当所述初始信息满足所述第二条件时,将该第二规则作为所述计算集群的告警规则。

23、可选地,预先训练各服务器告警模型,具体包括:

24、针对每个服务器,获取该服务器各历史时间段内的温度,并作为各第一样本;

25、针对每个第一样本,确定在该第一样本对应的历史时间段内该服务器对应的状态,并作为第一初始结果;

26、根据所述各第一样本,生成该第一样本对应的第一初始条件;

27、根据所述第一初始条件和所述第一初始结果,生成该第一样本对应的第一初始规则;

28、确定由各第一初始规则构成的第一初始模型,并作为该服务器对应的待训练的服务器告警模型;

29、根据所述各第一样本和所述各第一初始结果,对所述待训练的服务器告警模型进行训练。

30、可选地,预先训练集群告警模型,具体包括:

31、获取所述各服务器在各历史时间段内的状态,并作为各第二样本;以及获取所述各传感器在所述各历史时间段内采集到的温度,并作为各第三样本;

32、根据所述各第二样本和所述各第三样本,确定各第四样本;

33、针对每个第四样本,确定在该第四样本对应的历史时间段内所述计算集群对应的状态,并作为第二初始结果;

34、根据所述各第四样本,生成该第四样本对应的第二初始条件;

35、根据所述第二初始条件和所述第二初始结果,生成该第四样本对应的第二初始规则;

36、确定由各第二初始规则构成的第二初始模型,并作为所述计算集群对应的待训练的集群告警模型;

37、根据所述各第四样本和所述各第二初始结果,对所述待训练的集群告警模型进行训练。

38、本说明书中提供一种计算集群温度告警装置,所述装置应用于计算集群,所述计算集群包括若干服务器;所述计算集群所在的物理环境中部署有若干传感器,所述传感器用于采集所述计算集群所在的物理环境的温度,所述装置包括:

39、获取模块,用于获取各服务器的核心芯片的硬件温度;

40、第一确定模块,用于将各硬件温度输入所述各服务器对应的预先训练的服务器告警模型,确定所述各服务器分别对应的第一状态;

41、第二确定模块,用于确定通过各传感器采集到的环境温度,并将各第一状态和各环境温度输入预先训练的集群告警模型,确定所述计算集群对应的告警状态;

42、告警模块,用于根据所述告警状态,对所述计算集群进行温度告警。

43、本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述计算集群温度告警方法。

44、本说明书提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述计算集群温度告警方法。

45、本说明书采用的上述至少一个技术方案能够达到以下有益效果:

46、本说明书提供的计算集群温度告警方法,获取各服务器的核心芯片的硬件温度,将各硬件温度输入各服务器对应的预先训练的服务器告警模型,确定各服务器分别对应的第一状态。确定通过各传感器采集到的环境温度,并将各第一状态和各环境温度输入预先训练的集群告警模型,确定计算集群对应的告警状态,并根据告警状态,对计算集群进行温度告警。

47、从上述方法中可以看出,本技术在进行计算集群温度告警时,获取各服务器的核心芯片的硬件温度,将各硬件温度输入各服务器对应的预先训练的服务器告警模型,确定各服务器分别对应的第一状态。确定通过各传感器采集到的环境温度,并将各第一状态和各环境温度输入预先训练的集群告警模型,确定计算集群对应的告警状态,并根据告警状态,对计算集群进行温度告警。通过具有可解释性的多规则的服务器告警模型,自动化判断服务器的状态,以及通过具有可解释性的多规则的集群告警模型,自动化判断计算集群的告警状态,从而自动化对计算集群的温度进行监测,以避免计算集群的温度出现异常,以防硬件受损或系统崩溃。

本文地址:https://www.jishuxx.com/zhuanli/20240730/197681.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。