技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种高温异常处理方法、装置、电子设备及存储介质与流程  >  正文

一种高温异常处理方法、装置、电子设备及存储介质与流程

  • 国知局
  • 2024-08-30 14:33:48

本公开涉及服务器异常处理领域,具体涉及一种高温异常处理方法、装置、电子设备及存储介质。

背景技术:

1、随着当前国内算力需求的激增,服务器订单量也相应增加。由于订单量大幅增长,工厂不得不在夜间对服务器进行测试,以应对订单排队的情况。然而,由于人力短缺的问题,以及在压力测试过程中硬件故障可能导致的烧机风险,工厂在夜间遇到了一些挑战。

2、在测试过程中,机器传感器可能会读取到异常的温度,但由于人力不足,夜间无法及时有效地进行人工断电维修处理。这可能导致固件烧毁,甚至引发起火等严重风险。此外,由于大量机器同时进行测试,由于硬件来料问题,经常会发生批量高温异常现象。一旦出现问题,由于无法及时处理,机器将持续开机状态,造成电力资源的浪费。

技术实现思路

1、本公开实施例提供一种高温异常处理方法、装置、电子设备及存储介质,旨在解决上述背景技术存在的问题。

2、为了解决上述技术问题,本公开是这样实现的:

3、第一方面,本公开实施例提供了一种高温异常处理方法,所述方法包括:

4、在获取到服务器的错误码的情况下,根据所述错误码,确定出所述服务器的各个硬件部件;

5、检查各个所述硬件部件的实际温度值是否存在高温异常,以及,检查所述错误码的状态值;所述状态值表征所述错误码对应的错误是否被处理;

6、在检查到所述服务器的任一硬件部件的实际温度值连续多次存在高温异常,并且所述错误码的状态值表征所述错误未被处理的情况下,向所述服务器对应的目标电源管理单元发送断电指令,所述断电指令用于指示所述目标电源管理单元对所述服务器进行断电。

7、可选地,在所述根据所述错误码,确定出所述服务器的各个硬件部件之前,所述方法还包括:

8、在接收到生产测试的指令后,从数据库中确定出所述服务器对应的状态记录;

9、循环扫描所述服务器对应的状态记录是否存在所述错误码。

10、可选地,所述状态记录包括:服务器序列号、服务器机型和错误码;

11、在所述从数据库中确定出所述服务器对应的状态记录之前,所述方法还包括:

12、循环遍历所述服务器的测试日志文件,在所述测试日志文件中查找错误码;

13、在所述测试日志文件中查找到所述错误码的情况下,获取所述服务器的服务器序列号和服务器机型;

14、将所述服务器序列号和所述服务器机型以及所述错误码写入到所述数据库中;

15、所述从数据库中确定出所述服务器对应的状态记录,包括:

16、获取所述服务器序列号;

17、基于所述服务器序列号,从所述数据库中读取所述服务器序列号对应的状态记录。

18、可选地,所述检查各个所述硬件部件的实际温度值是否存在高温异常,以及,检查所述错误码的状态值,包括:

19、从所述状态记录中确定出服务器机型;

20、基于所述服务器机型,从所述数据库中保存的预定义温度表中,获取与所述服务器机型对应的各个硬件部件各自的最大温度阈值;

21、多次获取所述服务器机型对应的各个硬件部件各自的实际温度值;

22、根据所述各个硬件部件各自的最大温度阈值,以及多次获取的所述服务器机型对应的各个硬件部件各自的实际温度值,检查所述服务器的各个硬件部件的实际温度值是否高温异常,并多次检查所述错误码的状态值。

23、可选地,所述根据所述各个硬件部件各自的最大温度阈值,以及多次获取的所述服务器机型对应的各个硬件部件各自的实际温度值,检查所述服务器的各个硬件部件的实际温度值是否高温异常,并多次检查所述错误码的状态值,包括:

24、检查所述错误码的第一状态值;

25、将所述服务器机型对应的各个硬件部件各自的实际温度值作为各个硬件部件各自的第一温度值,并将所述各个硬件部件各自的第一温度值与各个硬件部件各自对应的最大温度阈值进行比较;

26、在检查到所述服务器的任一硬件部件的第一温度值超过所述硬件部件对应的最大温度阈值的情况下,确定所述硬件部件存在高温异常;

27、在确定所述硬件部件的存在高温异常,并且在检查到所述错误码的第一状态值表征所述错误未被处理的情况下,基于预设休眠时长进行休眠;

28、在休眠所述预设休眠时长后,重新获取所述服务器的各个硬件部件各自的第二温度值,重新检查所述错误码的第二状态值,并将所述各个硬件部件各自的第二温度值作为所述各个硬件部件各自的第一温度值,以及将所述错误码的第二状态值作为所述错误码的第一状态值,执行步骤:将所述各个硬件部件各自的第一温度值与各个硬件部件各自对应的最大温度阈值进行比较;

29、在休眠次数达到预设最大值的情况下,退出检查。

30、可选地,在所述向所述服务器对应的目标电源管理单元发送断电指令之前,所述方法还包括:

31、获取所述目标电源管理单元的静态ip地址、厂商信息和端口编号,所述静态ip地址和端口编号是预先针对所述目标电源管理单元进行配置的;

32、根据所述目标电源管理单元的静态ip地址,在所述服务器的多个电源管理单元中确定出所述目标电源管理单元;

33、根据所述目标电源管理单元的厂商信息和端口编号,向所述目标电源管理单元发送相应的断电指令,所述断电指令用于指示对所述目标电源管理单元上相应的端口进行断电。

34、可选地,所述获取所述目标电源管理单元的静态ip地址、厂商信息和端口编号,包括:

35、获取所述服务器序列号;

36、根据所述服务器序列号,从数据库中获取所述服务器对应的目标电源管理单元的静态ip地址、端口编号和厂商信息。

37、第二方面,本公开实施例提供了一种高温异常处理装置,所述装置包括:

38、错误码确定模块,用于在获取到服务器的错误码的情况下,根据所述错误码,确定出所述服务器的各个硬件部件;

39、检查模块,用于检查各个所述硬件部件的实际温度值是否存在高温异常,以及,检查所述错误码的状态值;所述状态值表征所述错误码对应的错误是否被处理;

40、断电模块,用于在检查到所述服务器的任一硬件部件的实际温度值连续多次存在高温异常,并且所述错误码的状态值表征所述错误未被处理的情况下,向与所述服务器对应的目标电源管理单元发送断电指令,所述断电指令用于指示所述目标电源管理单元对所述服务器进行断电。

41、可选地,所述装置还包括:

42、状态记录确定模块,用于在接收到生产测试的指令后,从数据库中确定出所述服务器对应的状态记录;

43、错误码扫描模块,用于循环扫描所述服务器对应的状态记录是否存在所述错误码;

44、可选地,所述状态记录包括:服务器序列号、服务器机型和错误码;所述装置还包括:

45、错误码查找模块,用于循环遍历所述服务器的测试日志文件,在所述测试日志文件中查找错误码;

46、获取模块,用于在所述测试日志文件中查找到所述错误码的情况下,获取所述服务器的服务器序列号和服务器机型;

47、写入模块,用于将所述服务器序列号和所述服务器机型以及所述错误码写入到所述数据库中。

48、所述状态记录确定模块包括:

49、序列号获取子模块,用于获取所述服务器序列号;

50、状态记录读取子模块,用于基于所述服务器序列号,从所述数据库中读取所述服务器序列号对应的状态记录

51、可选地,所述检查模块包括:

52、机型确定子模块,用于从所述状态记录中确定出服务器机型;

53、阈值获取子模块,用于基于所述服务器机型,从所述数据库中保存的预定义温度表中,获取与所述服务器机型对应的各个硬件部件各自的最大温度阈值;

54、多次获取子模块,用于多次获取所述服务器机型对应的各个硬件部件各自的实际温度值;

55、多次检查子模块,用于根据所述各个硬件部件各自的最大温度阈值,以及多次获取的所述服务器机型对应的各个硬件部件各自的实际温度值,检查所述服务器的各个硬件部件的实际温度值是否高温异常,并多次检查所述错误码的状态值。

56、所述多次检查子模块包括:

57、检查单元,用于检查所述错误码的第一状态值;

58、比较单元,用于将所述服务器机型对应的各个硬件部件各自的实际温度值作为各个硬件部件各自的第一温度值,并将所述各个硬件部件各自的第一温度值与各个硬件部件各自对应的最大温度阈值进行比较;

59、确定单元,用于在检查到所述服务器的任一硬件部件的第一温度值超过所述硬件部件对应的最大温度阈值的情况下,确定所述硬件部件存在高温异常;

60、休眠单元,用于在确定所述硬件部件的存在高温异常,并且在检查到所述错误码的第一状态值表征所述错误未被处理的情况下,基于预设休眠时长进行休眠;

61、重新检查单元,用于在休眠所述预设休眠时长后,重新获取所述服务器的各个硬件部件各自的第二温度值,重新检查所述错误码的第二状态值,并将所述各个硬件部件各自的第二温度值作为所述各个硬件部件各自的第一温度值,以及将所述错误码的第二状态值作为所述错误码的第一状态值,执行步骤:将所述各个硬件部件各自的第一温度值与各个硬件部件各自对应的最大温度阈值进行比较;

62、退出单元,用于在休眠次数达到预设最大值的情况下,退出检查。

63、可选地,所述装置还包括:

64、目标电源管理单元信息获取模块,用于获取所述目标电源管理单元的静态ip地址、厂商信息和端口编号,所述静态ip地址和端口编号是预先针对所述目标电源管理单元进行配置的;

65、目标电源管理单元确定模块,用于根据所述目标电源管理单元的静态ip地址,在所述服务器的多个电源管理单元中确定出所述目标电源管理单元;

66、断电指令发送模块,用于根据所述目标电源管理单元的厂商信息和端口编号,向所述目标电源管理单元发送相应的断电指令,所述断电指令用于指示对所述目标电源管理单元上相应的端口进行断电。

67、可选地,所述目标电源管理单元信息获取模块包括:

68、序列号获取子模块,用于获取所述服务器序列号;

69、目标电源管理单元信息获取子模块,用于根据所述服务器序列号,从数据库中获取所述服务器对应的目标电源管理单元的静态ip地址、端口编号和厂商信息。

70、第三方面,本公开实施例提供了一种电子设备,包括:处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现高温异常处理方法的步骤。

71、第四方面,本公开实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现高温异常处理方法的步骤。

72、本公开的实施例提供的技术方案至少带来以下有益效果:

73、本公开实现了对服务器高温异常情况的自动监测和处理,无需依赖人工介入,能够在夜间等人力短缺的情况下,及时有效地应对硬件故障可能导致的高温异常,降低了因此带来的风险,如固件烧毁和起火。通过定时获取本机报错错误码,并检查各个硬件部件的实际温度值以及错误码的状态值,实现了对服务器状态的实时监控。一旦连续多次检测到高温异常且错误未被处理,可以立即向目标电源管理单元发送断电指令,实现了对异常情况的及时处理,防止进一步损坏硬件。

本文地址:https://www.jishuxx.com/zhuanli/20240830/282719.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。