处理器检测装置、方法、控制器、介质及程序产品与流程
- 国知局
- 2024-07-31 23:23:42
本发明涉及处理器监测,具体涉及处理器检测装置、方法、控制器、介质及程序产品。
背景技术:
1、gpu(graphics processing unit,图形处理器)作为ai(artificialintelligence,人工智能)服务器的核心组件,扮演着至关重要的角色,其并行处理能力和高效能力,使其成为处理大规模数据和复杂计算的理想选择。由于gpu在高性能计算时会产生大量热量,若散热不良可能导致性能下降甚至损坏硬件,当前主流的散热方案分别为水冷及风冷两种。无论是水冷还是风冷,都需要为gpu增装散热器,使用硅脂或垫片作为导热介质填充在gpu和散热器之间传递热量,同时使用螺丝将散热器与gpu基板锁固在一起,构成gpu模组。
2、相关技术中,主要依靠维护人员的目检判断散热器与gpu锁固接触效果是否良好,只能在gpu模组还未安装至机箱内部之前进行判断,对于gpu固定基板较小的形变形成的导热空隙也无法进行有效的识别,此外gpu固定基板形变主要发生在长时间的运行中,维护人员不能持续跟踪监测gpu固定基板是否发生了变形。
技术实现思路
1、有鉴于此,本发明提供了一种处理器检测装置、方法、控制器、介质及程序产品,以对处理器的形变情况以及散热能力进行监控。
2、第一方面,本发明提供了一种处理器检测装置,所述装置包括:
3、至少一个图形处理器基板,所述图形处理器基板上设有应变片,所述应变片用于基于所述图形处理器基板的形变确定目标电阻;
4、至少一个电压模块,所述电压模块的输入端与所述应变片连接,用于将所述目标电阻转换为主板管理控制器的输入电压,所述电压模块与所述图形处理器基板一一对应;
5、主板管理控制器,所述主板管理控制器用于基于所述输入电压与标准电压进行计算,以确定所述图形处理器基板的形变值,所述标准电压用于表征初始状态时所述图形处理器基板所对应的所述主板管理控制器的输入电压;
6、第一开关设备,所述第一开关设备的输入端与所述至少一个电压模块连接,输出端与所述主板管理控制器连接,所述第一开关设备用于将任一所述图形处理器基板对应的输入电压作为所述主板管理控制器的输入。
7、在一种可选的实施方式中,所述装置还包括:
8、第一开关设备,所述第一开关设备的输入端与所述至少一个电压模块连接,输出端与所述主板管理控制器连接,所述第一开关设备用于将任一所述图形处理器基板对应的输入电压作为所述主板管理控制器的输入。
9、在一种可选的实施方式中,所述装置还包括:
10、第一测温设备,所述第一测温设备设于图形处理器基板,用于测量所述图形处理器基板的第一温度;
11、第二测温设备,所述第二测温设备设于所述图形处理器基板所在机箱内,所述第二测温设备的输出端与所述主板管理控制器连接,用于测量机箱内的第二温度;
12、功率检测设备,所述功率检测设备用于监测所述图形处理器基板的运行功耗;
13、风扇测速设备,所述风扇测速设备的输入端与风扇连接,输出端与所述主板管理控制器连接,用于获取所述风扇转速。
14、在一种可选的实施方式中,所述装置还包括:
15、第二开关设备,所述第二开关设备的输入端与所述至少一个图形处理器基板连接,所述第二开关设备的输出端与所述主板管理控制器连接,用于获取任一图形处理器基板的第一温度和运行功率。
16、第二方面,本发明提供了一种处理器检测方法,应用于主板管理控制器,所述方法包括:
17、获取当前输入电压,所述当前输入电压与当前图形处理器基板对应;
18、基于所述当前输入电压以及标准电压计算所述当前图形处理器基板的形变值,所述形变值用于表征所述图形处理器基板的形变情况,所述标准电压用于表征初始状态时所述当前图形处理器基板所对应的所述主板管理控制器的输入电压。
19、在一种可选的实施方式中,所述获取当前输入电压,包括:
20、控制第一开关设备获取当前图形处理器基板对应的输入电压,所述第一开关设备的输出端与所述主板管理控制器连接。
21、在一种可选的实施方式中,所述基于所述当前输入电压以及所述标准电压计算所述当前图形处理器基板的形变值,包括:
22、获取所述电压模块的电源电压;
23、计算所述电源电压与所述当前输入电压的差值,确定第一差值;
24、计算所述电源电压与所述标准电压的差值,确定第二差值;
25、基于所述第一差值与所述第二差值的比值,确定所述当前图形处理器基板的形变值。
26、在一种可选的实施方式中,所述标准电压的确定方式包括:
27、应变片检测所述当前图形处理器基板的初始形变情况,并根据所述初始形变情况确定初始阻值;
28、电压模块中的电桥电路基于所述初始阻值输出第一初始电压;
29、电压模块中的放大器对所述第一初始电压进行放大处理,确定所述当前图形处理器基板对应的标准电压。
30、在一种可选的实施方式中,基于所述当前输入电压以及标准电压计算所述当前图形处理器基板的形变值之后,所述方法还包括:
31、将所述形变值与预设形变阈值进行比较;
32、当所述形变值小于所述预设形变阈值,发出第一告警。
33、在一种可选的实施方式中,所述方法还包括:
34、获取所述当前图形处理器基板的运行参数,并基于所述运行参数以及所述当前图形处理器基板的形变值确定散热情况。
35、在一种可选的实施方式中,所述运行参数包括第一温度、第二温度、运行功耗以及风扇转速,所述获取所述当前图形处理器基板的运行参数,并基于所述运行参数以及所述当前图形处理器基板的形变值确定散热情况,包括:
36、基于温度传感器分别获取所述图形处理器基板的第一温度以及所述图形处理器基板所在机箱内的第二温度;
37、基于微控制单元获取所述图形处理器基板的运行功耗;
38、基于可编程逻辑器件获取所述图形处理器基板的风扇转速;分别计算第一温度与风扇转速的第一乘积、第二温度与运行功耗的第二乘积;
39、计算所述第二乘积与所述第一乘积的比值,并计算所述第二乘积与所述第一乘积的比值与图形处理器基板的形变值的倒数的乘积,以确定导热介质的导热值;
40、计算所述导热介质的导热值与标准导热值的比值,并将所述导热介质的导热值与标准导热值的比值与预设导热阈值进行比较;
41、基于比较结果确定导热介质的导热状态,以基于所述导热状态确定散热情况,所述导热状态与散热情况成负相关。
42、在一种可选的实施方式中,所述导热值按照如下公式确定:
43、
44、其中,表示第一温度,表示第二温度,表示风扇转速、表示运行功耗、表示图形处理器基板的形变值,表示导热值。
45、在一种可选的实施方式中,所述基于比较结果确定导热介质的导热状态,包括:
46、当所述导热介质的导热值与标准导热值的比值小于预设导热阈值,发出第二告警。
47、第三方面,本发明提供了一种主板管理控制器,包括:存储器和处理器,存储器和处理器之间互相通信连接,存储器中存储有计算机指令,处理器通过执行计算机指令,从而执行上述第二方面或其对应的任一实施方式的方法。
48、第四方面,本发明提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机指令,计算机指令用于使计算机执行上述第二方面或其对应的任一实施方式的方法。
49、第五方面,本发明提供了一种计算机程序产品,包括计算机指令,计算机指令用于使计算机执行上述第二方面或其对应的任一实施方式的方法。
50、本发明实施例所述的方法,可在服务器运行过程中,通过应变片以及电压模块对图形处理器基板进行形变监测,将应变片安装在图形处理器基板上,当图形处理器基板发生形变时,确定应变片相应的目标电阻,与应变片连接的电压模块对目标电阻进行转换,从而确定输入电压,通过第一开关设备将任一图形处理器基板对应的输入电压作为主板管理控制器的输入,主板管理控制器基于输入电压和标准电压计算图形处理器基板的形变值。该方法无需人工操作,可自行实时对gpu基板进行形变监测,便于基于形变值进行进一步分析,提升监测效率。
本文地址:https://www.jishuxx.com/zhuanli/20240730/197339.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。