技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种异常检测方法、计算机程序产品和存储介质与流程  >  正文

一种异常检测方法、计算机程序产品和存储介质与流程

  • 国知局
  • 2024-07-31 22:44:47

本发明涉及计算机,特别是涉及一种异常检测方法、计算机程序产品和存储介质。

背景技术:

1、随着人工智能领域深度学习训练和大模型训练的日益普及,对于人工智能云平台的监控告警模块提出了更高的要求,特别是在兼容适配硬件方面,厂商提供的加速卡因其稳定性和高效性而受到青睐,然而,加速卡在长期使用过程中难免会遇到异常状态的问题,目前,相关技术领域尚未公开如何有效检测加速卡异常的方案。

技术实现思路

1、鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种异常检测方法、计算机程序产品和存储介质。

2、为了解决上述问题,本发明公开了一种异常检测方法,应用于多个训练节点,多个所述训练节点用于协同执行训练任务;所述训练节点包括加速卡;

3、所述方法包括:

4、采集部署于所述训练节点的加速卡的运行信息;所述运行信息包括健康信息、异常编码信息、显存页状态信息中的至少一种;

5、根据所述运行信息,确定所述加速卡的异常情况;

6、根据所述加速卡的异常情况,输出告警信息。

7、可选地,所述方法还包括:

8、获取所述加速卡的日志信息并存储;

9、对所述加速卡发生异常时的日志信息进行分析,得到分析结果;

10、展示所述分析结果。

11、可选地,所述根据所述运行信息,确定所述加速卡的异常情况,包括:

12、判断所述健康信息是否指示所述加速卡健康状态异常;

13、若所述健康信息指示所述加速卡健康状态正常,则确定所述加速卡工作正常。

14、可选地,所述健康信息包括高速外围互联接口信息、闪存信息、温度信息、功率信息;所述判断所述健康信息是否指示所述加速卡健康状态异常,包括:

15、若所述高速外围互联接口信息、所述闪存信息、所述温度信息、所述功率信息中任一项发生异常,则确定所述加速卡工作异常。

16、可选地,所述采集部署于所述训练节点的加速卡的运行信息,包括:

17、启动第一运行脚本,通过所述第一运行脚本执行针对所述加速卡的健康信息获取命令;

18、根据所述健康信息获取命令的执行结果,得到所述健康信息。

19、可选地,所述根据所述运行信息,确定所述加速卡的异常情况,包括:

20、确定所述异常编码信息对应的错误码类型;

21、根据所述错误码类型,确定所述加速卡的异常情况。

22、可选地,所述根据所述错误码类型,确定所述加速卡的异常情况,包括:

23、若所述错误码类型为加速卡总线异常,则确定所述加速卡为总线发生故障。

24、可选地,所述错误码类型包括加速卡总线异常、外围组件互联接口异常、扩展识别异常中的至少一种,所述加速卡总线异常用于指示加速卡总线发生故障,所述外围组件互联接口异常用于指示外围组件互联接口运行异常,所述扩展识别异常用于指示扩展识别接口运行异常。

25、可选地,所述采集部署于所述训练节点的加速卡的运行信息,包括:

26、启动第二运行脚本,通过所述第二运行脚本执行针对所述加速卡的异常监控项信息获取命令;

27、根据所述异常监控项信息获取命令的执行结果,得到所述异常编码信息。

28、可选地,所述显存页状态信息包括单比特内存块异常信息、双比特内存块异常信息、显存坏页隔离异常信息,所述根据所述运行信息,确定所述加速卡的异常情况,包括:

29、若所述单比特内存块异常信息的数值小于第一阈值,且,所述双比特内存块异常信息的数值小于第二阈值,且,所述显存坏页隔离异常信息的数值为预设值时,则确定所述加速卡正常工作。

30、可选地,所述根据所述运行信息,确定所述加速卡的异常情况,还包括:

31、若所述单比特内存块异常信息的数值大于或等于第一阈值,且,所述双比特内存块异常信息的数值大于或等于第二阈值,且所述显存坏页隔离异常信息的数值为预设值时,则确定所述加速卡的错误校正码异常。

32、可选地,所述根据所述运行信息,确定所述加速卡的异常情况,还包括:

33、若所述单比特内存块异常信息的数值大于或等于第一阈值,且,所述双比特内存块异常信息的数值大于或等于第二阈值,且所述显存坏页隔离异常信息的数值不为预设值时,则确定所述加速卡的显存坏页挂起异常。

34、本发明还公开了一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现如上述的异常检测方法的步骤。

35、本发明还公开了一种非易失性存储介质,所述非易失性存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上述的异常检测方法的步骤。

36、本发明实施例包括以下优点:

37、本发明公开了一种异常检测方法,本发明可以通过采集部署于加速卡的运行信息,并根据运行信息确定加速卡的异常情况,最后根据异常情况输出告警信息。本发明可以通过自动化监控,确保训练节点上的加速卡能够稳定高效地运行,通过实时监控加速卡的运行信息,可以及时发现并处理异常情况,减少系统崩溃或性能下降的风险,从而提高整个系统的稳定性和可靠性。

技术特征:

1.一种异常检测方法,其特征在于,应用于多个训练节点,多个所述训练节点用于协同执行训练任务;所述训练节点包括加速卡;

2.根据权利要求1所述的方法,其特征在于,所述方法还包括:

3.根据权利要求1所述的方法,其特征在于,所述根据所述运行信息,确定所述加速卡的异常情况,包括:

4.根据权利要求3所述的方法,其特征在于,所述健康信息包括高速外围互联接口信息、闪存信息、温度信息、功率信息;所述判断所述健康信息是否指示所述加速卡健康状态异常,包括:

5.根据权利要求1所述的方法,其特征在于,所述采集部署于所述训练节点的加速卡的运行信息,包括:

6.根据权利要求1所述的方法,其特征在于,所述根据所述运行信息,确定所述加速卡的异常情况,包括:

7.根据权利要求6所述的方法,其特征在于,所述根据所述错误码类型,确定所述加速卡的异常情况,包括:

8.根据权利要求7所述的方法,其特征在于,所述错误码类型包括加速卡总线异常、外围组件互联接口异常、扩展识别异常中的至少一种,所述加速卡总线异常用于指示加速卡总线发生故障,所述外围组件互联接口异常用于指示外围组件互联接口运行异常,所述扩展识别异常用于指示扩展识别接口运行异常。

9.根据权利要求1所述的方法,其特征在于,所述采集部署于所述训练节点的加速卡的运行信息,包括:

10.根据权利要求1所述的方法,其特征在于,所述显存页状态信息包括单比特内存块异常信息、双比特内存块异常信息、显存坏页隔离异常信息,所述根据所述运行信息,确定所述加速卡的异常情况,包括:

11.根据权利要求10所述的方法,其特征在于,所述根据所述运行信息,确定所述加速卡的异常情况,还包括:

12.根据权利要求10所述的方法,其特征在于,所述根据所述运行信息,确定所述加速卡的异常情况,还包括:

13.根据权利要求1所述的方法,其特征在于,所述采集部署于所述训练节点的加速卡的运行信息,包括:

14.一种计算机程序产品,包括计算机程序/指令,其特征在于,所述计算机程序/指令被处理器执行时实现如权利要求1-13中任一项所述的异常检测方法的步骤。

15.一种非易失性存储介质,其特征在于,所述非易失性存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1-13中任一项所述的异常检测方法的步骤。

技术总结本发明公开了一种异常检测方法、计算机程序产品和存储介质,应用于计算机技术领域,该方法应用于多个训练节点,多个训练节点用于协同执行训练任务;训练节点包括加速卡;方法包括:采集部署于训练节点的加速卡的运行信息;运行信息包括健康信息、异常编码信息、显存页状态信息中的至少一种;根据运行信息,确定加速卡的异常情况;根据加速卡的异常情况,输出告警信息,本发明可以通过自动化监控,确保训练节点上的加速卡能够稳定高效地运行,通过实时监控加速卡的运行信息,可以及时发现并处理异常情况,减少系统崩溃或性能下降的风险,从而提高整个系统的稳定性和可靠性。技术研发人员:张书博受保护的技术使用者:苏州元脑智能科技有限公司技术研发日:技术公布日:2024/7/29

本文地址:https://www.jishuxx.com/zhuanli/20240730/194422.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。