技术新讯 > 计算推算,计数设备的制造及其应用技术 > 分配显存资源的方法、装置、计算机设备及存储介质与流程  >  正文

分配显存资源的方法、装置、计算机设备及存储介质与流程

  • 国知局
  • 2024-10-09 14:44:17

本发明涉及计算机,具体涉及分配显存资源的方法、装置、计算机设备及存储介质。

背景技术:

1、随着人工智能技术的迅猛发展,计算机设备所需的算力需求越来越大,因此,各种加速卡或计算单元(artificial intelligence unit,aiu)成为了当前深度学习模型训练的关键硬件。

2、当前在计算机设备上运行多项任务时,为了提高运行速度,可以采用高并发的方式同时运行多项任务时,在这种情况下,多项任务会互相挤占对方的aiu资源,拖慢任务的执行速度。

技术实现思路

1、有鉴于此,本发明提供了一种分配显存资源的方法、装置、计算机设备、存储介质及程序产品,以解决多项任务会互相挤占对方的aiu资源,拖慢任务的执行速度的问题。

2、第一方面,本发明提供了一种分配显存资源的方法,所述方法应用于目标设备,所述目标设备连接至少一张加速卡,所述目标设备安装有至少一个容器,所述方法包括:

3、获取目标容器的显存分配指令,对所述显存分配指令进行解析,得到任务类型和至少一个容器进程标识信息,其中,所述目标容器为至少一个所述容器中的任一个容器;

4、根据所述任务类型,确定与所述任务类型对应的第一加速卡标识信息;

5、根据所述第一加速卡标识信息,确定与所述第一加速卡标识信息对应的第一加速卡,其中,所述第一加速卡为至少一张加速卡中的一张加速卡;

6、根据至少一个所述容器进程标识信息中的每一个所述容器进程标识信息,从所述第一加速卡上获取与每一个所述容器进程标识信息对应的进程的实时显存信息;

7、根据与每一个所述容器进程标识信息对应的进程的实时显存信息,以及与所述目标容器对应的预设显存配额,确定是否对所述第一加速卡的显存资源进行分配操作。

8、本发明提供的一种分配显存资源的方法,具有如下优点:

9、将不同的应用程序运行在不同的容器上,由于容器之间相互隔离,训练任务在容器内运行,互不影响,一个训练任务的资源泄露或崩溃不会波及其它训练任务,提高了整体系统稳定性。并且,每一个容器可以使用相应的加速卡,同时,通过预设显存配额限制了每一个容器的最大可使用显存资源。这样,在进行显存资源的分配操作之前,可以先获取目标容器的每一个进程的实时显存信息,根据目标容器的每一个进程的实时显存信息和预设显存配额,确定是否进行显存资源的分配操作,可以避免不同的应用程序抢占不同的加速卡的资源,以及不同的应用程序抢占同一张加速卡的显存资源,导致加速卡过载崩溃和拖慢计算速度的问题,也即,可以提高计算速度。

10、在一种可选的实施方式中,所述实时显存信息中包括进程所占用的显存大小;

11、所述根据与每一个所述容器进程标识信息对应的进程的实时显存信息,以及与所述目标容器对应的预设显存配额,确定是否对所述第一加速卡的显存资源进行分配操作,包括:

12、根据与每一个所述容器进程标识信息对应的进程所占用的显存大小,确定所述目标容器所占用的显存大小;

13、根据所述目标容器所占用的显存大小,以及与所述目标容器对应的预设显存配额,确定所述目标容器的剩余显存大小;

14、确定所述目标容器所占用的显存大小是否小于或等于与所述目标容器对应的预设显存配额,以及所述目标容器的剩余显存大小是否大于或等于预设分配显存大小;

15、当确定所述目标容器所占用的显存大小小于或等于与所述目标容器对应的预设显存配额,且所述目标容器的剩余显存大小大于或等于所述预设分配显存大小时,根据所述预设分配显存大小,将所述第一加速卡上与所述预设分配显存大小等同的显存资源分配至与所述显存分配指令对应的目标进程。

16、具体地,根据实时监控每个容器进程的实际显存使用情况,动态调整显存资源分配,以及通过设定预设显存配额,为容器使用设定资源使用边界,确保即使在高负载情况下也不会因个别任务过度占用资源导致目标设备的系统不稳定。

17、在一种可选的实施方式中,当确定所述目标容器所占用的显存大小大于所述目标容器对应的预设显存配额,和/或所述目标容器的剩余显存大小小于预设分配显存大小时,所述方法还包括:

18、杀死所述目标进程。

19、具体地,通过及时终止过载的进程,防止目标容器过度消耗显存资源导致整个加速卡资源枯竭,可以保护了系统整体的稳定运行和其他重要进程的正常运作。

20、在一种可选的实施方式中,所述方法还包括:

21、获取所述目标容器的显存分配等级,其中,所述显存分配等级用于与每一个所述容器进程标识信息对应的进程的实时显存信息,以及与所述目标容器对应的预设显存配额,共同确定是否对所述第一加速卡的显存资源进行分配操作。

22、具体地,通过显存分配等级的划分,能更合理分配有限的显存资源给优先级更高的任务或进程,保证关键服务的稳定性和性能,同时避免资源浪费在低优先级或非关键任务上,提升了整体系统资源利用效率。

23、在一种可选的实施方式中,当所述目标容器的显存分配等级为第一等级时,与所述目标容器对应的预设显存配额等于所述第一加速卡的显存资源大小;

24、或者,当所述目标容器的显存分配等级为第二等级时,与所述目标容器对应的预设显存配额小于所述第一加速卡的显存资源大小,所述第一等级高于所述第二等级。

25、具体地,第一等级的任务因为可以使用与第一加速卡等量的显存资源,保证了关键或高优先级任务有足够的资源支撑其运行,实现资源向重要任务倾斜,优化整体任务执行效率和质量。

26、在一种可选的实施方式中,所述方法还包括:

27、获取显存信息获取指令;

28、对所述显存信息获取指令进行解析,得到第二加速卡标识信息;

29、根据所述第二加速卡标识信息,确定与所述第二加速卡标识信息对应的第二加速卡,其中,所述第二加速卡为至少一张所述加速卡中的一张加速卡;

30、获取所述第二加速卡上运行的进程数量;

31、确定所述第二加速卡上运行的进程数量是否大于预设进程数量;

32、当确定所述第二加速卡上运行的进程数量大于所述预设进程数量时,生成目标报警信息,并反馈至客户端。

33、具体地,当检测到第二加速卡上的进程数量超过预设阈值时,立即生成报警信息并反馈给客户端。这种预防性的维护措施能够让管理员迅速介入,调查并解决潜在的资源争抢问题,避免了因资源耗尽而导致的服务中断或性能下降。

34、在一种可选的实施方式中,当确定所述第二加速卡上运行的进程数量小于或等于所述预设进程数量时,所述方法还包括:

35、获取与所述第二加速卡的预设进程对应的标识信息,以及所述第二加速卡上运行的实时进程对应的标识信息,其中,所述预设进程包括至少一个,所述实时进程的数量为至少一个;

36、根据目标实时进程对应的标识信息和所述预设进程对应的标识信息,确定所述目标实时进程是否为至少一个所述预设进程中的一个预设进程,其中,所述目标实时进程为至少一个所述实时进程中的任一实时进程;

37、当根据所述目标实时进程对应的标识信息和所述预设进程对应的标识信息,确定所述目标实时进程为至少一个所述预设进程中的一个预设进程时,确定所述目标实时进程为正常进程;

38、或者,

39、当根据所述目标实时进程对应的标识信息和所述预设进程对应的标识信息,确定所述目标实时进程并非为至少一个所述预设进程中的一个预设进程时,确定所述目标实时进程为异常进程,杀死所述目标实时进程;

40、当确定出至少一个所述正常进程时,根据每一个所述正常进程所占用的显存大小,确定所述第二加速卡的已占用显存大小;

41、根据所述第二加速卡的已占用显存大小,生成与所述第二加速卡对应的显存信息,并反馈至所述客户端。

42、具体地,通过识别和区分正常进程与异常进程,并对非预设的异常进程采取终止操作,可以有效防止了未授权或恶意进程占用加速卡资源,增强了安全性与合规性。这尤其重要在共享或云环境中,确保了资源被合法、预定的应用所使用。

43、第二方面,本发明提供了一种分配显存资源的装置,所述装置应用于目标设备,所述目标设备连接至少一张加速卡,所述目标设备安装有至少一个容器,所述方法包括:

44、获取模块,用于获取目标容器的显存分配指令,对所述显存分配指令进行解析,得到任务类型和至少一个容器进程标识信息,其中,所述目标容器为至少一个所述容器中的任一个容器;

45、确定模块,用于根据所述任务类型,确定与所述任务类型对应的第一加速卡标识信息;根据所述第一加速卡标识信息,确定与所述第一加速卡标识信息对应的第一加速卡,其中,所述第一加速卡为至少一张加速卡中的一张加速卡;

46、所述获取模块,还用于根据至少一个所述容器进程标识信息中的每一个所述容器进程标识信息,从所述第一加速卡上获取与每一个所述容器进程标识信息对应的进程的实时显存信息;

47、所述确定模块,还用于根据与每一个所述容器进程标识信息对应的进程的实时显存信息,以及与所述目标容器对应的预设显存配额,确定是否对所述第一加速卡的显存资源进行分配操作。

48、第三方面,本发明提供了一种计算机设备,包括:存储器和处理器,存储器和处理器之间互相通信连接,存储器中存储有计算机指令,处理器通过执行计算机指令,从而执行上述第一方面或其对应的任一实施方式的分配显存资源的方法。

49、第四方面,本发明提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机指令,计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的分配显存资源的方法。

50、第五方面,本发明提供了一种计算机程序产品,包括计算机指令,计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的分配显存资源的方法。

本文地址:https://www.jishuxx.com/zhuanli/20241009/306308.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。