技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种资源量调整方法和电子设备与流程  >  正文

一种资源量调整方法和电子设备与流程

  • 国知局
  • 2024-09-11 14:45:26

本申请涉及计算机,尤其涉及一种资源量调整方法和电子设备。

背景技术:

1、随着人工智能(artificial intelligence,ai)技术的发展,图形处理器(graphics processing unit,gpu)算力已成为支撑ai应用的主要资源。相关技术中,在基于kubernetes架构对应的ai算力平台中,基于pod级别调整相关gpu资源,通常会存在浪费gpu相关的资源和时间的现象,从而导致kubernetes集群中的相关gpu资源存在利用率较低的问题。

技术实现思路

1、有鉴于此,本申请实施例提供一种资源量调整方法和电子设备。

2、本申请第一方面提供一种资源量调整方法,应用于工作节点,所述工作节点为kubernetes集群中的任一节点,所述方法包括:

3、响应于获取到运行在所述工作节点上的至少一个第一容器所需的图形处理器gpu资源量发生变化,检测所述至少一个第一容器的已缓存gpu资源量和当前请求gpu资源量;

4、基于所述已缓存gpu资源量和所述当前请求gpu资源量,对所述已缓存gpu资源量进行缩容或扩容,得到第二容器和所述至少一个第一容器,同时基于缩容后或扩容后的已缓存gpu资源量在所述工作节点上正常运行;

5、其中,所述第二容器,表征运行在所述工作节点上的除所述至少一个第一容器之外的至少一个容器。

6、本申请第二方面提供一种电子设备,所述电子设备包括:图形处理器gpu、gpu管理单元,其中:

7、所述gpu,被配置为生成图像数据;

8、所述gpu管理单元,被配置为响应于获取到运行在工作节点上的至少一个第一容器所需的gpu资源量发生变化,检测所述至少一个第一容器的已缓存gpu资源量和当前请求gpu资源量;其中,所述工作节点为kubernetes集群中的任一节点,

9、所述gpu管理单元,还被配置为基于所述已缓存gpu资源量和所述当前请求gpu资源量,对所述已缓存gpu资源量进行缩容或扩容,得到第二容器和所述至少一个第一容器,同时基于缩容后或扩容后的已缓存gpu资源量在所述工作节点上正常运行;

10、其中,所述第二容器,表征运行在所述工作节点上的除所述至少一个第一容器之外的至少一个容器。

11、本申请第三方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可执行指令,该计算机可执行指令被执行后,能够实现上述所述的资源量调整方法。

12、本申请第四方面提供一种计算机程序产品,所述计算机程序产品包括计算机程序或指令,所述计算机程序或指令被处理器执行时,实现上述所述的资源量调整方法。

13、本申请实施例所达到的技术效果:

14、在获取到kubernetes集群内运行在工作节点的至少一个第一容器的gpu资源量发生变化,直接基于至少一个第一容器的已缓存gpu资源量和当前请求gpu资源量,对已缓存gpu资源量进行缩容或扩容。这样,一方面,能够实现在kubernetes集群中,在容器级别上对gpu资源进行调整(分配),即相对于现有技术来说,能够将gpu资源的调整(分配)粒度,从pod级别缩小至容器级别,从而不仅能够细化kubernetes集群内的gpu资源的分配粒度,且能够提高kubernetes集群内的gpu资源调整灵活度。一方面,直接基于已缓存gpu资源量和当前请求gpu资源量,对已缓存gpu资源量进行缩容或扩容,能够在实现垂直伸缩热更新的基础上,减少gpu资源碎片化,从而能够提高kuber netes集群内gpu资源的利用率。

15、上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。

技术特征:

1.一种资源量调整方法,应用于工作节点,所述工作节点为kubernetes集群中的任一节点,所述方法包括:

2.根据权利要求1所述的方法,所述方法还包括:

3.根据权利要求1或2所述的方法,所述基于所述已缓存gpu资源量和所述当前请求gpu资源量,对所述已缓存gpu资源量进行缩容或扩容,包括:

4.根据权利要求3所述的方法,所述对所述已缓存gpu资源量和所述当前请求gpu资源量进行比较,确定所述至少一个第一容器对应的资源变更量,包括:

5.根据权利要求4所述的方法,所述基于所述需扩资源量和所述剩余资源量,对所述已缓存gpu资源量进行扩容,包括:

6.根据权利要求5所述的方法,所述第二容器包括:与所述至少一个第一容器处于同一pod的至少一个第三容器,与所述至少一个第一容器处于不同pod的至少一个第四容器,所述基于所述需扩资源量,对所述第二容器的已分配gpu资源量进行缩容,以及对所述已缓存gpu资源量进行扩容,包括:

7.根据权利要求3所述的方法,所述对所述已缓存gpu资源量和所述当前请求gpu资源量进行比较,确定所述至少一个第一容器对应的资源变更量,包括:

8.根据权利要求7所述的方法,所述基于所述需缩资源量,对所述已缓存gpu资源量进行缩容之前,所述方法还包括:

9.根据权利要求1所述的方法,所述至少一个第一容器包括:运行在所述工作节点上的新建的pod内的至少一个第五容器,

10.一种电子设备,所述电子设备包括:图形处理器gpu、gpu管理单元,其中:

技术总结本申请提供了一种资源量调整方法和电子设备,所述资源量调整方法应用于工作节点,所述工作节点为Kubernetes集群中的任一节点,所述方法包括:响应于获取到运行在所述工作节点上的至少一个第一容器所需的图形处理器GPU资源量发生变化,检测所述至少一个第一容器的已缓存GPU资源量和当前请求GPU资源量;基于所述已缓存GPU资源量和所述当前请求GPU资源量,对所述已缓存GPU资源量进行缩容或扩容,得到第二容器和所述至少一个第一容器,同时基于缩容后或扩容后的已缓存GPU资源量在所述工作节点上正常运行;其中,所述第二容器,表征运行在所述工作节点上的除所述至少一个第一容器之外的至少一个容器。技术研发人员:杨偲乐,李焱,王真受保护的技术使用者:联想(北京)有限公司技术研发日:技术公布日:2024/9/9

本文地址:https://www.jishuxx.com/zhuanli/20240911/292039.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。