技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种智能算力资源管理方法、装置、设备及存储介质与流程  >  正文

一种智能算力资源管理方法、装置、设备及存储介质与流程

  • 国知局
  • 2025-01-10 13:34:14

本技术涉及信息,特别是涉及一种智能算力资源管理方法、装置、设备及存储介质。

背景技术:

1、随着大数据、云计算、边缘计算以及深度学习等技术的不断成熟与广泛应用,智能算力已成为支撑复杂计算任务与驱动业务创新的关键要素。当前,智能算力资源涵盖了多种类型,如中央处理器(central processing unit,cpu)、图形处理器(graphicsprocessing unit,gpu)、现场可编程门阵列(field-programmable gate array,fpga)及神经网络处理器(neural processing unit,npu)等,它们各自具备独特的计算能力。

2、然而,在智能算力资源的管理层面,虽然各厂家能够对其自身的算力资源进行自动化管理,但在面对跨厂家、多类型的异构算力资源的管理时,需借助一系列管理工具,例如驱动程序、容器工具包、设备插件以及全面的监控工具等,以实现有效的智能算力资源管理。

3、这就需要运维人员手动安装并持续更新这些管理工具,耗时耗力。而且,手动操作易导致工具版本不一致,进而造成集群环境的不稳定,增加安全风险与性能隐患。这些问题共同推高了智能算力资源管理成本,并加剧了智能算力资源管理的复杂性和风险性。因此,寻求更加自动化、智能化的智能算力资源管理方法,以节约管理时间,降低运维成本,提高管理安全性,成为了当前亟待解决的重要课题。

技术实现思路

1、基于上述问题,本技术提供了一种智能算力资源管理方法、装置、设备及存储介质,目的是实现对跨厂家、多类型的智能算力资源的统一自动管理,节约管理时间,降低运维成本,提高管理安全性。

2、本技术实施例公开了如下技术方案:

3、本技术第一方面提供了一种智能算力资源管理方法,该方法包括:

4、获取智能算力资源节点的节点信息,所述节点信息包括第一配置信息和所述节点的智能算力资源的硬件信息,所述第一配置信息包括所述节点当前包含的多个智能算力资源管理工具的属性信息及版本信息;

5、基于所述硬件信息,在目标工具库中生成所述节点的第二配置信息;所述目标工具库包括多种智能算力资源进行自动管理时分别所需的多个目标版本智能算力资源管理工具,以及所述多种智能算力资源的硬件信息与所述多个目标版本智能算力管理工具的对应关系;所述第二配置信息包括所述多个目标版本智能算力资源管理工具的属性信息及版本信息;

6、对比所述第一配置信息和所述第二配置信息,得到所述第一配置信息和所述第二配置信息之间的配置差异信息;

7、根据所述配置差异信息将所述目标工具库中相应的一个或多个目标版本智能算力资源管理工具推送至所述节点并进行安装或更新;

8、利用所述节点处的智能算力资源管理工具对所述智能算力资源进行自动化管理。

9、可选实现方式中,所述目标工具库的构建方式包括:

10、获取多种智能算力资源的硬件信息,以及获取所述多种智能算力资源进行自动管理时所需的多个目标版本智能算力资源管理工具;

11、将所述多个目标版本智能算力资源管理工具存储至所述目标工具库中;

12、建立同一种智能算力资源的硬件信息与所述多个目标版本智能算力资源管理工具之间的对应关系;

13、将所述对应关系存储至目标工具库中。

14、可选实现方式中,在所述获取智能算力资源节点的节点信息之后,所述方法还包括:

15、根据所述智能算力资源的硬件信息,为所述节点添加标签,所述智能算力资源的硬件信息至少包括所述节点的智能算力资源类型和所述节点的智能算力资源型号;所述标签用于对所述智能算力资源进行自动管理时识别并分配所述智能算力资源。

16、可选实现方式中,所述对比所述第一配置信息和所述第二配置信息,得到所述第一配置信息和所述第二配置信息之间的配置差异信息,包括:

17、若所述第二配置信息中包含有所述第一配置信息中不存在的智能算力资源管理工具的属性信息及版本信息,将所述不存在的智能算力资源管理工具的属性信息及版本信息确定为配置差异信息。

18、可选实现方式中,所述根据所述配置差异信息将所述目标工具库中相应的一个或多个目标版本智能算力资源管理工具推送至所述节点并进行安装或更新,包括:

19、根据所述配置差异信息将所述目标工具库中相应的一个或多个目标版本智能算力资源管理工具推送至所述节点;

20、若所述节点存在与所述目标版本智能算力资源管理工具相同的智能算力资源管理工具,但版本不同,则将所述节点处的智能算力资源管理工具更新为目标版本智能算力资源管理工具的版本;

21、若所述节点不存在与目标版本智能算力资源管理工具相同的智能算力资源管理工具,则安装所述目标版本智能算力资源管理工具。

22、可选实现方式中,智能算力资源管理方法还包括:

23、若监测到所述目标工具库中的目标版本智能算力资源管理工具发生更新,则自动推送更新的目标版本智能算力资源管理工具至所述节点进行安装或更新。

24、可选实现方式中,所述利用所述节点处的智能算力资源管理工具对所述智能算力资源进行自动化管理,包括:

25、利用所述节点处的智能算力资源管理工具将所述智能算力资源创建为智能算力资源实例;

26、利用所述节点处的智能算力资源管理工具动态分配和调度所述智能算力资源实例。

27、本技术第二方面提供了一种智能算力资源管理装置,该装置包括:

28、节点信息获取模块,用于获取智能算力资源节点的节点信息,所述节点信息包括第一配置信息和所述节点的智能算力资源的硬件信息,所述第一配置信息包括所述节点当前包含的多个智能算力资源管理工具的属性信息及版本信息;

29、配置信息生成模块,用于基于所述硬件信息,在目标工具库中生成所述节点的第二配置信息;所述目标工具库包括多种智能算力资源进行自动管理时分别所需的多个目标版本智能算力资源管理工具,以及所述多种智能算力资源的硬件信息与所述多个目标版本智能算力管理工具的对应关系;所述第二配置信息包括所述多个目标版本智能算力资源管理工具的属性信息及版本信息;

30、配置信息对比模块,用于对比所述第一配置信息和所述第二配置信息,得到所述第一配置信息和所述第二配置信息之间的配置差异信息;

31、工具推送模块,用于根据所述配置差异信息将所述目标工具库中相应的一个或多个目标版本智能算力资源管理工具推送至所述节点;

32、工具配置模块,用于将工具推送模块推送的所述一个或多个目标版本智能算力资源管理工具安装或更新至所述节点;

33、管理模块,用于利用所述节点处的智能算力资源管理工具对所述智能算力资源进行自动化管理。

34、本技术第三方面提供了一种智能算力资源管理设备,该设备包括:

35、存储器,其上存储有计算机程序;

36、处理器,用于执行所述存储器中的所述计算机程序,以实现第一方面任一实现方式中介绍的智能算力资源管理方法的步骤。

37、本技术第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面任一实现方式介绍的智能算力资源管理方法的步骤。

38、相较于现有技术,本技术具有以下有益效果:

39、本技术技术方案中,首先获取智能算力资源节点的节点信息,所述节点信息包括第一配置信息和所述节点的智能算力资源的硬件信息;其次基于所述硬件信息,在目标工具库中生成所述节点的第二配置信息;再次对比所述第一配置信息和所述第二配置信息,得到所述第一配置信息和所述第二配置信息之间的配置差异信息;接着根据所述配置差异信息将所述目标工具库中相应的一个或多个目标版本智能算力资源管理工具推送至所述节点并进行安装或更新;最后利用所述节点处的智能算力资源管理工具对所述智能算力资源进行自动化管理。可见本技术技术方案中,不同于传统方案需要运维手动进行安装和更新,本方案利用预先构建的目标工具库,生成配置信息,通过对采集的节点信息与配置信息进行比对后自动安装或更新所需的目标版本的工具,实现了对跨厂家、多类型的智能算力资源的统一自动管理,节约了管理时间,降低了运维成本。通过自动更新和安装保障了智能资源管理工具版本的准确性,避免了因手动安装或更新造成的版本差异导致集群隐患,从而提高了智能算力资源管理的安全性。

本文地址:https://www.jishuxx.com/zhuanli/20250110/353952.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。