技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于多核CPU-NPU协同的智能计算集群的制作方法  >  正文

一种基于多核CPU-NPU协同的智能计算集群的制作方法

  • 国知局
  • 2024-11-19 09:45:50

本申请涉及人工智能集群领域,尤其是一种基于多核cpu-npu协同的智能计算集群。

背景技术:

1、随着大数据和人工智能技术的迅速发展及广泛应用,各行各业对于算力的需求也在快速增长,传统的单一硬件设备很难满足如此大规模的算力需求,在复杂的时代背景下,使用多个硬件设备来构建智能计算集群以提供高算力成为了目前的发展方向。

2、比如目前越来越多的行业不断将人工智能模型与各类业务相结合,人工智能模型的训练具有较大的算力要求,因此往往需要使用智能计算集群来实现。目前用于进行人工智能模型训练的智能计算集群大多采用cpu-npu节点架构,智能计算集群中集成了多个cpu(central processing unit,中央处理器)和多个npu(neural processing unit,神经网络处理器),cpu和npu之间使用套接字socket提供网络连接方法。在执行一项人工智能模型的训练任务时,根据任务与调度策略为该训练任务分配对应的若干个cpu和npu,由分配的cpu在开始模型参数迭代更新前,对大量的训练数据进行数据预处理,然后由分配的npu实现模型训练与迭代优化。但是给一项训练任务分配的cpu和npu是根据任务与调度策略自动分配的,cpu和npu之间往往会存在跨核、跨节点、甚至跨分区的数据交互,产生不合理的资源分配,不必要的通讯时延,进而影响整体的运算效率。

技术实现思路

1、本申请针对上述问题及技术需求,提出了一种基于多核cpu-npu协同的智能计算集群,本申请的技术方案如下:

2、一种基于多核cpu-npu协同的智能计算集群,该智能计算集群包括基于裸金属通信框架部署的多个计算节点以及分布式存储器,多个计算节点以及分布式存储器之间分别通过网络建立互相之间的访问连接;

3、每个计算节点内集成有若干个多核cpu和若干个npu,每一个多核cpu的所有求解核心被划分为多个逻辑分区,每个逻辑分区包括若干个求解核心;每个多核cpu的一个逻辑分区与同一个计算节点内的一个npu进行匹配绑定形成一个混合计算单元;

4、其中一个计算节点的硬件资源上部署调度管理系统形成为集群管理器,集群管理器根据接收到的计算任务从分布式存储器中获取对应的任务数据,并将计算任务及其对应的任务数据分配给对应的混合计算单元,混合计算单元内的npu与匹配绑定的求解核心根据分配到的任务数据协同执行计算任务。

5、其进一步的技术方案为,每个多核cpu的一个逻辑分区与同一个计算节点内的一个npu通过pcie交换机进行识别通信实现匹配绑定。

6、其进一步的技术方案为,当计算任务的资源需求超出一个混合计算单元提供的计算资源时,集群管理器根据计算任务的资源需求将计算任务及其对应的任务数据分配给多个混合计算单元,多个混合计算单元进行数据交互以并行执行计算任务,多个混合计算单元提供的总计算资源满足计算任务的资源需求。

7、其进一步的技术方案为,当存在处于空闲状态且包含的求解核心属于同一个多核cpu的多个混合计算单元提供的总计算资源满足计算任务的资源需求时,集群管理器将计算任务及其对应的任务数据分配给同一个多核cpu匹配绑定形成的多个混合计算单元,否则集群管理器将计算任务及其对应的任务数据分配给多个多核cpu匹配绑定形成的混合计算单元。

8、其进一步的技术方案为,当存在处于空闲状态且包含的求解核心属于同一个计算节点内的多个多核cpu的多个混合计算单元提供的总计算资源满足计算任务的资源需求时,集群管理器将计算任务及其对应的任务数据分配给同一个计算节点内的多个多核cpu匹配绑定形成的多个混合计算单元,否则集群管理器将计算任务及其对应的任务数据分配给多个计算节点内形成的混合计算单元。

9、其进一步的技术方案为,集群管理器按照分配至最少数量的计算节点的分配原则,将计算任务及其对应的任务数据分配给多个计算节点内的混合计算单元。

10、其进一步的技术方案为,集群管理器上部署的调度管理系统基于slurm实现。

11、其进一步的技术方案为,集群管理器存储每个计算任务的执行日志,每个计算任务的执行日志记载对计算任务的执行溯源信息。

12、其进一步的技术方案为,不同计算节点之间通过参数共享网络实现连通,计算节点与分布式存储之间通过任务存储网络建立通信连接;集群管理器经由任务存储网络从分布式存储获取计算任务的任务数据,并经由参数共享网络将计算任务及其任务数据分配给对应的混合计算单元。

13、其进一步的技术方案为,任意两个混合计算单元中包含的多核cpu的求解核心的数量相同或不同。

14、本申请的有益技术效果是:

15、本申请公开了一种基于多核cpu-npu协同的智能计算集群,该智能计算集群基于裸金属通信框架部署以支持自定义的cpu、npu与内存间的访问控制,通过近邻绑定策略将单个多核cpu的求解核心进行逻辑分割,并分配给同分区、同节点内的单个npu进行绑定,构建了cpu-npu一体的更小、更紧密的混合计算单元,以混合计算单元作为最小调度单元来实现数据预处理、模型训练等适配不同硬件需求的多样化计算任务,一定程度上减少了多核cpu-npu任务协同过程中,跨节点通讯的资源消耗,从而缩减数据交换的带宽与时间消耗,提高了计算任务的执行效率、减少了任务执行耗时。

16、该智能计算集群的集群管理器上部署的调度管理系统采用多核cpu-npu协同优化策略进行任务调度,在分配计算任务时,根据资源需求分配npu并使用与之匹配绑定的cpu求解核心,且在分配时优先使用同一个多核cpu,次而使用同一个计算节点内的不同多核cpu,最后使用不同计算节点内的不同多核cpu,从而尽可能充分发挥利用本地socket中的资源,减少跨socket应用所产生的非必要时延。

17、该智能计算集群的集群管理器上部署的调度管理系统基于slurm部署以实现集群管理与作业调度功能,使用非虚拟化的解决方案,进一步提升了智能计算集群处理敏感信息时,信息传输的可追溯性,避免了虚拟化过程中存在的信息溯源困难等问题,适用于敏感信息或数据的可靠计算。

技术特征:

1.一种基于多核cpu-npu协同的智能计算集群,其特征在于,所述智能计算集群包括基于裸金属通信框架部署的多个计算节点以及分布式存储器,多个计算节点以及分布式存储器之间分别通过网络建立互相之间的访问连接;

2.根据权利要求1所述的智能计算集群,其特征在于,每个多核cpu的一个逻辑分区与同一个计算节点内的一个npu通过pcie交换机进行识别通信实现匹配绑定。

3.根据权利要求1所述的智能计算集群,其特征在于,当所述计算任务的资源需求超出一个混合计算单元提供的计算资源时,所述集群管理器根据所述计算任务的资源需求将所述计算任务及其对应的任务数据分配给多个混合计算单元,多个混合计算单元进行数据交互以并行执行所述计算任务,多个混合计算单元提供的总计算资源满足所述计算任务的资源需求。

4.根据权利要求3所述的智能计算集群,其特征在于,当存在处于空闲状态且包含的求解核心属于同一个多核cpu的多个混合计算单元提供的总计算资源满足所述计算任务的资源需求时,所述集群管理器将所述计算任务及其对应的任务数据分配给同一个多核cpu匹配绑定形成的多个混合计算单元,否则所述集群管理器将所述计算任务及其对应的任务数据分配给多个多核cpu匹配绑定形成的混合计算单元。

5.根据权利要求4所述的智能计算集群,其特征在于,当存在处于空闲状态且包含的求解核心属于同一个计算节点内的多个多核cpu的多个混合计算单元提供的总计算资源满足所述计算任务的资源需求时,所述集群管理器将所述计算任务及其对应的任务数据分配给同一个计算节点内的多个多核cpu匹配绑定形成的多个混合计算单元,否则所述集群管理器将所述计算任务及其对应的任务数据分配给多个计算节点内形成的混合计算单元。

6.根据权利要求5所述的智能计算集群,其特征在于,所述集群管理器按照分配至最少数量的计算节点的分配原则,将所述计算任务及其对应的任务数据分配给多个计算节点内的混合计算单元。

7.根据权利要求1所述的智能计算集群,其特征在于,所述集群管理器上部署的调度管理系统基于slurm实现。

8.根据权利要求7所述的智能计算集群,其特征在于,所述集群管理器存储每个计算任务的执行日志,每个计算任务的执行日志记载对所述计算任务的执行溯源信息。

9.根据权利要求1所述的智能计算集群,其特征在于,不同计算节点之间通过参数共享网络实现连通,计算节点与分布式存储之间通过任务存储网络建立通信连接;所述集群管理器经由所述任务存储网络从所述分布式存储获取计算任务的任务数据,并经由所述参数共享网络将计算任务及其任务数据分配给对应的混合计算单元。

10.根据权利要求1所述的智能计算集群,其特征在于,任意两个混合计算单元中包含的多核cpu的求解核心的数量相同或不同。

技术总结本申请公开了一种基于多核CPU‑NPU协同的智能计算集群,涉及人工智能集群领域,该智能计算集群包括基于裸金属通信框架部署的多个计算节点以及分布式存储器,每个计算节点内集成的每一个多核CPU的所有求解核心被划分为多个逻辑分区,每个逻辑分区包含的求解核心与同一个计算节点内的一个NPU进行匹配绑定形成一个混合计算单元;集群管理器以混合计算单元作为最小调度单元来分配计算任务,分配到计算任务的混合计算单元内的NPU与本地匹配绑定的求解核心协同执行计算任务,可以减少多核CPU‑NPU任务协同过程中跨节点通讯的资源消耗,从而缩减数据交换的带宽与时间消耗,提高了计算任务的执行效率、减少了任务执行耗时。技术研发人员:刘德丰,程成,丁军,陈鲁愚,陆芝庆,徐铭泽,刘凯,强以铭,郭伟,陈康受保护的技术使用者:中国船舶科学研究中心技术研发日:技术公布日:2024/11/14

本文地址:https://www.jishuxx.com/zhuanli/20241118/330117.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。