AI硬件在大模型千卡场景下的多维度评测方法和装置与流程
- 国知局
- 2024-07-31 23:16:51
本发明涉及人工智能,尤其涉及一种ai硬件在大模型千卡场景下的多维度评测方法和装置。
背景技术:
1、ai硬件群雄逐鹿的局面之下,ai硬件评测是必做任务。首先,ai硬件制造商需要一个客观的坐标系度量自身创新进程;再者,产业落地需要公正的评测基准和方式,采购方迫切需要公正的、适应场景需求的评测来指导实际的生产环境搭建。然而,由于ai软硬件技术栈异构程度高、兼容性差,再加上应用场景复杂多变,由图灵奖得主david patterson联合顶尖学术机构发起的mlperf评测项目,允许各厂商针对特定任务进行极致优化,体现自身能力,但是对用户实际使用ai芯片进行模型训练、推理等任务的指导意义有限。另外,国内评测方案也都局限于白皮书阶段,缺乏直接上手可实操的方案,ai芯片评测还停留在书面和琐碎的项目中尚未成体系。
技术实现思路
1、为了解决现有技术中存在的问题,本发明提供了如下技术方案。
2、本发明第一方面提供了一种ai硬件在大模型千卡场景下的多维度评测方法,包括:功能正确性测试、性能测试、稳定性测试和资源消耗性测试;
3、在所述功能正确性测试中,根据训练过程的损失值进行评价;
4、对于功能正确性测试合格的芯片进行性能测试,在所述性能测试中,根据吞吐、功耗和显存占用情况进行评价;所述性能测试包括:采用“3+2”的组合测试形式,“3”表示厂商自主选择3种集群规模,分别用来考察训练指定参数量模型的最小规模机器配置、考察训练指定参数量模型的最大规模机器配置、以及考察芯片在训练达到最优性能时的机器配置;“2”表示由评测机构预先设定256卡和1024卡两项固定集群规模,各企业在此两项固定集群规模下运行测试;
5、在所述稳定性测试中,根据故障次数和恢复时间以及功耗和显存占用情况进行评价;
6、在所述资源消耗性测试中,根据在性能测试和稳定性测试中监控的各指标项,以及各指标项监控结果的时间序列均值和标准差进行评价。
7、优选地,所述功能正确性测试包括:采用固定超参数、固定随机数和固定初始权重,在设定的初始条件下计算芯片在训练过程中的损失值。
8、优选地,所述在所述功能正确性测试中,根据训练过程的损失值进行评价包括:将计算得到的损失值与预设的基准损失值进行比较,若比较结果在预设的误差范围内,则满足功能正确性测试要求;否则,不满足功能正确性测试要求。
9、优选地,所述功能正确性测试要求包括:前10步计算得到的损失值与预设的基准损失值使用numpy.isclose接口,在fp16场景使用atol=1e-3和rtol=2e-4;在bf16场景使用atol=1e-2和rtol=2e-3,观察结果是否为真;前5000步,计算得到的损失值与预设的基准损失值的相对误差均值小于等于2%。
10、优选地,在所述性能测试中,根据吞吐、功耗和显存占用情况进行评价包括:
11、在所述性能测试中,设置绝对性能比与能效比两种评价方式,其中,a对b的绝对性能比=被测对象a的吞吐/被测对象b的吞吐;能效比=吞吐/功耗;
12、利用显存占用情况正向反映性能测试结果的可靠性,当显存占用低于或高于预设值时,认为性能测试结果不可靠。
13、优选地,所述稳定性测试包括:在预设规模的模型上,厂商选用任意规模的集群,完成预设参数量的训练任务,忽略性能和精度,统计完成预设参数量的训练任务过程中发生故障的次数及每次故障的恢复时间。
14、优选地,所述在所述稳定性测试中,根据故障次数和恢复时间以及功耗和显存占用情况进行评价包括:
15、对于被测对象a和b,若a的故障次数高于b,则a的稳定性优于b;若a的恢复时间短于b,则a的稳定性优于b;
16、利用功耗和显存占用情况正向反映稳定性测试结果的可靠性,若测试得到的功耗超过热设计功耗的预设比例值,或显存占用情况低于或高于预设值,则认为稳定性测试结果不可靠。
17、本发明第二方面提供了一种ai硬件在大模型千卡场景下的多维度评测装置,包括:功能正确性测试模块、性能测试模块、稳定性测试模块和资源消耗性测试模块;
18、所述功能正确性测试模块,用于在所述功能正确性测试中,根据训练过程的损失值进行评价;
19、所述性能测试模块,用于对于功能正确性测试合格的芯片进行性能测试,在所述性能测试中,根据吞吐、功耗和显存占用情况进行评价;所述性能测试包括:采用“3+2”的组合测试形式,“3”表示厂商自主选择3种集群规模,分别用来考察训练指定参数量模型的最小规模机器配置、考察训练指定参数量模型的最大规模机器配置、以及考察芯片在训练达到最优性能时的机器配置;“2”表示由评测机构预先设定256卡和1024卡两项固定集群规模,各企业在此两项固定集群规模下运行测试;所述稳定性测试模块,用于在所述稳定性测试中,根据故障次数和恢复时间以及功耗和显存占用情况进行评价;
20、所述资源消耗性测试模块,用于在所述资源消耗性测试中,根据在性能测试和稳定性测试中监控的各指标项,以及各指标项监控结果的时间序列均值和标准差进行评价。
21、本发明第三方面提供了一种存储器,存储有多条指令,所述指令被处理器加载并执行用于实现如第一方面所述的ai硬件在大模型千卡场景下的多维度评测方法。
22、本发明第四方面提供了一种电子设备,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如第一方面所述的ai硬件在大模型千卡场景下的多维度评测方法。
23、本发明的有益效果是:本发明提供的方案旨在建立以产业实践为导向的指标体系和评测方法,以对ai硬件在软件栈组合(模型+框架+编译器)下的实际能力进行评测。本发明涵盖衡量“芯片能否支持特定模型训练”的四大指标的评测方法,分别是功能正确性指标测试、性能指标测试、资源使用指标测试以及稳定性指标测试。多维度指标的测试方案弥补了目前市面上评测方案在大模型领域的覆盖面不足的问题,能够更全面地评估ai芯片对于大模型的支持能力。
技术特征:1.一种ai硬件在大模型千卡场景下的多维度评测方法,其特征在于,包括:功能正确性测试、性能测试、稳定性测试和资源消耗性测试;
2.如权利要求1所述的ai硬件在大模型千卡场景下的多维度评测方法,其特征在于,所述功能正确性测试包括:采用固定超参数、固定随机数和固定初始权重,在设定的初始条件下计算芯片在训练过程中的损失值。
3.如权利要求2所述的ai硬件在大模型千卡场景下的多维度评测方法,其特征在于,所述在所述功能正确性测试中,根据训练过程的损失值进行评价包括:将计算得到的损失值与预设的基准损失值进行比较,若比较结果在预设的误差范围内,则满足功能正确性测试要求;否则,不满足功能正确性测试要求。
4.如权利要求3所述的ai硬件在大模型千卡场景下的多维度评测方法,其特征在于,所述功能正确性测试要求包括:前10步计算得到的损失值与预设的基准损失值使用numpy.isclose接口,在fp16场景使用atol=1e-3和rtol=2e-4;在bf16场景使用atol=1e-2和rtol=2e-3,观察结果是否为真;前5000步,计算得到的损失值与预设的基准损失值的相对误差均值小于等于2%。
5.如权利要求1所述的ai硬件在大模型千卡场景下的多维度评测方法,其特征在于,在所述性能测试中,根据吞吐、功耗和显存占用情况进行评价包括:
6.如权利要求1所述的ai硬件在大模型千卡场景下的多维度评测方法,其特征在于,所述稳定性测试包括:在预设规模的模型上,厂商选用任意规模的集群,完成预设参数量的训练任务,忽略性能和精度,统计完成预设参数量的训练任务过程中发生故障的次数及每次故障的恢复时间。
7.如权利要求6所述的ai硬件在大模型千卡场景下的多维度评测方法,其特征在于,所述在所述稳定性测试中,根据故障次数和恢复时间以及功耗和显存占用情况进行评价包括:
8.一种ai硬件在大模型千卡场景下的多维度评测装置,其特征在于,包括:功能正确性测试模块、性能测试模块、稳定性测试模块和资源消耗性测试模块;
9.一种存储器,其特征在于,存储有多条指令,所述指令用于实现如权利要求1-7任一项所述的ai硬件在大模型千卡场景下的多维度评测方法。
10.一种电子设备,其特征在于,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如权利要求1-7任一项所述的ai硬件在大模型千卡场景下的多维度评测方法。
技术总结本发明公开了AI硬件在大模型千卡场景下的多维度评测方法和装置,属于人工智能技术领域。方法包括功能正确性测试、性能测试、稳定性测试和资源消耗性测试;在功能正确性测试中,根据训练过程的损失值进行评价;在性能测试中,根据吞吐量、功耗和显存占用情况进行评价;在稳定性测试中,根据故障次数和恢复时间以及功耗和显存占用情况进行评价;在资源消耗性测试中,根据在性能测试和稳定性测试中监控的各指标项,以及各指标项监控结果的时间序列均值和标准差进行评价。本发明对AI硬件在软件栈组合(模型+框架+编译器)下的实际能力进行评测,能够更全面地评估AI芯片对于大模型的支持能力,弥补了目前大模型领域评测方案覆盖面不足的问题。技术研发人员:石浤澔,敖玉龙,吴文莉,田燕,林咏华受保护的技术使用者:北京智源人工智能研究院技术研发日:技术公布日:2024/7/29本文地址:https://www.jishuxx.com/zhuanli/20240730/196777.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表