面向专用处理器的大模型部署方法、系统、设备及介质与流程
- 国知局
- 2024-07-31 23:15:42
本发明涉及人工智能,具体涉及一种面向专用处理器的大模型部署方法、系统、设备及介质。背景技术:::1、与传统的神经网络相比,大模型具有更复杂的网络结构,对计算资源、推理速度、内存占用提出了更高的要求。通常情况下,我们需要再模型部署的时候对模型做压缩、量化,目前业界有开源的大模型推理框架,比如nvidia的tensorrt-llm,tensorrt-llm是在tensorrt上基础上针对大模型进一步优化的加速推理库,tensorrt指nvidia研发的深度学习推理加速框架,主要应用于nvidia系列的显卡、计算卡。tensorrt-llm具有以下缺点:2、依赖性强:tensorrt-llm的运行依托于nvidia公司的显卡,对于一些特定的硬件平台或软件环境,可能需要额外的配置和优化。3、改造成本高:tensorrt-llm是一个半开源项目,核心的量化算法、算子编译都不开源。不同的硬件平台,需要对这些地方改造,所以改造成本很高。4、学习成本高:tensorrt-llm依赖tensorrt引擎,需要具备一定的深度学习知识和经验,对于初学者来说可能需要较长时间的学习和实践。。技术实现思路1、针对现有技术中的缺陷,本发明提供一种面向专用处理器的大模型部署方法、系统、设备及介质。2、第一方面,本发明所述提供的一种面向专用处理器的大模型部署方法,包括:转换大模型推理的配置文件和权重文件得到转换后的配置文件和权重文件;3、判断大模型是否需要并行运算;4、若是,则根据模型结构和算子类型,将转换后的权重文件拆分为多份;5、若否,则对需要量化的模型根据校准数据集进行量化,分别得到量化后的模型和权重;6、对比量化后的模型与原模型的精度损失,根据需要对比的模型和数据集,加载量化后的模型和权重,进行模型推理及评价指标计算。7、第二方面,本发明实施例提供的一种面向专用处理器的大模型部署系统,包括:转换模块、判断模块和分析模块;8、所述转换模块用于转换大模型推理的配置文件和权重文件得到转换后的配置文件和权重文件;9、所述判断模块用于判断大模型是否需要并行运算,若是,则根据模型结构和算子类型,将转换后的权重文件拆分为多份,若否,则对需要量化的模型根据校准数据集进行量化,分别得到量化后的模型和权重;10、所述分析模块用于对比量化后的模型与原模型的精度损失,根据需要对比的模型和数据集,加载量化后的模型和权重,进行模型推理及评价指标计算。11、第三方面,本发明实施例提供的一种电子设备,包括处理器、输入设备、输出设备和存储器,所述处理器分别与输入设备、输出设备和存储器连接,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述实施例描述的方法。12、第四方面,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述实施例描述的方法。13、本发明的有益效果:14、本发明实施例提供的一种面向专用处理器的大模型部署方法,支持多种常见的大模型,上手容易,学习成本低,将大模型进行量化,保证精度的同时节约计算资源、提升模型的性能。实现了张量并行,降低了大模型部署过程中对硬件的要求,降低大模型应用成本。15、本发明实施例提供一种面向专用处理器的大模型部署系统、设备和介质,与上述一种面向专用处理器的大模型部署方法出于相同的发明构思,具有相同的有益效果。技术特征:1.一种面向专用处理器的大模型部署方法,其特征在于,包括:2.如权利要求1所述的方法,其特征在于,所述对需要量化的模型根据校准数据集进行量化的具体方法包括:3.如权利要求2所述的方法,其特征在于,所述自定义推理框架包括大模型的算子库、模型库和模型pipeline。4.如权利要求3所述的方法,其特征在于,所述算子库包括浮点算子库和量化算子库,所述浮点算子库用于校准和原模型的推理,所述量化算子库用于量化后模型的推理。5.如权利要求4所述的方法,其特征在于,所述模型库包括浮点模型库和量化模型库,所述模型库对浮点算子库或量化算子库进行组装,形成多个大模型,所述大模型包括llama系列、bloom系列、gpt系列和stable diffusion。6.一种面向专用处理器的大模型部署系统,其特征在于,包括:转换模块、判断模块和分析模块;7.如权利要求6所述的系统,其特征在于,所述分析模块包括加载单元、校准单元和导出单元;8.如权利要求7所述的系统,其特征在于,所述自定义推理框架包括大模型的算子库、模型库和模型pipeline,所述算子库包括浮点算子库和量化算子库,所述浮点算子库用于校准和原模型的推理,所述量化算子库用于量化后模型的推理,所述模型库包括浮点模型库和量化模型库,所述模型库对浮点算子库或量化算子库进行组装,形成多个大模型,所述大模型包括llama系列、bloom系列、gpt系列和stable diffusion。9.一种电子设备,包括处理器、输入设备、输出设备和存储器,所述处理器分别与输入设备、输出设备和存储器连接,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,其特征在于,所述处理器被配置用于调用所述程序指令,执行如权利要求1-5任一项所述的方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-5任一项所述的方法。技术总结本发明公开了一种面向专用处理器的大模型部署方法,包括:转换大模型推理的配置文件和权重文件得到转换后的配置文件和权重文件;判断大模型是否需要并行运算;若是,则根据模型结构和算子类型,将转换后的权重文件拆分为多份;若否,则对需要量化的模型根据校准数据集进行量化,分别得到量化后的模型和权重;对比量化后的模型与原模型的精度损失,根据需要对比的模型和数据集,加载量化后的模型和权重,进行模型推理及评价指标计算。该方法支持多种常见的大模型,上手容易,学习成本低,将大模型进行量化,保证精度的同时节约计算资源、提升模型的性能。实现了张量并行,降低了大模型部署过程中对硬件的要求,降低大模型应用成本。技术研发人员:赵武金,宋莉莉,张祥建受保护的技术使用者:北京谦合益邦云信息技术有限公司技术研发日:技术公布日:2024/7/29
本文地址:https://www.jishuxx.com/zhuanli/20240730/196673.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表