基于人工智能平台的目标模型的推理加速方法及设备与流程
- 国知局
- 2024-10-21 14:33:15
本发明涉及人工智能、深度学习,具体涉及一种基于人工智能平台的目标模型的推理加速方法及设备。
背景技术:
1、深度学习模型、机器学习模型和大语言模型等人工智能模型为数据分析或处理的重要技术,在相关技术中,人工智能模型通常被布置在人工智能平台,终端通过人工智能平台以实现对人工智能模型的训练和推理应用。但在相关技术中,若有多个用户同事对人工智能模型进行访问或人工智能模型需要处理数据较多的情况下,人工智能模型会占用较多资源,在占用的资源大于被分配的资源时会导致人工智能模型的推理速度较慢。
2、可见,相关技术中存在人工智能模型在访问请求较大时,推理速度较慢的问题。
技术实现思路
1、本发明实施例提供一种基于人工智能平台的目标模型的推理加速方法及设备,以相关技术中存在学习模型的推理速度较低的问题。
2、为解决上述问题,本发明是这样实现的:
3、第一方面,本发明实施例提供一种基于人工智能平台的目标模型的推理加速方法,所述目标模型包括多个步骤,每个步骤分别部署在不同的实例中,所述每个步骤对应至少一个实例,所述目标模型被部署为模型服务,所述方法包括:
4、在所述目标模型的推理过程中,获取所述多个步骤中每个步骤对应的硬件资源占用数据,以及所述每个步骤对应的设定负载阈值;
5、在所述多个步骤中存在至少一个目标步骤的情况下,扩展所述目标步骤对应的实例,所述目标步骤为对应的所述硬件资源占用数据大于对应的所述设定负载阈值的步骤。
6、第二方面,本发明实施例还提供一种基于人工智能平台的目标模型的推理加速装置的结构图,所述目标模型包括多个步骤,每个步骤分别部署在不同的实例中,所述每个步骤对应至少一个实例,所述目标模型被部署为模型服务,所述基于人工智能平台的目标模型的推理加速装置400包括:
7、获取模块,用于在所述目标模型的推理过程中,获取所述多个步骤中每个步骤对应的硬件资源占用数据,以及所述每个步骤对应的设定负载阈值;
8、第一扩展模块,用于在所述多个步骤中存在至少一个目标步骤的情况下,扩展所述目标步骤对应的实例,所述目标步骤为对应的所述硬件资源占用数据大于对应的所述设定负载阈值的步骤。
9、第三方面,本发明实施例还提供一种电子设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上述第一方面所述的基于人工智能平台的目标模型的推理加速方法中的步骤。
10、第四方面,本发明实施例还提供一种可读存储介质,用于存储程序,所述程序被处理器执行时实现如上述第一方面所述的基于人工智能平台的目标模型的推理加速方法中的步骤。
11、第五方面,本发明实施例还提供一种计算机程序产品,包括计算机指令,所述计算机指令被处理器执行时实现如上述第一方面所述的基于人工智能平台的目标模型的推理加速方法中的步骤。
12、在本发明实施例中,通过在目标模型的推理过程中,获取多个步骤中每个步骤对应的硬件资源占用数据,以及每个步骤对应的设定负载阈值;在多个步骤中存在至少一个目标步骤的情况下,扩展目标步骤对应的实例,目标步骤为对应的硬件资源占用数据大于对应的设定负载阈值的步骤。这样,在目标步骤为对应的硬件资源占用数据大于对应的设定负载阈值的步骤的情况下,扩展目标步骤对应的实例,使得扩展后的目标步骤对应的硬件资源占用数据小于设定负载阈值,从而提高目标步骤的数据处理速度,进而提高目标模型的推理速度。
技术特征:1.一种基于人工智能平台的目标模型的推理加速方法,其特征在于,所述目标模型包括多个步骤,每个步骤分别部署在不同的实例中,所述每个步骤对应至少一个实例,所述目标模型被部署为模型服务,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述获取所述多个步骤中每个步骤对应的硬件资源占用数据,以及所述每个步骤对应的设定负载阈值,包括:
3.根据权利要求1所述的方法,其特征在于,所述至少一个实例中每个实例对应一个容器,所述在所述多个步骤中存在至少一个目标步骤的情况下,扩展所述目标步骤对应的实例,包括:
4.根据权利要求1至3中任一项所述的方法,其特征在于,在所述目标模型的推理过程中,获取所述多个步骤中每个步骤对应的硬件资源占用数据,以及所述每个步骤对应的设定负载阈值之后,所述方法还包括:
5.根据权利要求1至3中任一项所述的方法,其特征在于,在所述目标步骤扩展后的对应的实例为多个实例的情况下,所述多个实例的输入共享所述目标步骤的上一级步骤对应的实例的输出。
6.根据权利要求1至3中任一项所述的方法,其特征在于,所述获取所述多个步骤中每个步骤对应的硬件资源占用数据,包括:
7.根据权利要求1至6中任一项所述的方法,其特征在于,还包括:
8.根据权利要求7所述的方法,其特征在于,所述模型信息包括模型结构、模型占用内存和模型权重精度,所述根据所述初始模型的模型信息确定所述初始模型对应的优化方法,包括:
9.如权利要求7所述的方法,其特征在于,所述根据所述优化方法对所述初始模型进行处理,得到所述目标模型之后,所述方法还包括:
10.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至9中任一项所述的基于人工智能平台的目标模型的推理加速方法中的步骤。
技术总结本发明涉及人工智能、深度学习技术领域,用于通过人工智能平台对深度学习模型、机器学习模型或大语言模型推理时的资源占用情况进行监控,并进行资源调节,以降低了服务器资源负载。本发明提供一种基于人工智能平台的目标模型的推理加速方法及设备,所述方法包括:在所述目标模型的推理过程中,获取所述多个步骤中每个步骤对应的硬件资源占用数据,以及所述每个步骤对应的设定负载阈值;在所述多个步骤中存在至少一个目标步骤的情况下,扩展所述目标步骤对应的实例,所述目标步骤为对应的所述硬件资源占用数据大于对应的所述设定负载阈值的步骤。技术研发人员:路明奎受保护的技术使用者:北京九章云极科技有限公司技术研发日:技术公布日:2024/10/17本文地址:https://www.jishuxx.com/zhuanli/20241021/318556.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表