技术新讯 > 计算推算,计数设备的制造及其应用技术 > 推理服务方法、系统、装置、设备及可读存储介质与流程  >  正文

推理服务方法、系统、装置、设备及可读存储介质与流程

  • 国知局
  • 2024-07-31 22:49:29

本发明涉及算力网络领域,尤其涉及一种推理服务方法、系统、装置、设备及可读存储介质。

背景技术:

1、随着智能化进程的发展,算力规模不断扩大,推理需求也跟着日益增长。为了推进推理供需的合理调度,现有技术通过制定各种规则的推理编排调度机制,然后通过各种调度机制对推理需求进行调度,使推理需要按照调度机制进行编排,能够解决一些推理供需情况下的推理服务。然而现有的技术并未考虑仍存在相当一部分闲置的推理资源,这些闲置的推理资源未被接入现有的推理供需调度方案。且现有的推理供需调度方案存在难以处理的特殊情况,例如,关键的推理服务方无法进行推理或者短时大量推理需求等。这使得现有的推理供需调度方案存在推理资源利用率低的问题。

技术实现思路

1、本发明提供一种推理服务方法、系统、装置、设备及可读存储介质,用以解决现有的推理供需调度方案存在的推理资源利用率低的技术问题。

2、本发明提供一种推理服务方法,包括:

3、接收推理请求终端发送的推理请求,确定所述推理请求对应的词元token以及目标推理提供终端;

4、将所述token发送至所述目标推理提供终端,接收所述目标推理提供终端返回的新token;所述新token是由所述目标推理提供终端基于内置的推理模型参数对所述token进行推理得到的;

5、将所述新token反馈给所述推理请求终端。

6、根据本发明提供的一种推理服务方法,所述接收所述目标推理提供终端返回的新token之前,还包括:

7、接收所述目标推理提供终端发送的表征推理失败的反馈信息;

8、根据所述反馈信息,确定所述目标推理提供终端的缺失模型参数;

9、将所述缺失模型参数下发到所述目标推理提供终端;所述目标推理提供终端在获取到所述缺失模型参数的情况下,对所述token进行推理得到新token。

10、根据本发明提供的一种推理服务方法,所述接收推理请求终端发送的推理请求,之前包括:

11、确定待下发的推理模型参数和待接收的推理提供终端;

12、在所述待下发的推理模型参数的存储量大于所述待接收的推理提供终端的存储量的情况下,对所述待下发的推理模型参数进行拆分;

13、将拆分后的推理模型参数分别下发至多个待接收的推理提供终端;所述多个待接收的推理提供终端在同一区域网内。

14、根据本发明提供的一种推理服务方法,所述根据所述反馈信息,确定所述目标推理提供终端的缺失模型参数之后包括:

15、确定第一推理提供终端;所述第一推理提供终端与所述目标推理提供终端在同一区域网内;

16、从所述第一推理提供终端获取所述缺失模型参数。

17、根据本发明提供的一种推理服务方法,所述确定所述推理请求对应的目标推理提供终端包括:

18、确定多个待筛选推理提供终端;

19、确定每个待筛选推理提供终端与所述推理请求终端之间的传输距离,以及每个待筛选推理提供终端的内置推理模型参数;

20、基于所述传输距离和所述内置推理模型参数,从多个待筛选推理提供终端中确定目标推理提供终端。

21、根据本发明提供的一种推理服务方法,所述基于所述传输距离和所述内置推理模型参数,从多个待筛选推理提供终端中确定目标推理提供终端包括:

22、确定所述token对应的目标推理模型参数,以及所述推理请求的请求时限;

23、基于所述传输距离和所述内置推理模型参数,确定所述目标推理模型参数下发至各所述待筛选推理提供终端的下发成本;

24、根据所述请求时限和所述下发成本,从多个待筛选推理提供终端中确定目标推理提供终端。

25、本发明提供一种推理服务系统,包括推理服务器、推理请求终端以及推理提供终端,其中:

26、所述推理请求终端,用于向所述推理服务器发送推理请求;

27、所述推理服务器,用于确定所述推理请求对应的词元token以及目标推理提供终端;

28、所述推理提供终端,用于基于内置的推理模型参数对所述token进行推理,得到新token,将所述新token发送至所述推理服务器;

29、所述推理服务器,还用于将所述新token反馈给所述推理请求终端;

30、在接收所述推理请求之前,所述推理服务器还用于向所述推理服务提供终端发送推理模型参数。

31、本发明还提供一种推理服务装置,包括:

32、推理请求接收模块,用于接收推理请求终端发送的推理请求,确定所述推理请求对应的词元token以及目标推理提供终端;

33、推理结果接收模块,用于将所述token发送至所述目标推理提供终端,接收所述目标推理提供终端返回的新token;所述新token是由所述目标推理提供终端基于内置的推理模型参数对所述token进行推理得到的;

34、推理结果反馈模块,用于将所述新token反馈给所述推理请求终端。

35、本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述推理服务方法。

36、本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述推理服务方法。

37、本发明提供的推理服务方法、系统、装置、设备及可读存储介质,通过构建包含推理请求终端、推理服务器以及推理提供终端的推理服务系统,推理服务器接收推理请求终端发送的推理请求,确定推理请求对应的需要进行推理的词元token,以及可以对token进行推理的目标推理提供终端。在目标推理提供终端基于其内置的推理模型参数对token进行推理得到新token后,将新token反馈给推理请求终端。通过预先在推理提供终端内置推理模型参数,在接收到推理请求时,将推理任务经推理服务器发送至内置有可以完成推理任务的推理模型参数的目标推理提供终端,提高了推理提供终端的推理资源的利用率。

技术特征:

1.一种推理服务方法,其特征在于,应用于推理服务器;方法包括:

2.根据权利要求1所述的推理服务方法,其特征在于,所述接收所述目标推理提供终端返回的新token之前,还包括:

3.根据权利要求2所述的推理服务方法,其特征在于,所述接收推理请求终端发送的推理请求,之前包括:

4.根据权利要求3所述的推理服务方法,其特征在于,所述根据所述反馈信息,确定所述目标推理提供终端的缺失模型参数之后包括:

5.根据权利要求3所述的推理服务方法,其特征在于,所述确定所述推理请求对应的目标推理提供终端包括:

6.根据权利要求5所述的推理服务方法,其特征在于,所述基于所述传输距离和所述内置推理模型参数,从多个待筛选推理提供终端中确定目标推理提供终端包括:

7.一种推理服务系统,其特征在于,包括推理服务器、推理请求终端以及推理提供终端,其中:

8.一种推理服务装置,其特征在于,包括:

9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述推理服务方法。

10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述推理服务方法。

技术总结本发明涉及算力网络领域,本发明提供一种推理服务方法、系统、装置、设备及可读存储介质,该方法包括:接收推理请求终端发送的推理请求,确定所述推理请求对应的词元token以及目标推理提供终端;将所述token发送至所述目标推理提供终端,接收所述目标推理提供终端返回的新token;所述新token是由所述目标推理提供终端基于内置的推理模型参数对所述token进行推理得到的;将所述新token反馈给所述推理请求终端。本发明通过预先在推理提供终端内置推理模型参数,在接收到推理请求时,将推理任务经推理服务器发送至内置有可以完成推理任务的推理模型参数的目标推理提供终端,提高了推理提供终端的推理资源的利用率。技术研发人员:张维,沈林江,崔超受保护的技术使用者:浪潮通信信息系统有限公司技术研发日:技术公布日:2024/7/29

本文地址:https://www.jishuxx.com/zhuanli/20240730/194823.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。