技术新讯 > 电子通信装置的制造及其应用技术 > 模型文件的确定方法和装置、存储介质及电子设备与流程 > 正文

模型文件的确定方法和装置、存储介质及电子设备与流程

国知局
2024-08-02 14:26:41

本技术实施例涉及服务器集群，具体而言，涉及一种模型文件的确定方法和装置、存储介质及电子设备。

背景技术：

1、相关技术中，随着人工智能相关产业的蓬勃发展，科研企业和高校等的研究人员对设备算力的要求越来越高。

2、一般而言，可以通过建立ai(artificial intelligence，人工智能)集群平台来提供高算力。ai集群平台的核心功能之一便是对存储的海量数据进行管理。不过随着大量文件数据的产生，消耗了ai集群平台相当多的网络和存储资源。加之，ai集群平台自身也在交互中产生频繁的lo操作，导致ai集群平台的资源性能变差，拖慢了数据的传输速度。因此，如何提高从ai集群平台获取模型文件的效率，提高用户对ai集群平台资源性能的利用率以提高用户使用ai集群平台进行模型训练与生产的效率，成为ai集群平台亟待解决的需求。

3、因此，相关技术中，存在如何从ai集群平台中高效下载模型文件的技术问题。

4、针对相关技术中，如何从ai集群平台中高效下载模型文件的问题，尚未得到有效解决。

技术实现思路

1、本技术实施例提供了一种模型文件的确定方法和装置、存储介质及电子设备，以至少解决相关技术中如何从ai集群平台中高效下载模型文件的技术问题。

2、根据本技术的一个实施例，提供了一种模型文件的确定方法，应用于人工智能集群平台，其中，所述人工智能集群平台包括服务器集群，所述服务器集群中预置有不同类型的服务器，所述人工智能集群平台用于存储所述服务器的网络计算资源，以及基于所述网络计算资源生成训练人工智能大模型所需的模型文件，包括：响应于目标对象的数据传输请求，从所述人工智能集群平台中确定所述数据传输请求所请求的目标模型文件；生成所述目标模型文件的下载任务，基于所述目标对象的下载指令启动所述人工智能集群平台提供的预置下载工具，其中，所述预置下载工具用于执行所述下载任务；从所述人工智能集群平台的不同服务器提供的可用网络计算资源中获取所述预置下载工具执行所述下载任务时所需的目标下载资源，以及，基于所述目标下载资源将所述下载任务的子任务分配至所述不同服务器；在所述不同服务器中使用所述预置下载工具执行所述子任务，以根据执行结果得到所述目标模型文件，其中，所述执行结果至少包括多个子任务被执行后得到的模型文件。

3、在一个示例性实施例中，从所述人工智能集群平台中确定所述数据传输请求所请求的目标模型文件，包括：对所述数据传输请求进行解析，得到所述数据传输请求的请求类型和请求地址；在确定所述请求类型为请求下载的情况下，确定所述请求地址对应的文件信息；在确定所述文件信息绑定的对象信息与所述目标对象的对象信息一致的情况下，将所述文件信息所指示的模型文件确定为所述目标模型文件。

4、在一个示例性实施例中，在从所述人工智能集群平台中确定所述数据传输请求所请求的目标模型文件之前，所述方法还包括：对所述预置下载工具执行所述下载任务时的下载参数进行配置，以使所述预置下载工具基于所述下载指令自动执行所述下载任务；其中，所述对所述预置下载工具执行所述下载任务时的下载参数进行配置包括：在确定所述下载参数为空值的情况下，基于所述目标对象的输入数据，对所述下载参数进行填充，其中，所述下载参数至少包括所述目标模型文件的下载路径，下载密码，下载限速值。

5、在一个示例性实施例中，对所述预置下载工具执行所述下载任务时的下载参数进行配置，还包括：对所述下载参数进行常规配置，其中，所述预置下载工具处于未启动状态；其中，所述对所述下载参数进行常规配置至少包括以下之一：根据预设端口信息生成所述预置下载工具的远程调用端口；随机生成所述预置下载工具的远程调用密钥；启用为所述预置下载工具提供的工具日志；生成所述预置下载工具的配置文件目录。

6、在一个示例性实施例中，对所述预置下载工具执行所述下载任务时的下载参数进行配置，还包括：对所述下载参数进行默认配置，其中，所述预置下载工具处于启动状态；其中，所述对所述下载参数进行默认配置至少包括以下之一：确定所述预置下载工具支持的最大下载量；将所述预置下载工具的传输方式设置为支持断点续传；将所述预置下载工具支持下载的文件类型设置为默认文件类型。

7、在一个示例性实施例中，对所述预置下载工具执行所述下载任务时的下载参数进行配置，还包括：向所述目标对象提供所述下载参数的可视化界面，其中，所述可视化界面具有所述下载参数的配置区域，所述配置区域面向所述预置下载工具具有连接接口；在确定所述目标对象在所述配置区域配置的所述下载参数生效之后，基于所述连接接口将所述下载参数同步至所述预置下载工具。

8、在一个示例性实施例中，在向所述目标对象提供所述下载参数的可视化界面之后，所述方法还包括：从所述可视化界面提供的后台端口中选择一个空闲端口，绑定所述空闲端口与所述预置下载工具的调用端口；如果确定所述目标对象的对象名称属于预设名称，且所述目标对象提供的对象密码与所述预设名称对应的预设密码一致，则通过所述调用端口将所述目标对象的下载指令发送给所述预置下载工具。

9、在一个示例性实施例中，通过所述调用端口将所述目标对象的下载指令发送给所述预置下载工具，包括：确定所述调用端口提供的远程调用服务对象，其中，所述远程调用服务对象用于提供面向所述预置下载工具的远程调用服务；使用所述远程调用服务对象将所述下载指令发送给所述预置下载工具。

10、在一个示例性实施例中，基于所述目标对象的下载指令启动所述人工智能集群平台提供的预置下载工具，包括：响应于所述下载指令，启动所述人工智能集群平台的可视化工具，其中，所述可视化工具与多个预置下载工具均建立有远程模型文件的确定通道；在所述可视化工具启动成功之后，基于所述可视化工具启动时生成的启动信息联动启动所述多个预置下载工具。

11、在一个示例性实施例中，在所述不同服务器中使用所述预置下载工具执行所述子任务，以根据执行结果得到所述目标模型文件的过程中，所述方法还包括：监测所述人工智能集群平台的平台下载速度；在确定所述平台下载速度大于第一预设值的情况下，对正在执行所述子任务的预置下载工具进行限速处理；获取所述正在执行所述子任务的预置下载工具在限速处理之后的第一下载速度；在确定所述第一下载速度高于第二预设值的情况下，继续降低所述第一下载速度直至所述第一下载速度等于或小于所述第二预设值，其中，所述第二预设值小于所述第一预设值。

12、在一个示例性实施例中，对正在执行所述子任务的预置下载工具进行限速处理，包括：获取正在执行所述子任务的预置下载工具的第二下载速度；确定所有正在执行所述子任务的预置下载工具的第三下载速度，其中，所述第三下载速度包括多个第二下载速度的速度和；在确定所述第三下载速度和所述平台下载速度之间的比值大于下载阈值的情况下，对正在执行所述子任务的预置下载工具进行限速处理。

13、在一个示例性实施例中，对正在执行所述子任务的预置下载工具进行限速处理，包括：对所述第一下载速度进行第一限速处理，得到第四下载速度，其中，所述第一限速处理表示按照第一降低比例降低所述第一下载速度；在确定所述第四下载速度小于第三预设值的情况下，对所述第四下载速度进行第二限速处理，得到第五下载速度，其中，所述第二限速处理表示按照第二降低比例降低所述第一下载速度，其中，所述第二降低比例小于所述第一降低比例。

14、在一个示例性实施例中，基于所述目标下载资源将所述下载任务分配至所述不同服务器，包括：确定出所述预置下载工具支持的初始下载资源；在确定所述初始下载资源大于所述目标下载资源的情况下，获取所述不同服务器中每一个服务器的资源消耗值；根据所述资源消耗值确定所述每一个服务器对应的调度值；根据调度值对所述不同服务器从小到大进行排序，得到排序结果；根据所述每一个服务器在所述排序结果中的序号将所述子任务分配给所述每一个服务器，其中，所述序号越小，则所述每一个服务器越早被分配到所述子任务。

15、在一个示例性实施例中，在根据所述每一个服务器在所述排序结果中的序号将所述子任务分配给所述每一个服务器之前，所述方法还包括：获取对所述不同服务器进行监测得到的服务器状态；在确定所述服务器状态用于指示所述不同服务器中存在异常服务器的情况下，从所述排序结果中删除所述异常服务器，其中，所述异常服务器表示处于异常的所述服务器。

16、在一个示例性实施例中，获取所述不同服务器中每一个服务器的资源消耗值，包括：确定所述每一个服务器的当前下载速度和所述每一个服务器支持的下载带宽，根据所述当前下载速度和所述下载带宽的比值确定出所述每一个服务器的带宽消耗值；根据所述每一个服务器的当前存储磁盘利用率确定出所述每一个服务器的存储消耗值；确定所述每一个服务器的算力资源使用率确定出所述每一个服务器的算力消耗值；基于所述带宽消耗值，所述存储消耗值和所述算力消耗值的和值确定所述资源消耗值。

17、在一个示例性实施例中，根据所述资源消耗值确定所述每一个服务器对应的调度值，包括：将所述带宽消耗值，所述存储消耗值和所述算力消耗值的和值确定为所述每一个服务器对应的调度值；其中，将所述带宽消耗值，所述存储消耗值和所述算力消耗值的和值确定为所述每一个服务器对应的调度值包括：获取所述带宽消耗值和第一权重之间的第一乘积，获取所述存储消耗值和第二权重之间的第二乘积，以及获取所述算力消耗值和第三权重之间的第三乘积，其中，所述第一权重大于所述第二权重，所述第二权重大于所述第三权重；对所述第一乘积，所述第二乘积和所述第三乘积求和，得到所述调度值。

18、在一个示例性实施例中，在所述不同服务器中使用所述预置下载工具执行所述子任务，以根据执行结果得到所述目标模型文件，包括：针对所述不同服务器的任一个服务器，在所述任一个服务器内调用所述预置下载工具执行相应的子任务，以得到下载的子模型文件；对多个子模型文件进行合并，得到所述目标模型文件。

19、根据本技术的另一个实施例，提供了一种模型文件的确定装置，包括：确定模块，用于响应于目标对象的数据传输请求，从人工智能集群平台中确定所述数据传输请求所请求的目标模型文件；启动模块，用于生成所述目标模型文件的下载任务，基于所述目标对象的下载指令启动所述人工智能集群平台提供的预置下载工具，其中，所述预置下载工具用于执行所述下载任务；获取模块，用于从所述人工智能集群平台的不同服务器提供的可用网络计算资源中获取所述预置下载工具执行所述下载任务时所需的目标下载资源，以及，基于所述目标下载资源将所述下载任务的子任务分配至所述不同服务器；得到模块，用于在所述不同服务器中使用所述预置下载工具执行所述子任务，以根据执行结果得到所述目标模型文件，其中，所述执行结果至少包括多个子任务被执行后得到的模型文件。

20、根据本技术的又一个实施例，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

21、根据本技术的又一个实施例，还提供了一种电子设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

22、根据本技术的又一个实施例，还提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现上述任一项方法实施例中的步骤。

23、通过本技术，通过响应于目标对象的数据传输请求，从所述人工智能集群平台中确定所述数据传输请求所请求的目标模型文件；生成所述目标模型文件的下载任务，基于所述目标对象的下载指令启动所述人工智能集群平台提供的预置下载工具，其中，所述预置下载工具用于执行所述下载任务；从所述人工智能集群平台的不同服务器提供的可用网络计算资源中获取所述预置下载工具执行所述下载任务时所需的目标下载资源，以及，基于所述目标下载资源将所述下载任务的子任务分配至所述不同服务器；在所述不同服务器中使用所述预置下载工具执行所述子任务，以根据执行结果得到所述目标模型文件，其中，所述执行结果至少包括多个子任务被执行后得到的模型文件。可以通过人工智能集群平台提供的统一的预置下载工具执行下载任务，降低ai集群平台的资源消耗，有效提升ai集群平台的使用流畅性，提高用户的工作效率，能够面向不同用户执行下载任务，还支持认为调度和分配下载任务，提高了ai集群平台的网络资源的利用率，继而加快模型文件的下载速度。因此，可以解决相关技术中，如何从ai集群平台中高效下载模型文件的技术问题，实现了提高模型文件的下载效率的技术效果。