技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种GPU服务器集群系统及GPU调度方法与流程  >  正文

一种GPU服务器集群系统及GPU调度方法与流程

  • 国知局
  • 2025-01-10 13:46:26

本发明涉及数据处理,尤其涉及一种gpu服务器集群系统及gpu调度方法。

背景技术:

1、 gpu(graphics processing unit),即图形处理器,是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上进行图像运算工作的微处理器。它具有强大的并行计算能力,最初主要用于图形渲染,但随着技术的发展,如今在科学计算、人工智能、深度学习、视频处理等众多领域都发挥着至关重要的作用。

2、随着互联网产业的快速发展,视频图像处理需求也在不断增长,gpu服务集群也就应运而生。gpu服务集群具有高并行处理能力和强大的扩展性,可以高效处理大规模图像视频、深度学习、科学计算等多种计算密集型任务。

3、 gpu服务器集群在处理任务时,由于缺乏高效的任务调度方案,可能导致某些gpu资源被过度使用,而其他gpu资源则处于空闲状态。这种资源分配不均会导致整体性能下降,增加能源消耗和运营成本。

4、因此如何有效调度gpu算力,提升gpu服务器集群的性能,是一个亟需解决的问题。

技术实现思路

1、针对上述技术问题和缺陷,本发明的目的是提供一种gpu服务器集群系统及gpu调度方法,可以有效调度gpu算力,提升gpu服务器集群的性能。

2、为实现上述目的,第一方面,本发明提供一种gpu服务器集群系统,包括多个gpu服务节点、数据传输单元、任务分割单元、gpu调度单元及数据处理单元;数据传输单元用于从数据需求端获取待处理的视频图像数据集;任务分割单元用于根据该视频图像数据集生成视频图像处理任务,并将该视频图像处理任务分割成多个子任务;gpu调度单元用于根据该gpu服务节点的负载性能参数确定该gpu服务节点的负载性能评分,基于该负载性能评分由高到低对该gpu服务节点进行排序,将排序位于前n位的该gpu服务节点确定为目标gpu节点,并将该子任务分配给该目标gpu节点,该负载性能参数包括浮点运算能力值、显存带宽利用率和核心时钟频率;该目标gpu节点用于执行该子任务,得到已处理部分视频图像数据;数据处理单元用于将多个该已处理部分视频图像数据合并成完整的已处理视频图像数据集,并通过该数据传输单元将该已处理视频图像数据集发送给该数据需求端,同时向该gpu调度单元发送视频图像处理任务已完成信息。

3、 本发明通过任务分割单元将视频图像处理任务细分为多个子任务,打破了大型任务对单个 gpu 节点的压力限制,使得各子任务可以并行处理,充分挖掘了 gpu 的并行计算潜力。gpu 调度单元依据浮点运算能力值、显存带宽利用率和核心时钟频率等关键性能参数确定各 gpu 服务节点的负载性能评分,确保将子任务分配给最适合的目标 gpu 节点。这一智能调度机制避免了因不合理分配导致的部分节点负载过重而其他节点闲置的情况,极大地提高了 gpu 算力的利用效率,提升了gpu服务器集群的性能表现。并且多个 gpu服务节点协同工作,可根据不同任务需求动态调整算力分配,提升了系统的灵活性和适应性。当面对大规模视频图像数据处理任务时,系统能够高效地调度资源,快速完成任务,减少了处理时间,提高了工作效率。同时,数据处理单元对已处理部分视频图像数据的合并以及与数据传输单元和 gpu 调度单元的信息交互,确保了整个系统的稳定运行和高效协作,进一步提升了 gpu 服务器集群的使用效率。

4、结合第一方面的一些实施例,在一些实施例中,该gpu调度单元具体用于根据负载性能评分公式计算得到该负载性能评分,该负载性能评分公式包括:

5、;

6、其中,s代表所述负载性能评分,f代表所述浮点运算能力值,m代表所述显存带宽利用率,c代表所述核心时钟频率,α、β、γ均为实验参数。

7、采用上述实施例的技术方案,通过引入一个具体的负载性能评分公式,提供了一种量化gpu服务节点性能的方法,使得系统能够更精确地评估和比较不同节点的性能。该公式考虑了浮点运算能力、显存带宽利用率和核心时钟频率三个关键参数,并引入实验参数以适应不同场景,增强了系统的适应性和灵活性。这种方法有助于更合理地分配任务,优化资源利用率,提高处理效率,从而使得gpu服务器集群系统在处理视频图像数据集时更加高效和稳定。

8、结合第一方面的一些实施例,在一些实施例中,该gpu服务器集群系统还包括任务队列单元,该任务队列单元用于根据设定的优先级定义规则确定各该子任务的优先级,并根据该优先级对各该子任务进行排序,得到子任务队列,该gpu调度单元用于根据该子任务队列调取该子任务。

9、采用上述实施例的技术方案,通过增加任务队列单元,使得系统能够根据预设的优先级规则和子任务间的依赖关系,对子任务进行排序和管理。这种机制确保了任务按照正确的顺序执行,避免了因依赖问题导致的执行延迟,提高了任务处理的准确性和效率。同时,它还允许系统在面对大量并发任务时,能够更加智能地调度资源,减少等待时间,提升整体的系统性能。

10、结合第一方面的一些实施例,在一些实施例中,该任务队列单元还用于确定该子任务之间的依赖关系,并根据该优先级和该依赖关系对各该子任务进行排序,得到该子任务队列。

11、采用上述实施例的技术方案,扩展了任务队列单元的功能,使其不仅能够确定子任务的优先级,还能够识别并处理子任务之间的依赖关系。这一改进确保了在复杂的任务处理流程中,所有依赖条件得到满足前,相关子任务不会过早执行,从而避免了资源浪费和潜在的执行错误。这种精细的任务管理能力显著提高了系统的稳定性和可靠性,尤其是在处理具有复杂依赖关系的视频图像处理任务时。

12、结合第一方面的一些实施例,在一些实施例中,该gpu服务器集群系统还包括gpu性能监测单元,用于监测该gpu节点的该负载性能参数,并将该负载性能参数发送给该gpu调度单元。

13、采用上述实施例的技术方案,通过引入gpu性能监测单元,实现了对gpu节点性能参数的实时监控。这一单元能够动态收集和更新gpu的负载性能参数,为gpu调度单元提供准确的数据支持。这种实时性能监测机制使得调度决策更加精确,有助于系统及时响应性能变化,优化资源分配,提高处理效率,同时也为系统的故障诊断和性能优化提供了重要依据。

14、结合第一方面的一些实施例,在一些实施例中,该gpu服务器集群系统还包括fpga单元,该fpga单元用于从该数据传输单元接收该视频图像数据集,当该视频图像数据集包含加密视频流时,对该加密视频流进行解码处理,并将解码后的视频图像数据集发送给该任务分割单元。

15、采用上述实施例的技术方案,采用上述实施例的技术方案,通过集成fpga单元,增强了系统对加密视频流的处理能力。fpga单元的引入使得系统能够在数据传输单元接收到加密视频流后,迅速进行解密和解码处理,然后将解码后的数据集发送给任务分割单元。这种硬件级别的处理能力大幅提升了系统处理加密视频流的效率,降低了延迟,同时减轻了gpu节点的负担,提高了整个系统的处理能力和响应速度。

16、结合第一方面的一些实施例,在一些实施例中,该gpu服务器集群系统还包括边缘服务节点,该gpu调度单元用于根据该多个gpu节点的负载性能参数,将部分该子任务卸载到该边缘服务节点。

17、采用上述实施例的技术方案,通过引入边缘服务节点,扩展了gpu服务器集群系统处理能力,允许系统将部分子任务卸载到边缘服务节点。这种分布式处理机制不仅减轻了中心数据中心的负载,还提供了更快的数据处理速度,尤其是在处理地理分布广泛或需要低延迟响应的应用场景中。边缘服务节点的引入提高了系统的灵活性和可扩展性,使得系统能够更有效地处理大规模的分布式数据。

18、结合第一方面的一些实施例,在一些实施例中,该gpu服务器集群系统还包括云服务器,该gpu调度单元用于根据该多个gpu节点的负载性能参数,调用该云服务器的gpu资源。

19、采用上述实施例的技术方案,通过集成云服务器,提供了一种灵活的资源扩展机制。当gpu服务器集群系统面临高负载或特定计算需求时,系统可以动态调用云服务器上的gpu资源,以应对临时的计算需求高峰。这种按需资源扩展策略使得系统能够灵活应对不同的工作负载,提高资源利用率,同时降低了运营成本,增强了系统的可扩展性和适应性。

20、第二方面,本发明还提供一种gpu调度方法,应用第一方面提供的gpu服务器集群系统,该方法包括:根据gpu服务节点的负载性能参数,确定该gpu服务节点的负载性能评分,该负载性能参数包括浮点运算能力值、显存带宽利用率和核心时钟频率;基于该负载性能评分由高到低对该gpu服务节点进行排序;将排序位于前n位的该gpu服务节点确定为目标gpu节点;在任务分割单元根据待处理的视频图像数据集生成视频图像处理任务,并将该视频图像处理任务分割成多个子任务的情况下,将该子任务分配给该目标gpu节点;接收视频图像处理任务已完成信息,其中,该视频图像处理任务已完成信息,由数据处理单元将多个已处理部分视频图像数据合并成完整的已处理视频图像数据集后生成的。

21、结合第二方面的一些实施例,在一些实施例中,根据gpu服务节点的负载性能参数,确定该gpu服务节点的负载性能评分的步骤,包括:

22、根据负载性能评分公式计算得到该负载性能评分,该负载性能评分公式包括:

23、;

24、其中,s代表负载性能评分,f代表浮点运算能力值,m代表显存带宽利用率,c代表核心时钟频率,α、β、γ均为实验参数,可以通过在先实验获得。

25、本发明第二方面提供的方法,其技术效果参考第一方面提供的系统,此处不再赘述。

26、本发明提供的一个或多个技术方案,至少具有如下技术效果或优点:

27、1. 通过精确评估gpu服务节点的负载性能参数,并基于这些参数进行智能调度,显著优化了资源分配。系统能够识别出性能最高且负载最低的gpu节点,将视频图像处理任务分配给这些节点,从而减少了任务完成时间,提高了处理效率。这种方法确保了gpu资源的充分利用,同时避免了过载情况,提升了整个gpu服务器集群系统的性能。

28、 2. 通过引入任务队列单元、gpu性能监测单元、fpga单元、边缘服务节点以及云服务器,极大地增强了系统的灵活性和可扩展性。这些组件使得系统能够根据任务的优先级和依赖关系智能排序任务,实时监控gpu性能,处理加密视频流,以及在需要时利用边缘计算和云资源来扩展处理能力。这种多层次、分布式的处理架构使得系统能够适应不断变化的工作负载,满足大规模并行处理的需求。

29、 3. 通过边缘服务节点和云服务器的集成,实现了数据处理的地理分布和计算资源的动态扩展,这对于需要快速响应的应用场景至关重要。边缘服务节点可以减少数据传输到中心数据中心的需求,降低延迟,提高响应速度。同时,云服务器提供了额外的计算资源,以应对临时的计算需求高峰,确保了关键任务即使在资源紧张时也能顺利完成,从而提升了数据处理的实时性和系统的总体可靠性。

本文地址:https://www.jishuxx.com/zhuanli/20250110/355158.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。