技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种用于超算平台硬件与软件资源控制与管理的智能计算云操作系统及方法与流程  >  正文

一种用于超算平台硬件与软件资源控制与管理的智能计算云操作系统及方法与流程

  • 国知局
  • 2024-07-31 22:48:13

本发明涉及软硬件资源控制与管理,具体涉及一种用于超算平台硬件与软件资源控制与管理的智能计算云操作系统及方法。

背景技术:

1、超算平台是基于超性能计算(hpc)集群所提出的,其功能包括计算机集群管理、集群监控、作业调度管理、集群用户管理、账户管理、文件系统管理等。通过超算平台可以实现对超算(super computing)集群资源的统一调度,同时支持hpc作业和ai作业。随着人工智能、高性能计算和大数据的广泛应用,超算平台已被越来越多的政府机关、高等院校、气象环保、石油石化、机械制造和生命科学研究等单位使用。

2、高性能计算(highperformance computing,简称hpc)由多台服务器组在一起搭建成大型集群,从事大规模并行计算的工作。常规的高性能集群通过多台服务器的多颗cpu的多核处理,并行计算,大规模处理计算问题,高效,高精度,低时间。目前,除了cpu参与并行计算,也有了异构并行计算加速器。一个完整的hpc集群由四种功能节点组成,包括:

3、(1)管理节点:作为hpc集群的核心,肩负着集群管理、监控管理、调度管理、策略管理、用户和账户管理等主要功能;

4、(2)登录节点:是hpc集群练习外部网络或集群之间的纽带。用户需要通过它来完成用户的登录并用它来上传应用数据,开发编译程序,提交调度任务等。

5、(3)计算节点:完成高性能计算任务。

6、(4)存储节点(i/o节点):为整个hpc集群提供了分布式文件系统服务。用户通常会在存储节点上连接一个或多个外置存储设备,以保证hpc的数据安全和容量。

7、虽然超算平台已经被越来越多的领域所采用,但是现有的操作系统针对超算平台目前难以实现有效的硬件与软件资源的控制与管理,导致超算平台无法支持丰富的系统软件,存在运行应用类型单一、资源利用率低的问题。

技术实现思路

1、为了克服现有技术的不足,本发明提供一种用于超算平台硬件与软件资源控制与管理的智能计算云操作系统及方法,用于解决现有的操作系统无法对超算平台进行有效的硬件与软件资源的控制与管理的技术问题,从而达到扩大超算平台运行应用类型,以及提高资源利用率的目的。

2、为解决上述问题,本发明所采用的技术方案如下:

3、一种用于超算平台硬件与软件资源控制与管理的智能计算云操作系统,所述智能计算云操作系统采用分布式的超融合业务架构,并使用高效统一资源管理分配和调度技术、节点轻核心适配技术,实现大规模集群操作系统的可扩展性、容错性以及高可用性;

4、其中,在采用分布式的超融合业务架构时,包括:

5、通过弹性部署和管理满足智能计算、大数据处理、云计算以及深度学习计算的应用需求,同时不同类型应用作业支持相同节点融合运行;

6、在使用高效统一资源管理分配和调度技术时,包括:

7、将整个集群中计算资源全部池化后,进行资源管理;

8、在实现大规模集群操作系统的可扩展性时,包括:

9、实现资源扩展性、应用扩展性以及技术可扩展性;

10、在使用节点轻核心适配技术时,包括:

11、通过功能分解和功能简化提高操作系统效率,构建节点间通信机制,以及弹性应用管理和部署;

12、其中,所述不同类型应用作业包括:融合大数据计算作业、智能计算作业以及深度计算作业。

13、作为本发明优选的实施方式,在通过弹性部署和管理满足智能计算、大数据处理、云计算以及深度学习计算的应用需求时,包括:

14、采用容器技术实现分布式应用的弹性部署和管理,通过容器封装应用资源实现资源隔离和环境隔离,支持应用跨节点迁移和高性能计算,并提供容器镜像仓库和资源调度系统,实现快速部署和弹性扩展;

15、其中,在提供容器镜像仓库时,包括:

16、所述智能计算云操作系统内置容器镜像仓库服务,用于托管主流应用软件的容器镜像;

17、在提供资源调度系统时,包括:

18、借助于所述资源调度系统进行资源的分配,通过容器技术完成应用软件运行环境的快速部署和资源隔离,实现应用软件灵活、弹性部署;

19、所述主流应用软件包括:tensorflow、caffe、hadoop、fluent、ansys。

20、作为本发明优选的实施方式,在通过弹性部署和管理满足智能计算、大数据处理、云计算以及深度学习计算的应用需求时,包括:

21、通过建立资源分配和调度分离的二级调度机制来实现异构应用作业弹性动态可扩展性分配;

22、通过资源管理和调度平台对所有软件、硬件、虚拟化资源进行统一的管理、监控和调度;

23、其中,资源分配统一由全局资源管理器实现,调度由各业务框架自行负责,不同任务的调度框架根据业务不同有多种与业务特征匹配的调度策略,来灵活配置;

24、在进行统一的管理、监控和调度时,包括:

25、采用apache mesos作为通用的资源管理器,构建物理和虚拟资源池;整合海量的资源为计算资源池,整合多级多类型网络设备为统一的网络资源池,借助mesos统一资源管理、slurm、spark、hadoop、swarm调度系统和容器化技术,实现对计算资源池、存储资源池和网络资源池的统一调度管理;

26、其中,所述海量的资源包括:cpu资源、内存资源、gpu资源、网络资源以及存储资源;

27、所述资源管理和调度平台支持跨cpu+gpu混合深度学习集群和高密度cpu计算集群之间的融合异构计算;

28、将slurm调度系统、hadoop以及marathon作为不同的计算框架,向所述mesos注册,深度学习融合所述slurm调度系统和docker容器技术,使用所述slurm调度系统的调度框架,借助docker容器将深度学习云端化,实现快速部署、快速启动、任务隔离、资源共享、自动调度以及故障恢复。

29、作为本发明优选的实施方式,在进行资源管理时,包括:计算资源管理和应用资源管理;

30、所述计算资源管理为对计算节点的池化管理,将所有工作节点根据不同的配置进行分类管理,统一分配;

31、所述应用资源管理为将应用与运行的系统环境进行模板化处理,制作成一个应用的镜像资源池,结合计算资源的分配,使用容器技术对应用进行实例化,从而满足不同类型的应用场景。

32、作为本发明优选的实施方式,在将整个集群中计算资源全部池化时,包括:

33、通过使用mesos作为所述智能计算云操作系统的内核,像单机一样调度多机集群资源,自动化管理集群的资源,统一调度应用进程,并简化应用间通信;

34、将marathon作为所述mesos的一个framework,为所述mesos提供的资源,分配给其管理的多种应用,以对任何应用都能很容易的进行运行实例的数量伸缩、启动停止运行实例、修改配置、查看运行状态和日志;

35、其中,所述marathon支持使用docker容器运行应用,并依赖所述docker容器进行资源隔离。

36、作为本发明优选的实施方式,在使用容器技术对应用进行实例化时,包括:

37、以mesos、slurm调度系统和容器为核心技术;

38、其中,所述mesos作为所述智能计算云操作系统的内核对多级资源进行池化管理,为分布式应用提供运行资源和任务管理,可以同时运行多个分布式应用,并进行统一管理;

39、基于docker容器技术的封装应用,使用docker image启动应用,并可以通过docker容器限定服务运行的资源、隔离运行环境;

40、基于所述slurm调度系统完成容器的调度,以及容器的生命周期管理;

41、通过框架注册,以及所述slurm调度系统与所述mesos资源状态双向获取,将所述slurm调度系统、hadoop、marathon计算框架以及所述mesos进行结合,实现资源的统一分配管理;同时深度学习借助所述slurm调度系统的计算框架启动,实现集群对智能计算和深度学习资源的统一管理和调度。

42、作为本发明优选的实施方式,在实现资源扩展性时,通过增加系统规模、投入更多存储部件以及增加软件实现资源扩展性;

43、在实现应用扩展性时,基于容器技术大幅简化整个应用管理部署;

44、在实现技术可扩展性时,基于独立原理、平衡设计原理、可扩展性设计原理以及时延隐藏原理;

45、在实现大规模集群操作系统的容错性时,同时采用分布式故障恢复技术、检查点技术、向前故障恢复以及向后故障恢复;

46、在实现大规模集群操作系统的高可用性时,若某个节点失效,则失效节点的备援节点将在几秒钟的时间内接管所述失效节点的职责。

47、作为本发明优选的实施方式,在实现大规模集群操作系统的高可用性时,还包括:

48、对调度节点、数据库节点以及web节点做高可用;

49、其中,所述调度节点和所述web节点采用corosync、pacemaker集成来确保所述智能计算云操作系统的高可用性;

50、所述corosync为集群管理引擎,是高可用集群中的clustermessaging layer,用于传递发送集群信息与心跳信息;

51、所述pacemaker是高可用集群中的资源管理器,用于负责资源管理;

52、其中,所述数据库节点采用mha技术来确保所述智能计算云操作系统的高可用性;

53、所述mha技术包括:mha manager和mhanode;

54、通过将所述mha manager单独部署在一台独立的机器上管理多个master-slave集群;

55、通过将所述mhanode运行在每台mysql服务器上,用于切换时处理二进制日志,以确保切换尽量少丢数据。

56、作为本发明优选的实施方式,所述功能分解,包括:

57、把所述智能计算云操作系统不经常使用的功能都从计算节点操作系统中剪裁掉,放在i/o节点和服务节点操作系统上;

58、在构建节点间通信机制时,包括:

59、在用户空间实现通信协议、精简通信协议、采用rdma通信机制;

60、在弹性应用管理和部署时,包括:

61、基于容器技术的封装应用,将所需的应用资源封装成容器,实现资源隔离使用,使用容器镜像启动应用,并可以通过容器限定服务运行的资源、隔离运行环境;

62、其中,以容器为核心技术,承载任务运行,实现应用跨节点迁移,一次构建到处运行;

63、容器基于操作系统内核,无需完整的操作系统,以节点轻核心为依托,单机可以支持上千个容器,满足智能机按核分配使用资源的要求,以接近宿主机原生性能;

64、集中管理深度学习、大数据、智能计算,并为所述智能计算云操作系统内置容器镜。

65、一种用于超算平台硬件与软件资源控制与管理的智能计算云操作方法,包括以下步骤:

66、采用分布式的超融合业务架构,使用高效统一资源管理分配和调度技术、节点轻核心适配技术,并基于大规模集群操作系统的可扩展性、容错性以及高可用性,对所述超算平台的硬件与软件资源进行控制与管理;

67、其中,在采用分布式的超融合业务架构时,包括:

68、通过弹性部署和管理满足智能计算、大数据处理、云计算以及深度学习计算的应用需求,同时不同类型应用作业支持相同节点融合运行;

69、在使用高效统一资源管理分配和调度技术时,包括:

70、将整个集群中计算资源全部池化后,进行资源管理;

71、在基于大规模集群操作系统的可扩展性时,包括:

72、基于资源扩展性、应用扩展性以及技术可扩展性;

73、在使用节点轻核心适配技术时,包括:

74、通过功能分解和功能简化提高操作系统效率,构建节点间通信机制,以及弹性应用管理和部署;

75、其中,所述不同类型应用作业包括:融合大数据计算作业、智能计算作业以及深度计算作业。

76、相比现有技术,本发明的有益效果在于:

77、(1)本发明所提供的智能计算云操作系统实现对超算平台硬件与软件资源的有效控制与管理,支持丰富的系统软件,以解决运行应用类型单一、资源利用率低的问题。

78、(2)本发明采用容器化部署能够自适应应用需求,实现秒级部署和启动,节省时间和人力成本。此外,容器技术还支持弹性伸缩架构,根据业务流量自动扩容/缩容,提高响应速度和资源利用率。此外,容器技术有助于集中管理深度学习、大数据、智能计算等应用,系统内置容器镜像仓库服务,托管主流tensorflow、caffe、hadoop、fluent、ansys等应用软件的容器镜像;借助于资源调度系统进行资源的分配,容器技术完成应用软件运行环境的快速部署和资源隔离,实现应用软件灵活、弹性部署。

79、(3)本发明通过建立资源分配和调度分离的二级调度机制来实现异构应用作业弹性动态可扩展性分配,相比应用框架隔离进行作业管理技术路线所造成资源抢占以及浪费,本发明明显提升了资源利用率,极大方便了集群动态、弹性扩展;系统采用资源分配管理和调度任务分离的机制,资源分配统一由全局的资源管理器实现;调度由各业务框架自行负责,不同任务的调度框架根据业务不同有多种与业务特征匹配的调度策略,来灵活配置;全局资源管理器协调全局资源统一有效利用,避免发生任务不断抢占,造成资源浪费等情况。

80、(4)本发明的资源池化使用mesos作为操作系统的内核,可以像单机一样调度多机集群资源,自动化管理集群的资源,统一调度应用进程,并简化应用间通信;mesos同时兼顾资源管理,被视为集群内核,集中管理集群所有的内存、cpu、端口等资源,使得如同单台机器一样操作分布式集群;marathon作为mesos的一个framework,被用来给mesos提供的资源,分配给其管理的多种应用,对任何应用都能很容易的进行运行实例的数量伸缩、启动停止运行实例、修改配置、查看运行状态和日志等操作。

81、下面结合附图和具体实施方式对本发明作进一步详细说明。

本文地址:https://www.jishuxx.com/zhuanli/20240730/194691.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。