新兴超级计算机用可解释DeePMD套件性能系统
- 国知局
- 2025-01-17 13:06:08
本发明涉及deepmd性能模型,尤其涉及新兴超级计算机用可解释deepmd套件性能系统。
背景技术:
1、近年来,从头计算分子动力学(aimd)为许多不同学科(包括但不限于化学、生物学和材料科学)中的各种现象提供了微观理解的工具。然而,由于aimd的复杂性,空间和时间尺度是有限的(只能用皮秒处理数百个原子)方法。尽管一些线性方法已经在顶级超级计算器上实现了数百万个原子,每天不到数百飞秒,但它们仅限于具有大带隙的绝缘系统。
2、同时,经验力场(eff)方法使许多实际兴趣成为可能,包括多相催化、电化学电池和需要万亿个原子甚至更大模拟的生物医学反应。然而,eff无法准确描述量子力学现象,如键断裂、复杂的化学过程、量子点等。
3、神经网络分子动力学(nnmd)因其能够平衡从头计算精度和计算效率而受到了极大的研究兴趣。通过利用神经网络和广泛的训练数据,可以精确拟合高维非线性势能表面(pes)。它由behler-parrinello方案于2007年开发,为各种nnmd包(例如nequip、painn和深度电位(dp)方案的开发奠定了基础。
4、deepmd-kit是dp方案的典范实施,在顶级超级计算机上以纳秒级/天的性能实现了高达100亿个原子的前所未有的模拟,这使其成为nnmd领域最流行的大规模分子动力学模拟软件包。
5、deepmd-kit是一个基于dp方案的ab initio分子动力学框架。图1说明了计算过程的概述,其中包括两个组成部分:描述符d和拟合网n。d用于从输入环境矩阵计算对称保持特征。n学习从d获得的局部环境特征与原子能ei之间的关系。因此,整个系统的pes表示为原子能贡献的总和。
6、图2显示了d的计算,表示为:
7、,
8、其中,是嵌入矩阵,是构建的子矩阵取的前列,环境矩阵表示为:
9、,
10、其中,是是每个相邻原子的相对位置,是一个门控函数,在矩阵由输入为的嵌入网络推导。嵌入网络是一个多层残差全连接模型。在每个层中,输出大小加倍,模型的输出大小为m。
11、如图3所示,拟合网络n是一个预测ei的全连接网络。每一层都是具有tanh激活的全连接层。结合d和n,deepmd-kit可以实现从环境矩阵到系统pes的表征学习。原子i的力由dp模型的反向传播梯度计算,表示为,其中由反向传播计算。系统的维里系数表示为,这是通过prodvirial运算符计算的。
12、描述符中嵌入网络的计算占用了总计算时间的90%以上。为了减少计算负担,提出了制表方法来近似嵌入网络,正如图4所示,其表示为,其中,,它由tabulate和tabulategrad运算符构建,以通过weierstrass近似使用五阶多项式进行训练后拟合嵌入网络的权重。
13、当前超级计算机(即tianhe-3f、new sunway、fugaku和summit)是通常搭载众核芯片,采用创新计算元素设计,提升计算潜力。这些设计为增强deepmd套件的时间和空间尺度提供了新的机会。
14、然而,deepmd-kit与新兴超级计算机之间的性能差距仍然存在。deepmd套件的性能模型来准确识别性能模型并指导研究人员进行更好的软硬件协同设计。
15、目前,已经设计并使用了许多性能模型来分析各种应用程序或算法的性能。典型的工作包括指导自动参数调整的性能模型、用于分析计算时间和机器计算能力的应用程序级性能模型,以及用于分析超级计算机的通信带宽和网络延迟的通信级性能模型。
16、然而,deepmd-kit是一个复杂的应用程序,包含许多不规则的定制运算符和复杂的mpi通信。目前的性能模型无法准确描述deepmd套件中这些特殊运算符和通信模式的性能利用率。此外,访问整个超级计算机的机会非常有限,而且如果不在整机上执行真实的md模拟,就没有有效的方法来准确估计deepmd-kit的模拟延迟和实现的峰值性能。此外,目前的性能模型传递性差,忽略了仿真物理系统和计算平台对deepmd-kit性能的影响。
17、尽管已经在超级计算机上成功地优化了deepmd套件并展示了出色的性能,但峰值性能与deepmd套件实现的性能之间存在显着的性能差距。因此,重要的是要对deepmd套件的性能进行建模和分析,尊重不同的物理系统和目标超级计算机。但是,仍然存在以下几个挑战:
18、1)没有性能模型可以准确分析deepmd套件的资源利用率。deepmd-kit包含许多不规则的定制运算符和复杂的mpi通信模式。其计算图根据模拟的物理系统而变化。现有的性能模型只关注一些应用的特定方面,在分析deepmd-kit方面缺乏通用性。基于车顶线的模型可以在完成仿真后,在单个过程中分析deepmd套件中官方ten-sorflow算子的计算资源利用率,但不能分析mpi通信。基于logp的模型可以表征网络带宽和延迟,但不能表征一般运算符。
19、2)当前的性能模型无法预测deepmd套件在没有实际运行的情况下可实现的性能。我们需要分析deepmd套件在特定平台上的计算限制,包括可实现的性能、求解时间,以及物理系统。大型物理系统的md仿真需要整个机器资源,这使得仿真既昂贵又耗时。提供准确的预测可以使此过程受益。模拟大型物理系统的长时间步长会消耗大量的计算资源。因此,在启动这些仿真之前,分析成本并确定硬件/软件配置至关重要。
技术实现思路
1、为了解决相关技术中的问题,本技术提供了新兴超级计算机用可解释deepmd套件性能系统,解决了没有性能模型可以准确分析deepmd套件的资源利用率和现有性能模型无法预测deepmd套件在没有实际运行的情况下可实现的性能的问题。
2、技术方案如下:
3、新兴超级计算机用可解释deepmd套件性能系统,其特点是,包括:
4、节点上的共享dp-perf模型:用于分析每个deepmd-kit操作员的执行时间,并根据获得的执行时间计算每个deepmd-kit操作员的峰值性能;
5、跨节点的分布式dp-perf模型:用于分析跨mpi流程的通信时间,并根据获得的通信时间用于实现大规模仿真;
6、定制的deepmd套件操作器:用于获得deepmd套件性能模型模拟的总时间,并根据模拟的总时间预测deepmd套件在没有实际运行的情况下可实现的性能,模拟的总时间为多个运算符计算时间的总和。
7、通过上述技术方案,通过dp-perf的可解释性能模型的设置,该模型根据机器配置和物理md系统,在操作员级别对deepmd套件的计算和通信模式进行了表征,dp-perf可以获得准确的拟合和预测,以分析每个deepmd-kit操作员的性能利用率和通信;同时,dp-perf可以准确预测md仿真时间和可实现的峰值性能,dp-perf可以为新型e级超级计算机的设计和应用创新提供有价值的见解,并弥合多核超级计算机与从头分子动力学之间的性能差距,从而有助于分析仿真效率和仿真成本。
8、优选的,共享dp-perf模型分析deepmd套件执行时间的方法为:
9、当选用deepmd-kit中定制算子时,定制算子的执行时间表示为:,其中,表示从相应算子的物理特性和算法得出的算子的总算术工作量;表示内存(de-)分配和内核启动导致的延迟;是可实现的峰值性能;,p表示cpu的计算节点的理论峰值性能;
10、定制算子的执行时间更新为:,其中,通过线性回归得到;
11、当选用deepmd-kit中涉及内存中的数据格式转换、不包括任何计算的官方算子时,通过带宽方程表示官方算子,官方算子的执行时间表示为:,其中,表示算子的总内存访问量,通过相应算子的物理特性和算法中得出;表示内存(de-)分配和内核启动导致的延迟;是单个节点上可实现的内存带宽;,表示计算节点的峰值内存带宽;
12、官方算子的执行时间更新为:,其中,通过线性回归得到。
13、优选的,deepmd-kit中的每个mpi进程均包括局部区域和幽灵区域;分布式dp-perf模型分析deepmd套件执行时间的方法为:
14、当每个过程中的幽灵原子数量保持不变,且与幽灵区域呈正相关时,根据模型通信时间表示为:,其中,l表示每个进程的延迟和重叠之和,表示理论网络带宽,表示与网络带宽利用率相关的参数,表示每个方向上幽灵原子总数,表示每个mpi进程中的幽灵原子总数。
15、优选的,定制的deepmd套件操作器通过获得超级计算机的输出日志获得计算时间和mpi通信时间,并根据超级计算机上的训练日志拟合参数;
16、所述的输出日志为lammps格式,每个运算符的计算时间均通过mpi wtime ()代码计算获得。
17、优选的,所述共享dp-perf模型包括和;
18、在定制的deepmd套件操作器中,用于体现峰值性能利用率,的值越低,峰值性能越高;
19、在官方算子中,用于体现内存带宽利用率,的值越低,带宽利用率越高;
20、用于体现内存操作和内存启动的延迟,延迟包括内存复制、数据加载和启动内核的延迟。
21、优选的,所述分布式dp-perf模型包括和l;用于体现网络带宽利用率,l用于体现网络延迟。
22、优选的,定制的deepmd套件操作器基于共享dp-perf模型和分布式dp-perf模型为每个deepmd套件操作员和通信磨损创建;定制的deepmd套件操作器模拟的总时间表示为:
23、,
24、其中,;
25、;
26、;
27、;
28、;
29、;
30、;
31、;
32、;
33、;
34、n表示物理系统中的原子数量,表示每个原子的邻原子数量,t表示物理系统中的原子类型数量。
35、综上所述,本发明的有益效果为通过dp-perf的可解释性能模型的设置,该模型根据机器配置和物理md系统,在操作员级别对deepmd套件的计算和通信模式进行了表征,dp-perf可以获得准确的拟合和预测,以分析每个deepmd-kit操作员的性能利用率和通信;同时,dp-perf可以准确预测md仿真时间和可实现的峰值性能,dp-perf可以为新型e级超级计算机的设计和应用创新提供有价值的见解,并弥合多核超级计算机与从头分子动力学之间的性能差距,从而有助于分析仿真效率和仿真成本。
36、应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本发明。
本文地址:https://www.jishuxx.com/zhuanli/20250117/356161.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表