Frontier 是美国第一个性能超过 1 Exaflop/s的系统,位于美国田纳西州橡树岭国家实验室(ORNL),它使用了 8,699,904 个核心,目前实现了 1.194 Exaflop/s的性能。它基于 HPE Cray EX 架构,结合了第三代 AMD EPYC CPU(针对 HPC 和 AI 优化)、AMD Instinct 250X 加速器以及 Slingshot-11 互连。
超级计算机Frontier 图片来源:维基百科
发展历程
2019年:美国橡树岭国家实验室(Oak Ridge National Laboratory, ORNL)启动了开发Frontier超级计算机的计划,旨在打造全球首台达到百亿亿次(E级)浮点运算性能的超级计算机。[1]
2022年5月30日,Frontier击败日本基于Arm的富岳超级计算机,登顶最新的超级计算机Top500榜单,正式成为全球最快超级计算机。
2022年6月初,Frontier通过Linpack基准测试,证实其达到1.1 exaflops(百亿亿次)的峰值性能,成为首台进入E级的超级计算机。
2022年10月,有报道称Frontier在启动时遇到了问题,实际性能未能达到设计目标(1.685 FP64 ExaFLOPS),仅能产生约1个FP64 ExaFLOPS。关于具体问题的详细信息并未公开。
技术架构
Frontier的设计目标计算性能是大于1.5 百京每秒浮点运算次数(PFlop/s)。预计成本6亿美元。
硬件层面
处理器
Frontier采用了AMD第三代EPYC(霄龙)处理器。作为Frontier的核心计算引擎,AMD EPYC处理器提供强大的多核计算能力,支持高并发任务处理和高效能效比。其64核架构、大容量缓存和先进的制程工艺确保了在科学计算、数据分析等高性能应用场景中的优异表现。
计算节点
Frontier由大量独立的计算节点构成,每个节点内包含EPYC处理器、MI250X加速卡以及高速内存。节点之间通过高效的内部互连机制紧密协作,形成一个高度并行的计算资源池。HPE Slingshot网络
作为系统的关键互连组件,HPE Slingshot提供极高的带宽、低延迟和高可扩展性,确保各计算节点间数据传输的高效性和可靠性。这种专用高性能网络技术能够适应大规模并行任务的执行需求,如大规模科学模拟、大数据分析和深度学习训练。内存与存储系统
高速内存:每个计算节点配备大量的DDR4或更高版本的DRAM内存,以提供充足的高速缓存空间,确保大规模数据集的快速访问和处理,减少I/O瓶颈。并行文件系统与存储阵列:Frontier采用先进的并行文件系统(如Lustre或GPFS),配合大规模存储阵列(如全闪存或混合存储),提供PB级甚至EB级的海量存储容量。这种设计确保了科研数据的高效存储、检索和共享,支持大规模并行读写操作,满足高吞吐量、低延迟的I/O需求。
能源管理与冷却技术
能效优化:Frontier在硬件设计和系统层级均考虑能效因素,如采用低功耗部件、动态电源管理策略等,以实现高性能与低能耗之间的平衡。
软件层面
集群管理
Frontier部署了专门的集群管理软件(如Slurm、PBS Pro或LSF),用于作业调度、资源分配、监控和故障恢复,确保超级计算机高效、有序地执行大规模并行任务。
并行计算与编译器
并行计算任务:Frontier计算系统安装在74个独立的机柜中,包括9400个CPU(标准计算机处理器)和37000个GPU,这些GPU可用于呈现3D图形,也可用于其他一系列任务。该机器共有8730112个内核,能够执行并行计算任务。[2]
高性能编译器:Frontier提供针对AMD架构优化的编译器工具链(如GCC、Clang或AMD ROCm Compiler),确保源代码能够生成高效、针对性强的目标代码,最大限度发挥硬件潜力。[2]
AI框架
Frontier支持的AI框架与库包括Megatron-DeepSpeed分布式训练框架。研究人员将这个框架移植到Frontier上,以支持在AMD硬件和ROCM软件平台上进行高效的分布式训。所获奖项
2022年6月,Frontier超级计算机在TOP500全球超级计算机排行榜上获得第一。
2023年5月,Frontier在TOP500全球超级计算机排行榜蝉联了榜首。
2023年11月,Frontier 仍然保持着第一名的位置,并且仍然是目前已公开型号中唯一的一台百亿亿级超级计算机。
2023年,荣获《时代周刊》年度最佳发明奖。[4]
应用案例
星系演化模拟
美国匹兹堡大学的埃文·施耐德使用Frontier模拟银河系随时间的演变,重点关注气体流入、恒星形成(“呼吸”)及流出(“呼气”)过程。她构建了一个高分辨率模型,能细致刻画单个超新星爆炸,同时兼顾银河系大尺度特征(10万光年)与局部细节(直径约10光年)。此模型首次实现如此精细的尺度跨越,类似精确到单个酵母细胞的啤酒罐模型。[5]下一代飞机设计
通用电气的高级工程师司提反·普雷厄比借助Frontier模拟开放式风扇架构发动机的空气动力学,旨在提高燃油效率。模拟帮助工程师优化风扇叶片设计、降低噪音,并深入研究风扇周围的湍流现象。Frontier在多尺度模拟上的优势使普雷厄比能够探索湍流这一复杂物理现象,它涉及宏观(如压力、温度变化)与微观(单个分子间摩擦)因素的交互。
气候预测模型
桑迪亚国家实验室的马克·泰勒(Mark Taylor)是世界上第一个使用升级计算进行长期气候预测的研究人员之一,他曾表示:“Frontier 超级计算机独特的计算架构实现了我们以前无法做到的事情。”也就是说,这台机器的计算能力将过去需要几年的计算减少到几天。同时,它使研究人员能够获得气候变化和极端天气条件长期影响的详细估计。 “这是气候建模的新黄金标准,”泰勒补充道。[6]合金计算模拟
一个利用 Frontier 超级计算机的百亿亿次潜力的有趣项目是材料技术领域的工作。这是有史以来最大的合金计算模拟之一,由于其计算效率,使得达到接近量子级的精度成为可能。这项研究由密歇根大学的 Vikram Gavini 进行,其创新之处在于它使用薛定谔方程来模拟不同材料的行为。 Frontier 强大的计算能力使其能够模拟由 75 个原子组成的镁合金系统。关于ORNL
美国橡树岭国家实验室(Oak Ridge National Laboratory, ORNL)是美国能源部(Department of Energy, DOE)下属的一所重要科学研究机构。[7]
实验室概况
成立背景与历史沿革:橡树岭国家实验室创建于1943年,作为曼哈顿计划的一部分,最初专注于生产和分离铀与钚,为原子弹的研发提供关键材料。二战后,实验室转向和平利用核能、基础科学研究以及解决国家面临的重大科学与技术挑战。[8]地理位置与规模:位于田纳西州橡树岭市,占地面积庞大,拥有先进的实验设施、研究中心和计算资源,是美国能源部最大的科学与能源研究实验室。
基础设施:配备先进的实验室设施、大规模计算资源、专用实验装置(如核反应堆、中子源),以及安全、高效的科研环境,为高质量研究提供强有力支撑。
研究领域
中子科学:实验室拥有著名的高通量同位素反应堆(High Flux Isotope Reactor, HFIR)和散裂中子源(Spallation Neutron Source, SNS),为全球科学家提供世界领先的中子散射研究平台,用于材料科学、生物学、能源系统等领域的重要发现。
超级计算:ORNL是高性能计算领域的领军者,拥有前沿超级计算机如“Frontier”,曾多次夺得全球最快超级计算机的桂冠,为复杂科学问题提供前所未有的计算能力,如气候模拟、核物理、生物医学研究等。
能源研究:在清洁能源技术、核能、能源存储、能源效率提升等方面开展前沿研究,包括开发新型电池技术、先进核反应堆设计、碳捕获与封存技术等。
商业模式
管理与合作机制:由田纳西大学和Battelle纪念研究所共同管理,采用开放、协作的研究模式,促进内外部知识交流与资源共享,提升创新能力。
政府资助:作为联邦政府实验室,ORNL主要资金来源于美国能源部以及其他政府部门的科研项目拨款。
技术许可与知识产权管理:实验室鼓励创新成果的市场化,通过专利授权、技术许可协议等方式与企业合作,促进科研成果转化为实际产品和服务。
团队构成及优势
汇集了数千名科学家、工程师、技术人员和管理人员,形成了跨学科、多领域的专业团队,具备深厚的科研实力和丰富的项目经验。发表论文
- Quantum Annealing for Real-World Machine Learning Applications
- Multifidelity methods for uncertainty quantification of a nonlocal model for phase changes in materials
- Spatiotemporal features of traffic help reduce automatic accident detection time
- Structural biology in the age of X-ray free-electron lasers and exascale computing
- Modeling hydrodynamic and biomass pyrolysis effects of recycled product gases in a bubbling fluidized bed reactor
- AI for Materials Design and Discovery Using Atomistic Scale Information [Industrial and Governmental Activities]
- Considering interplay between multiple physical phenomena to elucidate single crystal-like texture, phase transformations, and mechanical behavior of directed energy deposited SS316L
- PeleMP: The Multiphysics Solver for the Combustion Pele Adaptive Mesh Refinement Code Suite
- Winter Storm Elliott: Energy Emergency Alert Lessons Learned
- Experiences with implementing Kokkos’ SYCL backend
推荐阅读
- Frontier超算使用其37000个MI250X GPU中的3000个成功运行1万亿参数的LLM
- 【市场动态】“4”机而动,Frontier超级计算机正在改变世界
- AMD 驱动的 Frontier 仍然是世界上最快的超级计算机
- 目前世界上最强大的7台超级计算机
- 最新排名!美国Frontier超算计算机,夺得了第一名快算王称号
- 超级计算机性能知多少
- 拆掉英伟达护城河,细节曝光!世界最快超算用3072块AMD GPU训完超万亿参数LLM
- “Frontier”超级计算机的存储基础架构
- 全球超算TOP500:美国Frontier保持第一,中国超算跌出前十!
- 全球超级计算机 TOP500:Frontier连续第四年夺冠,Aurora第二
参考资料
【1】US Dept. of Energy Announces Frontier Supercomputer: Cray and AMD to Build 1.5 Exaflop Machine
【2】世界首台百亿亿次超级计算机刷新速度纪录
【3】2023戈登贝尔奖揭晓:Frontier超算“量子级精度”材料模拟获奖【4】Frontier 荣获《时代周刊》2023 年度最佳发明奖
【5】揭秘全球唯一百亿亿次级超算,每人每秒做一次计算,连续四年才能赶上它在一秒内的计算能力
【6】Frontier 超级计算机的所有秘密
【8】橡树岭国家实验室:从原子弹“摇篮”到军民两用研究基地