据悉,Intel与HPE-Cray联合打造的超级计算机Aurora的运算速度日前得到了Top500组织的正式认可,已经超越了百亿亿次(EFlop/s)的里程碑。
根据日前在汉堡举行的ISC 2024年会上发布的最新Top500榜单,Aurora的高性能LINPACK(HPL)基准运算速度为每秒1.012 exaFLOPS。
这使得Aurora排在全球超级计算机的第二位,落后于目前位居榜首的Frontier。Frontier是美国橡树岭国家实验室运营的一款AMD和HPE-Cray构建的超级计算机。自从2022年5月以来,Frontier一直以其1.26 exaFLOPS的LINPACK得分领先。Aurora现在已成为全球第二个正式突破百亿亿级计算能力的超算系统。
尽管Aurora已经成功加入百亿亿次超级计算机俱乐部,但其性能似乎一直备受争议。Aurora原本可能成为全球首个达到百亿亿级计算能力的超级计算机,然而由于英特尔“Ponte Vecchio”GPU的交付延迟,Aurora的上线日期被多次推迟。此外,人们曾预计,在Aurora安装和调试完成之后,Aurora的性能将达到2 exaFLOPS,但这一工作目前仍在进行。
然而,据阿贡国家实验室的一名高级经理在汉堡举行的媒体吹风会上透露,这是英特尔一位前高管最初给出的错误预期,他提到的Aurora理论峰值性能并未在现实中实现。
盘一盘 Top500 前十名
在Top500榜单中最受关注的方面,全球排名前10性能最强大的超级计算机基本上与六个月前在SC23会议期间公布的排名保持一致。唯一的新进前10的超级计算机是来自瑞士国家超级计算中心(CSCS)的Alps machine,如今排名第6名位。Alps machine是一款HPE Cray构建的超算系统,采用NVIDIA Grace处理器,其HPL得分达到了270 PFlop/s。
在Top500榜单的前十名中,安装在微软Azure云平台上的Eagle系统成功夺回了其在上一份榜单上首次亮相后获得的第三名位置,并且它依然保持着Top500中最高排名云计算系统的地位。这款微软NDv5系统的HPL分数高达561.2PFlop/s,其强大性能源于英特尔至强白金8480C处理器和英伟达H100GPU加速器的结合。
日本理研计算科学研究中心的Fugaku系统,凭借其442 PFlop/s的HPL得分,在Top500榜单中排名第四,继续保持了美国以外地区排名最高的超级计算机的地位。
芬兰EuroHPC/CSC的AMD/HPE Cray LUMI系统排名第五,HPL得分为380PFlop/s。该机器是欧洲最大的超级计算机。
在Alps machine之后,排名第7的超级计算机是Leonardo,安装在意大利CINECA的EuroHPC现场。Leonardo是一款Atos BullSequana XH2000系统,由Intel Xeon Platinum CPU和NVIDIA A100加速器提供强大的计算能力,还采用了四轨NVIDIA HDR100 Infiniband。Leonardo的HPL基准测试分数达到了241.2PFlop/s,这一成绩展现了其出色的计算性能。
MareNostrum 5 ACC系统现在排名第8,安装在西班牙的EuroHPC/巴塞罗那超级计算中心。这款BullSequana XH3000系统采用了Xeon Platinum 8460Y处理器、NVIDIA H100 GPU以及Infiniband NDR200网络连接技术。这些组件共同协作,使得MareNostrum 5 ACC系统实现了令人瞩目的175.3Pflop/s的HPL性能。
Summit是IBM公司在美国橡树岭国家实验室建造的超级计算机,目前在Top500榜单中排名第9。该系统的高性能计算速度达到了148.6PFlop/s,展现了其卓越的计算能力。Summit拥有4356个节点,每个节点配备了两个22核的POWER9 CPU和六个NVIDIA Tesla V100 GPU。每个GPU上集成了80个流式多处理器(SM)。
Eos system在全球最快超级计算机TOP500排行榜中位列第10,它是一款内部使用的NVIDIA DGX SuperPOD,由NVIDIA H100 GPU和英特尔至强白金8480C处理器共同驱动。
Top500组织在最新发布的报告中指出,尽管中国决定不再参加Top500的HPL基准测试,但在Top500名单中,中国和美国依然是拥有超级计算机数量最多的国家。美国在其之前的基础上新增了7台超级计算机,使得其总数达到了168台。而中国则从104台减少到80台。Top500组织表示,“事实上,中国在这份新名单上并未报告任何新加入的超级计算机。”
然而,根据第63届Top500超级计算机榜单,全球各地区的超级计算机数量上有所变化。北美地区依然保持领先地位,从上一份榜单的160台系统增加到171台。而亚洲地区则出现了下滑,从169台系统减少到148台。与此同时,欧洲地区实现了显著的增长,从143台增加到160台,位列北美地区之后,成为了全球第二大超级计算机分布区域。
超级计算机Green500榜单
今年的超级计算机Green500榜单确实有了显著的变化,前三名的超级计算机均为新上榜者。
名列Green500榜单的榜首是JEDI–JUPITER Exascale Development Instrument,这台超级计算机由德国的EuroHPC/FZJ开发,是近期最新上榜的。在TOP500超级计算机排名中,JEDI位列第190位,展现出了不俗的性能实力。其能效评级高达72.73GFlop/W,HPL得分为4.5 PFlop/s。JEDI是一款配备Grace Hopper Superchip 72C的BullSequana XH3000架构的超级计算,总共有19584个核心处理器。
英国布里斯托尔大学的Isambard-AI以68.83 GFlop/W能效评级和7.42 PFLop/s的HPL得分位居第二。Isambard-AI在TOP500中排名第129位,拥有34,272个核心处理器。
排名第三的是来自波兰Cyfronet的Helios system。该机器的能效得分为66.95GFlop/W HPL得分为19.14 PFlop/s。
Top500组织在讨论能源效率时,特别提到了Frontier系统。Frontier系统取得了1.206EFlop/s的exascaleHPL分数,这一成绩证明了其优秀的计算能力。同时,Frontier在能源效率方面也表现出色,获得了56.97GFlop/W的分数。这使得Frontier在Green500榜单中排名第11,而在TOP500超级计算机排名中,Frontier更是荣登榜首。
有关Aurora性能的争议
回到业界讨论的Aurora运算速度的这个话题,人们对于该系统最终是否能够达到2 exaFLOPS性能的期望持不同看法。对此,阿贡国家实验室的副主任兼杰出研究员Rick Stevens表示,这一期望带来的误解源于一位曾参与Aurora项目开发和交付的英特尔公司前高管所营造的错误印象。
他表示,2 exaFLOPS这一数值是基于Aurora核心处理器数量与处理器峰值性能相乘得出的理论峰值,但这并非负责维护和运营Aurora的阿贡系统经理所设定的实际性能目标或期望。
Stevens解释说:“峰值性能是一个通过计算得出的理论数字,它基于时钟速率与单个计算元件运算次数的乘积。实际上,典型的系统只能达到这个峰值的一小部分,这取决于它们所执行的任务,通常在50%、60%或70%之间。Aurora上标称的2 exaFLOPS峰值实际上是结合了GPU和CPU的FLOPS得出的。在基准测试中,通常不会这样做。如果查看Top500榜单中其他类似的系统,就会发现它们同样拥有非常大的理论峰值,但实际达到的峰值比例与Aurora类似。因此,这并不是一个根本性的问题。”
Stevens表示,Aurora在基准测试中应该能够实现LINPACK性能的提升,因为在最近的基准测试执行时,Aurora的11%计算能力尚未被激活。他预测,当整个系统安装完成之后,将会产生更高的基准测试数据。然而,他拒绝透露阿贡国家实验室对于Aurora在完全运行状态下的具体性能目标数字。
关于公众对Aurora的期望,Intersect360研究公司首席执行官、高性能计算机和人工智能行业分析师Addison Snell表示:“我认为这是行业人士的普遍预期,Aurora系统有望在某些基准测试中超越Frontier的LINPACK峰值。然而,需要明确的是,任何达到百亿亿次级别的超级计算机都是一个令人瞩目的技术成就。然而,现在很难完全摆脱公众对于Aurora系统未能满足某些性能期望的观念。”
HPC-AI行业分析机构Hyperion Research公司的首席执行官(Earl Joseph对阿贡国家实验室的期望没有那么高。
他说:“一直以来,由于Aurora采用了英特尔的处理器和互联系统,阿贡国家实验室对LINPACK的实际性能表现一直持有谨慎的态度,因此在这方面存在很多不确定因素。我认为,随着时间的推移和系统的进一步调优,这些不确定性将会逐渐减少,性能也会有所提升。虽然Aurora理论上可能具备达到2 exaFLOPS的潜力,但在实际运行中并不能立即达到这一性能。”
他表示,Aurora最终将会超过1.5 exaFLOPS。
(如有版权问题,请联系删除)