发展历程


研发背景与目标

顶点(Summit)超级计算机是由IBM专为美国能源部旗下的橡树岭国家实验室研发的,项目代号“OLCF-4”,耗资约 2 亿美元。其设计初衷是为了超越当时运算速度最快的中国超级计算机“神威·太湖之光”,重新确立美国在全球超算领域的领先地位。它在高精度科学仿真方面可达到200 petaflops的性能,助力最优秀的科学家加速其在高能物理、材料发现、医疗保健等领域的探索。


落成与启用

Summit超级计算机于2018年6月8日正式落成并投入使用。它的推出标志着美国在超级计算机领域的一大飞跃,直接登上了全球超级计算机500强榜单的首位,并在此后一段时间内连续蝉联冠军。[1]



后续成就

在2018年11月及2019年11月发布的全球超级计算机500强榜单中,Summit凭借其强大的计算性能持续位居榜首,展示了其在高性能计算领域的持久竞争力。

 

技术架构


硬件层面

服务器组成与核心硬件[2]

Summit由4608台计算服务器组成,每个服务器包含两个22核Power9处理器和6个Tesla V100图形处理单元加速器(NVIDIA生产)。

  1.  Summit的主CPU来自于IBM Power9,22核心,主频为3.07GHz,总计使用了103,752颗,核心数量达到2,282,544个。这些处理器设计用于高性能计算,提供强大的单线程性能和高带宽内存接口,支持大规模并行计算
  2.  每颗处理器设计了8通道内存,每个内存插槽可以使用32GB DDR4 2666内存,这样总计可以给每个CPU可以带来256GB、107.7GB/s的内存容量和带宽。每颗GPU配备16GB的HBM2内存,对每个CPU-GPU组而言,总计有48GB的HBM2显存和2.7TBps的带宽。
  3.  Summit的GPU搭配了27648块英伟达Tesla V100计算卡,操作系统为RHEL 7.4



计算节点

Summit有约4600个节点。每个节点将拥有至少500GB相干内存,以及800GB非易失性内存。


Summit采用的计算节点型号为Power System AC922,简称为AC922,这是一种19英寸的2U机架式外壳。从内部布置来看,每个AC922内部有2个CPU插座,满足两颗Power 9处理器的需求。每颗处理器配备了3个GPU插槽,每个插槽使用一块GV100核心的计算卡。一个节点的CPU双精度峰值性能略低于1.1TFlops,GPU的峰值性能大约是47TFlops。

互联网络

Summit超级计算机采用了双轨Mellanox EDR或HDR InfiniBand网络,这种网络提供了低延迟、高带宽的节点间通信,优化了大规模并行计算的效率。此外,Summit还部署了PCIe 4.0通道、双端口的Mellanox EDR InfiniBand适配器(400Gbps)和支持NVLink 2.0(100GB/s),这进一步证明了其高性能和高带宽特性。[3]


软件层面

异构架构

Summit的异构架构,即高性能CPU支撑其高精度浮点计算性能,而大量加速芯片则支撑深度学习应用,这进一步证明了它在支持不同类型的科学计算和数据分析需求方面的适应性。[4]

 

性能与能耗

据橡树岭国家实验室介绍,顶点的浮点运算速度峰值可达每秒20亿亿次(200 petaFLOPS),威力是之前排名第一的超级计算机TITAN的8倍(2012年11月至2013年6月是世界上最快的超级电脑),相当于普通笔记本电脑运算速度的100万倍,比之前位于榜首的中国超级计算机“神威·太湖之光”峰值性能(每秒12.5亿亿次)快约60%。

在能耗方面,与目前世界上算的最快的超级计算机美国前沿对比,“前沿”由100个机柜组成,每个机柜的额定功率为300千瓦,整个系统的功率超过30兆瓦。相比之下,“顶点”的功率为13兆瓦。在2019年6月发布的超级计算机TOP500/Green500榜单上,超算顶点的功耗则为10.096兆瓦。

所获奖项


2018 年 11 月,在全球超级计算机500强榜单中,位列第一[5]

2018 年 11 月 13 日,突破吉尼斯世界纪录,成为世界上运算速度最快的计算机[2]
2019 年 11 月,在全球超级计算机500强榜单中,位列第一[6]
2020 年,荣获戈登贝尔奖[7]
2021 年 11 月,在全球超级计算机500强榜单中,位列第二[8]
2022 年 5 月,在全球超级计算机500强榜单中,位列第四[9]
2023 年 11 月,在全球超级计算机500强榜单中,位列第七[10]
 

应用领域


天体物理学

超新星爆发可以为科学家研究重元素在宇宙起源中的作用提供线索。FLASH代码可以在多个尺度上对此进行建模和模拟。

利用Summit,LASH可以进行长达数千倍时间内对多达12倍的元素种类进行高分辨率的模拟。

“这至少是我们在早期机器上能够完成的计算量的一百倍,”ORNL计算天体物理学家Bronson Messer说。“Summit的庞大规模将使我们能够制作非常高分辨率的模型。[11]

材料学

为了研发下一代材料需要在亚原子层面上对材料属性、行为进行理解。QMCPACK是一个使用了第一性原理进行相关模拟的量子蒙特卡洛程序。由于QMCPACK的计算开销极大,到目前为止,科学家们只能模拟数十个原子的体系。

利用Summit,可以研究的体系可以包含数百个原子,这样能够为研究更实用的超导体提供极大的帮助。

癌症研究

为“战胜”癌症,需要研究基因、生物标记物与环境之间隐藏的关系。融合已有的健康数据、非结构数据如文本型的报告、医学影像等,利用机器学习算法,在Summit上可以对美国的癌症群体进行更全面的分析。

这样的分析之前只能针对少数的临床实验病人进行。Summit的强大能力使得可以探索更复杂、更精准的模型。这是美国能源部和美国国家癌症研究院的联合项目CANDLE 的一部分。CANDLE旨在实现面向疾病精准医疗使能的E级深度学习和模拟。

系统生物学

生物系统如人类是极其复杂的,只有采用系统生物学研究方法,并利用海量的数据和超强的算力,才能更好地理解其中的复杂关系并应用于疾病的诊断和治疗等。

使用人工智能方法,利用Summit,可以确定人类蛋白和细胞系统的功能、协同和进化的模式。这些模式可以帮助研究临床表型、疾病的可见性状的形成,并为药物发现过程提供支持。

ORNL和美国老兵事务部已经结成战略性合作关系,科学家们将结合临床和基因组数据,并利用机器学习在Summit上发现鸦片成瘾等的遗传因素。

对抗新冠病毒

2020年3月5日,美国橡树岭国家实验室(ORNL)的研究人员利用Summit超级计算机针对新型冠状病毒肺炎COVID-19进行了药物重定向研究。美国研究人员在Summit超级计算机上对8000多种化合物进行了模拟,缩小了潜在变量范围,以筛选那些最有可能与冠状病毒刺突蛋白结合的化合物。

Summit超级计算机轻松解决了计算量大和极度耗时的问题,“我们需要通过Summit来迅速获得我们所需的模拟结果,这会花费我们一两天的时间。然而,使用普通计算机则可能花费数月时间。”史密斯说。使用Summit这样的超级计算机能将研究时间由数月缩至一两天。[12]

关于研发公司:IBM


国际商业机器公司,简称IBM(International Business Machines Corporation),总公司在纽约州阿蒙克市,于1911年由托马斯·约翰·沃森在美国创立,是全球最大的信息技术和业务解决方案公司,拥有全球雇员31万多人,业务遍及160多个国家和地区。



2014 年 11 月,美国能源部将一份价值 3.25 亿美元的合同授予 IBM、Nvidia 和 Mellanox。这项工作的成果是建造了 Summit 和 Sierra。其中,Summit 用于民用科学研究,位于田纳西州的橡树岭国家实验室。
 
IBM能够开发Summit超级计算机,主要基于以下几个关键因素:
  1. 深厚的技术积累:IBM作为信息技术领域的老牌企业,拥有数十年在计算机硬件、软件及服务方面的研发经验。这包括对高性能计算(HPC)的长期投入,使得IBM在处理器设计、系统架构、并行计算技术等方面积累了深厚的技术底蕴。
  2. 创新的硬件设计:Summit超级计算机采用了IBM自家的Power 9处理器,这是专为高性能计算和大数据工作负载设计的高效能CPU。Power 9具有高度可扩展性和强大的并行处理能力,能够与大量的GPU协同工作,这是Summit实现高性能的关键。
  3. 系统集成能力:IBM具备强大的系统集成能力,能够将数千个计算节点、存储设备、高速网络以及复杂的冷却系统等组件有效地整合在一起,形成一个稳定、高效的超级计算机系统。Summit的规模庞大,包含4,608台计算服务器,这种级别的系统集成是一个巨大的工程挑战。
  4. 丰富的行业经验:IBM在过去曾多次参与并主导过世界顶级超级计算机的开发,如之前的Roadrunner、Sequoia等系统,这些经验为Summit的设计和实施提供了宝贵的知识基础。

推荐阅读


  1. 维基百科-Summit(supercomputer)
  2. Summit超级计算机已经在科学领域崭露头角
  3. 世界上最强的计算机:美国“顶点”,速度超越“神威”60%!
  4. 时隔6年,美国超级计算机“顶点”的算力宣布超越中国成为世界第一
  5. 美国超级计算机“顶点”超越中国“神威·太湖之光”排全球超级计算机500强榜首
  6. 解局 | 美国为何追求超级计算机“顶点”?
  7. 比我国快60%!中国超算被美“顶点”赶超桂冠旁落
  8. 中国上榜总数第一,美国超算“顶点”蝉联冠军,全球超级计算机500强榜单公布
  9. 美国宣布造出最快超级计算机 峰值速度是神威近两倍
  10. 走近全球最快最智能的超级计算机Summit



参考资料


【1】美国超级计算机夺回世界第一 速度超“神威”60%

【2】百度百科-Summit超级计算机

【3】美国加速推进新超算Summit:拉IBM+NV反击国产神威

【4】当算力中心界限开始模糊,以偏概全、以此代彼乱象迭出——算力时代,谁主沉浮

【5】全球超算500强中国上榜总数仍居第一

【6】日本“突袭”,中国超算“掉队了”?

【7】机器学习模拟1亿原子:中美团队获2020“超算诺贝尔奖”戈登贝尔奖

【8】全球超级计算机榜单出炉 中国超算蝉联上榜数量第一

【9】全球超算最新排名:美国“百亿亿次计算机”首度露脸 欧洲进步迅速

【10】最新2023年11月全球超算TOP500:美国Frontier保持第一,中国超算跌出前十!

【11】新的 200 Petaflops 系统首次亮相,成为美国顶级科学超级计算机

【12】美国能源部在对抗 2019年冠状病毒(COVID-19)的战役中引入全球最强大的超级计算机 - 基于 IBM POWER9 的 Summit

点赞(0)

微信公众账号

微信扫一扫加关注

返回
顶部