英伟达用3周构建的、世界第九快超级计算机Selene

超算百科 3084 阅读 0 点赞

Selene是英伟达在2020年推出的一款高性能超级计算机，它基于NVIDIA DGX SuperPOD架构构建，使用了大量的NVIDIA Ampere架构GPU。Selene不仅在美国最快的工业系统中占据一席之地，而且在能效比方面也表现突出，体现了英伟达在GPU技术和系统集成方面的领先水平。

发展历程

2020年：为了支持新冠病毒研究，并且在疫情爆发后迅速部署以应对紧急需求，NVIDIA宣布推出基于Ampere GPU架构的Selene超级计算机^[1]。

2021年2月：Selene被详细报道，强调其为支持新冠病毒研究而设计，并位于美国阿贡国家实验室。

2021年4月：NVIDIA的Julie Bernauer讨论了Selene的设计与建造过程，突出其全球排名第五的高性能^[2]。

2022年5月：Selene入选2022年超级计算机TOP500上半年榜单，确认其在高性能计算领域的地位^[3]。

技术架构

硬件架构

核心组件

Selene是一台为支持新冠病毒研究而打造的超级计算机^[4]，位于美国阿贡国家实验室，它基于NVIDIA最新的高可扩展集群架构技术-DGX SuperPOD技术构建，由280台DGX A100服务器组成，包含CPU和GPU计算核心共计272800个。

GPU^[5]：Selene的核心是由大量NVIDIA Ampere架构的GPU构成，Ampere是NVIDIA于2020年发布的高性能GPU架构，专门针对AI和HPC（高性能计算）应用优化。每个DGX A100节点包含了8个A100 Tensor Core GPU，每个GPU具有80GB的HBM2显存。NVIDIA最新的A100 GPU是Selene优异性能的保障，它采用最新的Ampere架构，CUDA核心数达到了6912个，比前一代Volta架构旗舰V100 GPU提高50%，双精度浮点数性能相比V100 GPU提升30%。

CPU：每个DGX A100节点搭载了两颗AMD EPYC Rome处理器，提供强大的CPU计算能力，以支持GPU密集型工作负载之外的任务处理。

内存与存储^[6]

系统内存: 每个DGX A100节点拥有1.5TB的DDR4内存，总内存容量达到420TB。

GPU显存: 每个GPU有80GB HBM2显存，总显存为2240TB。

存储系统: Selene可能配备高速存储解决方案，如NVMe SSDs和分布式文件系统，用于大规模数据读写。

模块化设计

DGX SuperPOD架构: Selene基于NVIDIA的DGX SuperPOD架构，这种架构允许快速搭建和扩展，同时提供统一的管理和监控。

网络与互联

网络: 使用高速网络连接，如NVIDIA Mellanox InfiniBand HDR 200Gb/s，确保GPU之间以及GPU与CPU之间的高速数据传输。在网络互连结构方面，Selene采用了200G HDR的InfiniBand技术，同时将280个节点采用胖树拓扑互连，结合NVIDIA最新的节点间通信加速技术SHARPTM2.0，让Selene能够在保障足够网络带宽的同时，降低节点间通信延时，提高大规模运算处理效率。

能耗与性能

风冷技术: Selene采用了高效的风冷方案，通过精确的气流管理来散热，保持系统的稳定运行。

Selene超级计算机在Linpack测试下整机功耗达到1344.19kW。Selene的AI计算性能达到了1.4EFLOPS，而传统CPU仅能实现GFLOPS级的AI计算性能。

软件架构

并行计算框架

CUDA: NVIDIA的CUDA编程模型允许开发者利用GPU进行大规模并行计算。

MPI (Message Passing Interface): 用于跨节点间的数据通信和任务协调，实现高效并行计算。

软件栈与工具

深度学习框架: 如TensorFlow, PyTorch等，用于AI和机器学习应用。

编译器与库: 包括NVIDIA的cuBLAS, cuDNN, cuSPARSE等，提供GPU加速的数学库。

性能分析工具: 如NVIDIA Nsight, CUDA Profiler等，帮助开发者优化代码性能。

应用程序

Selene的软件环境主要基于NVIDIA的NGC容器化资源库来实现，它包含多种类面向深度学习和高性能计算的GPU优化软件工具，支持全栈范围内的性能优化，同时支持容器化的混合编程环境，这样的一套NVIDIA可控的软硬件环境可以为高性能计算和AI应用的用户提供方便的编程开发环境。

所获奖项

2020年5月，Selene获得TOP500排行榜第7名^[7]。

2020年7月，Selene获得Green500 榜单第2名；同年11月，获得TOP500排行版第5名^[4][8]。

2021年11月，Selene获得TOP500排行榜第6名^[9]。
2022年11月，Selene获得TOP500排行榜第9名^[10]。
2022年11月，Selene获得Gordon Bell奖^[8]。
2023年7月，Selene获得TOP500排行榜第9名^[11]。

应用领域

预测 COVID 变体的特征^[12]

2023年11月，研究人员使用了NVIDIA A100 Tensor Core GPU驱动的超级计算机，包括Argonne的Polaris系统，美国能源部的Perlmutter和NVIDIA的Selene来训练GenSLM基因组数据大语言模型。目前该模型已证明其能够生成与 SARS-CoV-2（COVID-19 背后的病毒）的真实世界变体非常相似的基因序列。

自动汽车驾驶^[13]

英伟达的研究人员在2020年曾使用Selene来训练自动驾驶汽车并改进对话式AI。

关于Nvidia

英伟达（NVIDIA）是超级计算机Selene背后的创造者，是一家全球领先的创新科技公司，专注于图形处理器（GPU）的设计与制造。

成立与愿景

英伟达成立于1993年，由黄仁勋（Jen-Hsun Huang）、克里斯·马拉科夫斯基（Chris Malachowsky）和柯蒂斯·普里姆（Curtis Priem）共同创立。公司的愿景是通过革命性的图形处理技术改变人们与计算机交互的方式。

主要成就

图形技术领导者：英伟达发明了GPU，最初是为了提升计算机图形渲染的能力，但很快GPU因其并行处理能力而在多个领域找到了新的应用。

CUDA编程模型：英伟达推出了CUDA（Compute Unified Device Architecture）编程模型，使得GPU可以用于通用计算，极大地促进了高性能计算、科学计算、机器学习和人工智能等领域的发展。

公司文化与影响

企业文化：英伟达以创新、卓越和对技术的热情著称，吸引了全球各地的工程师和科学家。

行业影响力：除了硬件产品，英伟达还开发了一系列软件工具和开发平台，支持开发者和研究人员利用GPU进行创新。

社会贡献：公司积极参与教育和社区服务，支持STEM（科学、技术、工程和数学）教育，鼓励下一代科技人才的成长。

参考资料

【1】NVIDIA Ampere架构正式亮相全球最大7nm GPU发布

【2】Mooning Over Selene: NVIDIA’s Julie Bernauer Talks Setting Up One of World’s Fastest Supercomputers

【3】2022全球超算TOP500：美国E级超算Frontier登顶，中国仍有望逆袭

【4】“Green500”专题（二）：NVIDIA的“超算新宠”- Selene

【5】HPC存储-NVIDIA工程师带您走近SELENE超级计算机 | 细数选择DDN存储的几个原因

【6】全球TOP10超级计算机8台都选英伟达的三大原因

【7】2022年7月TOP500排行榜

【8】Speaking the Language of the Genome: Gordon Bell Winner Applies Large Language Models to Predict New COVID Variants

【9】2021年11月TOP500排行榜

【10】2022年11月TOP500排行榜

【11】2023年7月TOP500排行榜

【12】Gen AI for the Genome: LLM Predicts Characteristics of COVID Variants

【13】AI of the Storm: How We Built the Most Powerful Industrial Computer in the U.S. in Three Weeks During a Pandemic