超级计算机(巨型计算机)是相对于大型计算机而言的一种运算速度更高、存储容量更大、功能更完善的计算机。它通常是指每秒中能运算5000万次以上、存储容量超过百万个字节的电子计算机。超级计算机信息处理能力比个人计算机快一到两个数量级以上,它在密集计算、海量数据处理等领域发挥着举足轻重的作用。作为高性能计算技术产品的超级计算机,又称巨型机,是与高性能计算机或高端计算机相对应的概念。通常情况下,我们以超级计算机的性能指标和应用范围进行分类:
按性能划分:即以浮点运算能力看谁算得快
依据超级计算机的性能指标,如运算速度、存储容量等,可以对其进行分类,其中,TOP500排名榜是衡量超级计算机性能的一个重要标准。TOP500排名榜主要是通过衡量超级计算机浮点运算能力,对超级计算机进行排序,根据超级计算机的性能,我们可将其分为:
- 入门级超级计算机:其运算速度低于千万亿次浮点运算/秒(PFLOPs)。存储容量通常在数十TB至几百TB范围内。
- 中端超级计算机:运算速度可达到千万亿次至数千万亿次浮点运算/秒(PFLOPs)。存储容量为几百TB至PB级别。例如,基于IBM Power或Intel Xeon系列处理器构建的集群。
- 高端超级计算机:运算速度在数千万亿次至数十亿亿次浮点运算/秒(EFLOPs)。存储容量在PB级别及以上。例如,富岳(Fugaku)超级计算机、XC、Shasta系列超级计算机等。
- 顶级超级计算机:又称“exascale”超级计算机,运算速度超过百亿亿次浮点运算/秒(EFLOPs)。存储容量通常超过数十PB。例如,天河系列、神威系列超级计算机、Frontier、Aurora。
截止2023年11月13日,TOP500前5名超级计算机
按应用场景划分
依据超级计算机规模和用途不同,可对超级计算机进行分类:
通用超级计算机
通用超级计算机是一种高性能计算系统,设计用于解决广泛的科学和工程问题。它们具有强大的计算能力和高度灵活性,可以处理各种类型的应用程序和算法。通用超级计算机通常用于进行大规模数值计算、模拟和数据分析等任务。例如:
神威·太湖之光:中国自主研发的超级计算机
- 神威·太湖之光超级计算机由国家并行计算机工程技术研究中心研制,安装在国家超级计算无锡中心。其搭载40960个中国自主研发的申威26010众核处理器,全部采用国产技术,实现全本土化生产。
- 其采用基于高密度弹性超节点和高流量复合网络的高效能体系结构,包括运算系统、网络系统、外围系统、维护诊断系统、电源系统、冷却系统和软件系统,广泛应用于气候气象、航空航天、海洋环境、生物医药、能源材料、先进制造等领域的大规模科学计算和工程仿真。
- 曾多次在国际超级计算机Top500榜单中名列前茅,如2016年6月在德国法兰克福国际超算大会上以接近第二名三倍的运算速度夺得世界第一。
神威·太湖之光|图源:国家超级计算无锡中心
前沿超级计算机(Frontier):世界算的最快的超级计算机
- Frontier是归属于美国橡树岭国家实验室(Oak Ridge National Laboratory, ORNL)的一台超级计算机。它在全球超级计算机Top500榜单中多次占据首位。
- Frontier搭载AMD EPYC(霄龙)第三代服务器处理器,具体型号为64核2GHz版本,内核总数高达8730112个,体现极高的并行计算能力,配备AMD Radeon Instinct加速卡,提供强大的图形与通用计算能力。
- 其能达到52.23 gigaflops/watt,即每瓦特功率下可实现52.23千兆次浮点运算,凭借优异的能效,Frontier在绿色500榜单中位列第一,展示其在高性能计算与节能方面的双重优势。
- Frontier作为首个实现E级计算的系统,标志着人类在超大规模科学计算领域取得重大突破,为解决复杂科学问题和推进前沿科研提供了前所未有的计算能力。
前沿(Frontier)|图源:网络
IBM Summit超级计算机:曾是世界上最大的人工智能超级计算机
- 由美国能源部橡树岭国家实验室(ORNL)运营的IBM Summit超级计算机,基于Power9 CPU和NVIDIA Tesla V100 GPU,能处理各种科学和工程问题。
- 拥有高达200 petaflops的理论峰值计算速度,远超同期其他系统,确保其在处理大规模科学计算任务时的高效与精确。
- 其系统采用了IBM Power9处理器与大量NVIDIA Tesla V100 GPU构建的混合异构体系结构,实现CPU与GPU间的高效协同计算,为各类计算密集型与数据密集型应用提供强大支持。
- 2018年,曾被誉为“世界上最大的人工智能超级计算机”,集成了先进的AI算法和工具,使得研究人员能够在同一平台上无缝进行大规模数据分析、深度学习训练和复杂模型仿真,极大地拓宽了科学研究的边界。
Summit |图源:网络
专用超级计算机
专用超级计算机是为特定类型的任务或领域特别设计和优化的系统。它们通常采用定制化的硬件和软件,针对某一类计算问题(如特定类型的模拟、数据分析或机器学习任务)进行深度优化,牺牲了一定的通用性以换取在特定领域的极高计算效率。专用超级计算机可能只支持一种或少数几种特定的应用程序,不适合或无法有效运行通用超级计算机上常见的多样化工作负载。例如:
- 安腾(Anton)是一款由位于纽约的D. E. Shaw Research设计并制造的大规模并行超级计算机,于2007年发布,自2008年开始运行。这款超级计算机是专门为蛋白质和其他生物大分子的分子动力学(MD)模拟打造的特殊用途系统。
- 为了加快分子动力学模拟,安腾(Anton)超级计算机由大量的应用专用集成电路(ASIC)组成,并通过一个专门设计的高速三维环状网络相互连接起来。在硬件上,它的芯片、主板、布线都由D. E. Shaw研究所特殊设计。通过特殊设计的专用芯片,尽可能减少数据的传输和运算,在芯片上分区域、分精度计算不同任务,突破制约分子模拟速度的瓶颈——原子间相互作用力的计算。与硬件相匹配的是软件,D. E. Shaw研究所也专门设计了适配Anton的动力学模拟软件Desmond。
- 正是由于安腾超级计算机专注在特定领域,使得其在分子动力学模拟计算中的效率是传统超算的100-10000倍,比目前全球最强的超算Frontier还要快上50倍以上。
- 中国科学院院士、北京航空航天大学教授钱德沛早前在接受媒体采访时曾谈到,“美国D. E. Shaw研究所就用专门设计的ASIC芯片搭建了分子动力学模拟专用计算机安腾(Anton),通过算法创新和软硬件协同,在分子动力学模拟中获得了比通用计算机高出百倍的计算能效,这是非常值得我们借鉴的。”
安腾超级计算机 |图源:网络
星际之门Stargate:专注人工智能,满足未来OpenAI对算力的需求
- 来自 The Information 的报道,微软计划大约”在2026年启动一台新的超级计算机Stargate,这台超级计算机及其数以百万计的芯片预计最早将于2028年投入使用,以满足未来OpenA对大规模计算资源的迫切需求。
Dojo超级计算机:用于改进全自动驾驶系统的超级计算机
- 特斯拉称将投资5亿美元在纽约州布法罗超级工厂打造Dojo超级计算机,用于改进全自动驾驶系统,未来需数十亿美元年投入人工智能领域。
- Dojo超级计算机预计能处理大量传感器数据,帮助训练人工智能处理现实世界的驾驶画面,拥有多种潜在应用。
Dojo |图源:网络
Gefion:以生成式AI应用推动生命科学创新的超级计算机
- 诺和诺德基金会宣布将出资和英伟达合作,在丹麦建造一台专注于生成式AI应用的超级计算机Gefion,其主要目标是借助尖端的计算能力,以推动医疗保健、生命科学和绿色转型领域的研究与创新,特别是在药物发现和蛋白质研究领域。
Cambridge-1:将AI 和仿真相结合用于加速生物学革命的超级计算机
- Cambridge-1是英伟达为外部研究而设计和建造的第一台超级计算机,这款超级计算机将 AI 和仿真相结合,使顶尖科学家和医疗健康专家能够利用其强大功能来加速数字生物学革命。
- Cambridge-1采用80个DGX™ A100系统,搭载NVIDIA A100 GPU、BlueField®-2 DPU和NVIDIA HDR InfiniBand网卡,是一台可提供超过400 petaflops (每秒千万亿次浮点运算)AI性能和8 petaflops Linpack性能的NVIDIA DGX SuperPOD。该系统放置于由NVIDIA合作伙伴Kao Data运营的设施中。
Cambridge-1超级计算机|图源:网络
Earth-2:专门预测气候变化的超级计算机
- 英伟达在2021年宣布,将打造全球最强大的人工智能超级计算机Earth-2或E-2,专门用来预测气候变化,它将在Omniverse中创造一个地球的数字孪生。
- 英伟达认为:“通过结合GPU加速计算、深度学习和内嵌物理信息的神经网络的突破以及人工智能超级计算机三大技术,再加上大量可供学习的观测和模型数据,就可以实现百万倍的加速;有了超分辨率技术,我们或许就能实现超分辨率气候建模所需的10亿倍量级的飞跃。国家、城市和村镇可以获得预警,提前应对并提高基础设施的抵御能力。有了更准确的预测,人们和国家也会更迫切地采取行动。因此,我们将全力投入大量资源,使NVIDIA能够在计算科学领域能够涉猎更广、更专精,以融入世界气候科学的社区。”
按系统架构划分
此外,我们也可以以超级计算机的系统架构、计算模型和并行处理方式进行分类:
共享内存系统
- 这类超级计算机拥有单一操作系统实例管理下的统一地址空间,所有处理器都可以直接访问全部内存。这意味着所有计算资源在逻辑上被视为一体,数据共享便捷,无需复杂的通信机制,适合于需要频繁全局同步和大规模数据共享的并行计算任务。此类系统通常具有较高的内存带宽和较低的延迟,适用于对内存访问一致性要求较高的应用,如分子动力学模拟、气候模型计算等。代表机型包括SUN Microsystems的Euler、Cray公司的Cray X1等。
分布式内存系统
- 由多个独立的计算节点组成,每个节点包含自己的处理器、内存和其他本地资源,各节点运行各自的操作系统实例。节点间通过高速网络(如InfiniBand、Omni-Path等)互连,数据交换和通信通常依赖于消息传递接口(MPI)等并行编程模型。这种架构有利于扩展性,适用于大规模并行计算,但需要程序员显式管理数据分布与通信。分布式内存系统适用于大规模数据处理、粒子模拟、流体动力学等计算密集且数据局部性较好的应用。IBM的Blue Gene系列、Cray的XC系列是此类系统的典型代表。
混合架构系统
- 融合了共享内存和分布式内存的特点,通过集成不同类型的计算资源(如多核CPU、加速卡如Intel Xeon Phi、GPU等)构建异构系统。这类超级计算机可能包含共享内存部分(如同一节点内的多核CPU共享内存)和分布式内存部分(如多个节点通过网络互连),或者在同一节点内结合使用共享内存的CPU与带有独立内存的加速卡(如GPU或Xeon Phi)。混合架构系统旨在兼顾计算性能、扩展性和能效,适用于处理多样化的计算任务,如机器学习、高性能数据分析、科学计算等。Intel的Xeon Phi加速卡结合传统多核CPU的系统以及GPU加速的集群均属于混合架构超级计算机的范畴。
按计算模型和并行处理方式划分
超级计算机的计算模型和并行处理方式也是其分类的一个重要方面,可以分为数据流超级计算机与向量超级计算机。
数据流超级计算机(Dataflow Supercomputer)
- 工作原理:数据流超级计算机遵循“数据驱动”的执行模式,即指令的执行取决于操作数(数据)是否准备就绪,而非严格按照预定义的指令顺序。一旦一条指令的所有操作数全部就绪,该指令就会被立即执行,无需等待预定的指令周期。
- 核心技术:数据流超级计算机的核心在于其数据流编程模型和相应的硬件支持。这种模型强调数据的流动性和计算的即时性,要求硬件能够动态调度和并行执行大量独立的任务单元(微程序),每个任务单元对应一个或一组数据操作。
- 工作模式:数据流超级计算机采用“数据就绪触发”(Data-Ready Triggering)的工作模式。系统中的多个处理单元(如处理器、专用硬件加速器等)持续监控数据流网络,一旦检测到所需数据全部到位,便会立即启动相关操作,完成计算后将结果送回数据流网络供后续计算使用。
- 优势:
- 高效利用资源:数据驱动执行避免了传统架构中因数据依赖造成的处理器空闲,提高了硬件利用率。
- 天然并行:数据流模型天然支持大规模并行计算,易于扩展以应对复杂、大规模的计算任务。
- 灵活适应动态变化:对实时数据流处理和异步计算任务具有良好的适应性,能够快速响应数据输入的变化。
- 应用领域:数据流超级计算机适用于处理高度并行、数据依赖关系复杂且可能存在动态变化的计算任务,常见于实时数据分析、大数据处理、流媒体处理、金融高频交易、信号处理等领域。
向量超级计算机(Vector Supercomputer)
向量超级计算机专为高效处理大规模向量(数组)运算而设计,其处理器具有专门的向量处理单元(Vector Processing Unit, VPU),能够一次性对向量中的多个数据元素执行相同的算术或逻辑操作。这种设计极大地提高了处理大规模科学计算、工程模拟等应用中常见向量运算的效率。向量超级计算机通过优化指令级并行(Instruction-Level Parallelism, ILP)和数据级并行(Data-Level Parallelism, DLP),在单个处理器内实现高吞吐量的浮点运算,适用于气象预报、流体动力学、物理模拟等需要进行大量标量或向量运算的科学计算任务。
- 工作原理:向量超级计算机设计用于高效处理大规模向量(数组)运算。其核心思想是通过一次性对向量中的所有元素执行相同的操作来实现计算加速。
- 核心技术:向量超级计算机的关键在于其处理器内部集成的向量处理单元(Vector Processing Unit, VPU)。VPU具备特殊的硬件结构,能够对一个向量中的多个数据元素同时执行相同的算术或逻辑操作。工作模式:向量超级计算机采用“单指令、多数据”(Single Instruction Multiple Data, SIMD)并行处理模式。一条向量指令会同时作用于整个向量的所有元素,实现对大批量同类数据的并行计算。
- 优势:
- 高效处理向量运算:VPUs显著提升了对大规模数组运算的处理速度,降低了访存开销,尤其适合于计算密集型科学应用。
- 简化编程:尽管底层硬件执行高度并行,但程序员通常只需编写面向标量的代码,编译器负责将其转化为向量指令,降低了并行编程的复杂性。
- 高能效比:相较于通过增加处理器数量实现并行的传统方法,向量处理能在较少的硬件资源下实现较高计算性能,具有较好的能效比。
- 应用领域:向量超级计算机广泛应用于气象预报、物理模拟、地球科学、石油勘探、分子动力学、大规模图像处理、机器学习等领域,尤其在处理涉及大量数值计算和数据密集型问题时效果显著。
发表评论 取消回复