但如果他们无法做到,AMD 已经做好了充分的准备来收拾残局。


分析显示,Nvidia在上周汉堡举行的国际超级计算展上表现相当抢眼。其GH200成功跻身十大已知最强大的超级计算机之列,而CPU-GPU混合芯片则在追求能效的Green500榜单上占据主导地位。

然而,如果Nvidia的下一代Blackwell加速器的表现有任何迹象,它在高性能计算(HPC)领域的这一成就可能只是短暂的。


在GTC大会上揭晓的这些零部件不仅在需求上炙手可热,在温度上也是如此。其GB200超级芯片能够输出40千兆次(petaFLOPS)的4位精度峰值性能,同时消耗2700瓦的功率。难怪该芯片需要液体冷却也就不足为奇了。

这款产品极具吸引力,以至于亚马逊直接弃用英伟达的第一代超级芯片,转而采用Blackwell变体为其即将推出的Ceiba AI超级计算机提供动力。然而,尽管英伟达的Blackwell GPU在AI领域是明星产品,但在更传统的双精度(FP64)高性能计算(HPC)工作负载方面,其纸面数据看起来并不那么出色。

当调至FP64模式时,英伟达的GB200超级芯片只能处理约90万亿次(teraFLOPS)的运算,即每颗GPU约45万亿次。这意味着在处理FP64矩阵数学时,Blackwell比Hopper慢约32%。英伟达向我们保证,尽管最初未在规格表中列出,但该芯片实际上确实支持FP64矢量数学。并且,以45万亿次的速度,它比Hopper快大约32%。总的来说,与上一代相比,Blackwell的双精度性能喜忧参半。

这一切并没有改变Blackwell在高精度工作负载上无法与AMD的MI300 APU和GPU相匹敌的事实。去年12月发布的MI300部件,在双精度运算上比英伟达的Blackwell GPU快2.7到3.6倍,同时消耗的功率仅为后者的一小部分。



这意味着,如果想要在Top500的旗舰High Performance Linpack(HPL)基准测试上竞争,基于Blackwell的系统将需要比等效的MI300系统大得多。

话虽如此,迹象已经很明显:Blackwell显然并非为双精度设计。双精度性能并不是赚钱的地方。超级计算集群之所以被称为“超级”,是因为它们规模庞大。与用于训练AI模型的GPU集群相比,除了最大的超级计算机外,其他都显得微不足道。

英伟达并未忘记其根基,但HPC工作负载可能正在发生变化


尽管Blackwell不是FP64怪物,并不意味着英伟达正在将HPC市场拱手让给AMD。

英伟达加速数据中心部门总监Dion Harris告诉The Register:“我们非常关心科学计算。在内部讨论时,我们总是被提醒,我们许多最大的创新都来自于我们的科学计算社区的开发者。”

Harris认为,为了解决一些最大且最具挑战性的科学难题,我们不能再仅仅依靠双精度的蛮力来解决问题。这并不是说FP64性能被高估了。

Harris表示:“FP64很重要,也很有用,但我们认为这只是你需要去应对许多这些大规模挑战的工具之一。”

正如HPC社区常说的那样,高性能计算是一种工作负载类别,它并不自动意味着FP64,尤其是在今天。Top500排名中存在混合精度基准测试是有原因的;HPL并不能代表所有工作负载。

虽然某些模拟确实需要硅片能提供的尽可能多的浮点精度位,但并非所有模拟都需要。事实上,一些经典的HPC工作负载,如气象预报,已经被证明在单精度甚至半精度下运行时也非常有效。

欧洲中期天气预报中心和布里斯托大学多年来一直在探索低精度HPC的概念。

当然,还有将低精度AI与高精度模拟相结合以减少数据密集型工作负载计算负担的概念。

例如,你可以以高精度模拟一个复杂或瞬态现象,然后使用生成的数据来训练预期行为的模型。然后,这个模型可以用来快速处理大量数据,以低精度筛选出最有希望的数据点。

现在,并非所有HPC工作负载都能转化为这种方法,当然也不是没有相当大的努力。话说回来,Harris指出了一些显示出潜力的工作负载,包括材料科学,甚至是Cadence和Ansys等公司倡导的工业HPC应用类型。


软件问题的挑战


Nvidia当今的成功深深植根于从高性能计算(HPC)社区学到的教训中。很容易忘记,Nvidia并非一夜之间就成为了人工智能基础设施的巨头。就在不久前,它的主要工作重心还是设计能够更快地在屏幕上推送更多像素的图形卡。

Nvidia在数据中心领域的崛起,在很大程度上要归功于将这些图形卡用于大规模应用运行过程中所经历的艰难学习过程。

在2012年末,Nvidia的K20 GPU共计18,688块,推动了橡树岭国家实验室的Titan超级计算机在Top500排行榜上荣登榜首。正如我们的姊妹网站The Next Platform先前讨论的那样,这一成就的取得是一条漫长而曲折的道路。

彼时,GPU在超级计算领域仍是一个相对较新的概念,许多现有的代码并未针对GPU加速进行优化。Nvidia及其合作伙伴投入了大量精力来克服这些障碍并发掘优化方案。

哈里斯表示,混合精度模拟以及AI融入HPC负载中也面临着同样的情况。

展望未来,Nvidia的首要任务是利用其加速器解决尽可能广泛的问题,这些加速器的应用范围从驱动AI的模糊数学到传统上支撑模拟的高度精确浮点数学。至于公司在科学计算领域的持续相关性,似乎完全取决于它能多快地促进软件范式的采用,从而使AI与HPC的融合成为可能。®


(如有版权问题,请联系删除)


Nvidia 在科学计算领域的未来取决于人工智能和高性能计算的融合
点赞(0)

微信公众账号

微信扫一扫加关注

返回
顶部