3月17日凌晨,英伟达CEO黄仁勋在2026年GTC大会上发表主题演讲,本次演讲以“AI工厂”为核心,展示英伟达在计算图形、数据处理、系统架构、工业模拟及智能体操作系统等全方位的战略布局。
黄仁勋表示,推理拐点的到来使得英伟达GPU的需求节节攀升,英伟达也完成了从芯片供应商向纵向整合、横向开放的“AI 基础设施公司”的转型。数据中心正演变为Token生成工厂,在电力受限的未来,每一家公司都会关注其Token工厂的效能。
Token正在成为一种新型大宗商品,随着市场成熟,它将细分为不同层级。Token将根据智能水平、响应速度及上下文长度细分为不同的价值层级,将重新定义了全球算力的定价逻辑。所有企业必须关注 AI工厂在同等功耗下的吞吐量和Token生成速度,这一分析将直接决定你的收入。
黄仁勋还指出,每一家 SaaS公司都将转型为GaaS(Agentic-as-a-Service)公司,即智能体即服务公司。未来的软件公司都将是代理化的,它们既是Token的使用者,也是Token的制造商。
此外,在演讲中黄仁勋还宣布了多项技术与合作进展。硬件架构方面,专为AI Agent系统设计的Vera Rubin,该架构针对AI Agent的逻辑思考、内存访问和工具调用进行了深度优化。首个Vera Rubin机架已在Microsoft Azure上线,目前每周可生产数千套系统,每月可交付数吉瓦规模的AI工厂。
Vera CPU取得了巨大的成功,Vera系统的每瓦性能是目前全球其他CPU的两倍,且已进入量产。Vera CPU配合基于BlueField 4的 STX AI原生存储平台,解决了大规模推理时的KV缓存与数据吞吐瓶颈。全球首款CPO Spectrum-X交换机,也已投入全面生产。整合Groq团队推出的Groq LPU将于今年第三季度左右出货。
下一代Rubin Ultra将搭载即将流片的Rubin Ultra芯片,以及全新的LPU 35。LPU 35将首次整合NVIDIA的MVFP4计算结构,带来数倍的性能提升。
此外,黄仁勋还透露,再下一代架构Feynman,不仅拥有全新的 GPU,还集成了由NVIDIA与Groq团队合力打造的LPU 40。
AI工厂平台方面,推出基于Omniverse的DSX平台,让所有人都能在虚拟空间中见面,作为吉瓦级AI工厂的数字孪生蓝图,用于模拟和优化复杂数据中心的电力、热力和网络运营。
智能体与开源生态方面,英伟达与OpenClaw合作,发布NVIDIA NemoClaw,为企业提供具备安全护栏、隐私路由和策略执行能力的智能体工具包,核心集成Open Shell技术以保障敏感数据安全。
数据处理方面,IBM和英伟达正在通过利用NVIDIA GPU计算库加速IBM Watsonx.data SQL引擎,为AI时代重新定义数据处理。本地数据处理方面,戴尔与英伟达合作创建了Dell AI数据平台,集成了cuDF和cuVS。
物理AI与机器人领域,宣布比亚迪、现代、日产、吉利 加入 NVIDIA Robotaxi就绪平台;与Uber达成网络接入合作。联合迪士尼、西门子、ABB、库卡等公司,利用GR00T基础模型和Newton求解器推动具身智能落地。
以下是演讲中文全文,经数字开物编译整理:
黄仁勋:
欢迎来到GTC大会。我想提醒大家,这是一场纯粹的技术大会。看到这么多人在清晨早早排队入场,真的很令人振奋。
在GTC,我们将深入探讨技术与平台。NVIDIA目前拥有三大平台,除了大家熟知的CUDA X相关平台以及系统平台之外,我们现在推出了一个名为AI 工厂的全新平台。今天我们将全面介绍这些内容,而最核心的议题是生态系统。在开始之前,我要感谢赛前节目的主持人,Conviction的Sarah Guo、红杉资本的Alfred Lin以及Gavin Baker。Alfred是NVIDIA的首位风险投资家,Gavin则是我们的首位主要机构投资者。这三位专家对技术趋势有深刻的洞察,并在技术生态中拥有广泛的影响力。同时,也要感谢我亲手挑选的所有VIP全明星团队。
我还要感谢到场的所有公司。如大家所知,NVIDIA是一家平台公司。我们拥有技术、平台和极其丰富的生态系统。今天,代表全球100万亿美元产业规模的公司几乎都齐聚于此。本次盛会由450家公司赞助,包含1000场技术分会和2000名演讲者。会议内容将涵盖AI五层架构的每一个环节,从能源与基础设施到芯片、平台、模型,以及最终推动整个行业腾飞的关键,也就是所有的应用软件。
CUDA 20周年:装机量驱动的飞轮效应

这一切的起点都在这里。今年是CUDA问世20周年,我们在这项技术上已经深耕了二十年,始终致力于这一架构的研发。这是一项革命性的发明,SIMT(单指令多线程)允许编写标量代码并将其转化为多线程应用,这比SIMD编程要简单得多。最近我们引入了Tile架构,旨在帮助开发者更好地利用Tensor Cores以及对现代AI至关重要的数学结构。目前,CUDA拥有数以千计的工具、编译器、框架和库,在开源领域有数十万个公共项目,CUDA已经深度集成到了每一个生态系统中。
这张图表完整描述了NVIDIA的战略。大家从一开始就在看我演示这张幻灯片。最终,最难实现的目标就是底部的装机量。我们耗时20年,在全球范围内建立了数亿个运行CUDA的GPU和计算系统。我们存在于每一个云端,服务于每一家计算机公司,跨越几乎所有行业。庞大的装机量正是驱动飞轮加速运转的核心。
装机量吸引了开发者,他们随后创造出实现突破的新算法,例如深度学习。这些突破开辟了全新的市场,并围绕这些市场建立起由其他公司参与的新生态,进而创造了更大的装机量。这个飞轮正在以前所未有的速度旋转。NVIDIA各类库的下载量正在惊人地加速,其规模之大且增长速度之快前所未见。这个飞轮使计算平台能够支撑如此多的应用和新突破,更重要的是,它赋予了基础设施极其持久的使用寿命。原因显而易见,因为有海量的应用可以在NVIDIA CUDA上运行。我们支持AI生命周期的每一个阶段,处理每一个数据处理平台,并加速各种科学原理求解器。由于应用覆盖面极其广泛,一旦安装了NVIDIA GPU,其使用价值就会非常高。这也是为什么六年前出货的Ampere架构在云端的租赁价格依然在上涨的原因之一。这一切的根源在于高装机量、活跃的飞轮以及广泛的开发者覆盖。
当所有这些要素齐备,并且我们持续更新软件时,计算成本就会下降。加速计算极大地提升了应用速度。与此同时,随着我们在软件生命周期内持续进行培育和更新,用户不仅能获得初始的性能提升,还能随着时间的推移获得持续的成本降低。我们愿意支持世界上每一个这样的GPU,因为它们在架构上完全兼容。由于装机量巨大,我们发布的每一项新优化都能让数百万人受益。这种动态机制使NVIDIA架构不断扩大覆盖面,在加速增长的同时降低计算成本,最终鼓励新的增长。因此,CUDA始终处于核心地位。
我们的CUDA之旅实际上始于25年前的GeForce。我知道你们中很多人是伴随着GeForce长大的。这是NVIDIA最成功的营销活动,早在你们买不起显卡的时候,我们就开始吸引未来的客户了。你们的父母年复一年地支付费用,支持你们使用NVIDIA的产品,直到有一天你们成长为优秀的计算机科学家,并成为真正的开发者和客户。这就是GeForce奠定的基石。
25年前,我们发明了可编程着色器,这是一项让加速器实现可编程性的非凡发明。作为世界上第一个可编程加速器,像素着色器引导我们进行了更深层次的探索。五年后,我们发明了CUDA。这是我们做出的最大投资之一,当时公司几乎无法承受其成本,它消耗了公司绝大部分利润。但我们坚持将CUDA搭载在GeForce显卡上,带给每一台电脑。我们致力于创建这个平台,因为我们深信它的潜力。尽管初期困难重重,但在20年间历经13代产品的更迭,我们最终实现了CUDA的无处不在。
大约8年前,我们推出了RTX架构,针对现代计算机图形时代进行了彻底的重新设计。GeForce将CUDA带给了世界,从而让Alex Krizhevsky、Ilya Sutskever、Geoffrey Hinton和Andrew Ng等先驱发现GPU可以成为加速深度学习的利器。这开启了AI的大爆炸。10年前,我们决定融合可编程着色技术,并引入了两个新想法:硬件光线追踪以及AI革命。当时我们认为AI将彻底改变计算机图形学。正如GeForce将AI带给世界一样,AI现在将反过来彻底改变计算机图形的实现方式。今天,我将向大家展示图形技术的未来,我们称之为神经渲染。这是3D图形与AI的融合,也就是DLSS 5。
(DLSS 5视频演示)
这非常不可思议。计算机图形变得栩栩如生。我们融合了可控的3D图形、虚拟世界的真实数据,也就是结构化数据,并将这些来自虚拟世界和生成世界的结构化数据与生成式AI及概率计算相结合。其中一个是完全确定性的,另一个是概率性的,但两者结合却能产生高度逼真且完美可控的内容。这种融合结构化信息与生成式AI的概念将在一个又一个行业中重复出现。结构化数据是构建可靠AI的基石。
接下来的内容可能会让大家感到惊讶,这是我最喜欢的一张幻灯片。每当我问团队哪张幻灯片最好,大家反复选中的就是这一张。

这就是结构化数据。你们听说过SQL, Spark, Pandas, Velox这些非常庞大的平台,还有Snowflake, Databricks, Amazon EMR, Azure Fabric, Google Cloud BigQuery等。这些平台都在处理数据帧,它们就像承载着业务核心逻辑的巨型电子表格,是企业计算的真实基础。
现在,我们要让AI使用这些结构化数据,因此必须全力加速数据处理。过去,我们加速数据处理是为了更便宜、更频繁地运行公司业务。而在未来,这些数据结构将被AI使用,且其运行速度将远超人类。未来的AI Agent也将频繁使用这些结构化数据库。
此外还有非结构化数据。这类数据代表了世界的绝大部分,包括向量数据库、PDF、视频、语音等。每年产生的信息中约90%是非结构化数据。直到现在,这些数据对世界来说几乎是无用的,我们只是将其存入文件系统,却无法有效查询或搜索,因为非结构化数据没有简单的索引方式。你必须理解它的含义和目的。现在我们让AI来完成这项工作。正如AI能够解决多模态感知与理解一样,我们可以利用这项技术去阅读PDF并理解其含义,然后将其嵌入到一个可以搜索和查询的更大结构中。
NVIDIA创建了两个基础库。就像我们为3D图形创建了RTX一样,我们为结构化数据创建了cuDF,为向量存储、语义数据和非结构化数据创建了cuVS。这两个平台将成为未来最重要的支柱。我非常激动地看到它们在整个全球数据处理网络中得到应用。数据处理已经存在了很长时间,涉及众多公司和平台,我们花了很长时间才深度集成到这个生态系统中。
今天,我们将宣布多项进展。SQL的发明者IBM正在利用cuDF加速Watsonx.data。
(视频旁白)
60年前,IBM推出了System/360,开启了通用计算时代。随后SQL语言和数据仓库成为现代企业计算的基石。今天,IBM和NVIDIA正在通过利用NVIDIA GPU计算库加速IBM Watsonx.data SQL引擎,为AI时代重新定义数据处理。数据是赋予AI背景和意义的真实基础。AI需要快速访问海量数据集,而当今的CPU系统已无法跟上步伐。雀巢公司每天要做出数千个供应链决策,通过在NVIDIA GPU上运行加速的Watsonx.data,雀巢能以83%的更低成本将数据处理速度提高五倍。
NVIDIA不仅加速云端的数据处理,也加速本地的数据处理。如大家所知,Dell是全球领先的计算机系统制造商和存储提供商。他们与我们合作创建了Dell AI数据平台,集成了cuDF和cuVS。这是他们与NTT DATA合作的一个例子,实现了巨大的性能提升。


全球云服务商新协作
在Google Cloud方面,我们已经合作了很长时间。我们加速了Google的Vertex AI以及非常重要的BigQuery平台。以我们与Snapchat的合作为例,我们将他们的计算成本降低了近80%。当你加速数据处理和计算时,你会获得速度、规模以及最重要的成本优势。这原本被称为摩尔定律。摩尔定律的核心是性能每隔几年翻一番,这意味着在价格不变的情况下,你每年能获得两倍的性能,或者说计算成本在逐年降低。现在,摩尔定律已经力不从心了,我们需要一种新方法。加速计算允许我们实现这种巨大的飞跃。因为我们持续优化算法,NVIDIA本质上是一家算法公司。随着我们不断优化算法,并且凭借庞大的装机量,我们可以为每一个人持续降低计算成本并提高速度。
这种模式在不断重复。NVIDIA构建加速计算平台及其上层的各种库,如RTX, cuDF, cuVS等,然后我们将其集成到全球的云服务、原始设备制造商(OEM)以及其他平台中,共同触达全球市场。
以Google Cloud为例,我们加速了Vertex AI和BigQuery。我们对在JAX和XLA方面所做的工作感到自豪,同时我们在PyTorch上的表现也极其出色。NVIDIA是世界上唯一一个在PyTorch、JAX和XLA上都表现卓越的加速器平台。我们支持的开发者和客户,如Base Tens, CrowdStrikes, Puma, Salesforce等,我们将NVIDIA技术集成到他们的应用中,然后再落地到云端。我们与云服务提供商的关系本质上是我们为他们带来客户。我们将加速后的工作负载和客户引入云端,这也是为什么云服务提供商非常喜欢与我们合作。请对我们保持耐心,还有非常多的客户正等待我们去加速。

在AWS方面,我们也有着长期的合作。今年我最激动的一件事是我们将把OpenAI引入AWS。这将推动AWS云计算的巨大消耗,并扩大OpenAI的覆盖范围和计算能力。如大家所知,他们的算力需求正受到严重制约。在AWS平台上,我们加速了EMR, SageMaker和 Bedrock。NVIDIA已经深度集成到了AWS之中,他们是我们的第一个云合作伙伴。
Microsoft Azure。NVIDIA建造的第一台A100超级计算机就是为微软打造的,这台机器最初部署在Azure,直接促成了我们与OpenAI之间规模宏大且成功的合作伙伴关系。事实上,我们与Azure的合作源远流长,不仅为Azure云提供加速支持,现在还与他们的AI工厂展开深度协作。从Bing搜索到Azure区域建设,我们的合作至关重要。随着我们在全球范围内扩展AI,我们提供了一项名为机密计算的核心能力。在机密计算环境下,即使是系统运营商也无法窥探数据,无法触碰或查看模型。NVIDIA的GPU是全球首款支持该能力的处理器,它确保了OpenAI和Anthropic等公司极具价值的模型能在各种云端及不同区域安全部署。机密计算的意义不言而喻,Synopsys也是我们的重要伙伴,我们正在加速其所有的EDA和CAE工作流,并最终承载于Microsoft Azure之上。
我们曾是Oracle的首个AI客户。很多人误以为我们只是他们的供应商,尽管我们确实是,但我们首先是他们的AI客户。我很自豪能向Oracle首次阐释AI云的概念。自那以后,他们的业务实现了跨越式发展,也将一众合作伙伴带到了该平台,包括Cohere、Fireworks,以及著名的OpenAI。此外,我们与CoreWeave 也建立了深厚的伙伴关系。作为全球首个AI原生云公司,CoreWeave的诞生拥有纯粹的使命:在加速计算时代提供专业的GPU托管服务,并为AI云提供支撑。他们的客户群非常出色,增长势头极其强劲。
Palantir与Dell合作打造的平台同样令人振奋。我们三方联手,开创了一种全新的AI模式,即Palantir本体平台。这种平台可以部署在任何国家、任何物理隔离的区域,无论是本地机房还是项目现场,这意味着AI真正实现了无处不在。如果没有机密计算,如果没有我们构建端到端系统以及提供从向量或结构化数据处理到AI全栈加速的能力,这一切都将无从谈起。
这些例子展示了我们与全球云服务提供商之间特殊的协作关系。今天他们悉数到场,这种盛况令人激动。NVIDIA的核心优势在于我们是全球首家纵向整合但横向开放的公司。加速计算不仅是芯片或系统的问题,它还有一个经常被忽略的核心,即应用加速。传统的CPU在处理现代任务时已经增长乏力,要实现大幅增速和降本,唯一的出路是领域特定加速。因此,NVIDIA必须深耕每一个垂直行业,开发海量的算法库。我们必须透彻理解应用、领域及底层算法,并找到在数据中心、云端、本地、边缘或机器人等不同场景下的部署之道。
NVIDIA的强大源于其横向开放性。我们可以将技术集成到客户需要的任何平台,通过提供软件和库与客户技术深度融合,将加速计算带给每一个人。本届GTC是这种理念的最佳证明。以金融服务为例,它是本届大会参与人数比例最高的行业。在座的各位代表了NVIDIA生态系统的上下游,无论是拥有数十年甚至上百年历史的老牌企业,现在都成为了NVIDIA伙伴关系的一部分。去年你们都创下了业绩纪录,这仅仅是一个伟大时代的开端。
在加速计算领域,我们已经奠定了平台基础。为了激活这些平台,我们需要针对每个垂直行业开发领域特定库。自动驾驶领域的影响力令人惊叹,而金融服务的算法交易正从基于人类特征工程的经典机器学习转向利用超级计算机自动发现模式,这正是该行业的深度学习和Transformer时刻。医疗保健行业也迎来了ChatGPT时刻,我们正在探讨用于药物研发的AI物理或AI生物学、用于诊断支持的AI Agent以及物理AI机器人。针对这些不同的AI维度,NVIDIA提供了相应的专业平台。
工业领域正启动人类历史上规模最大的建设,众多AI工厂和芯片工厂的建设者今天也来到了现场。在媒体与游戏领域,实时AI将为翻译和直播提供支持。在量子计算领域,35家公司正与我们合作构建量子 GPU混合系统。零售业则利用NVIDIA构建AI Agent购物系统。在规模达50万亿美元的制造业机器人领域,NVIDIA已深耕十年,为机器人构建了三类基础计算机。我们与几乎所有机器人公司开展合作,现场展示了110台机器人。在电信领域,基站这一上一代基础设施正面临重塑,未来的基站将成为在边缘运行AI的基础设施平台,我们为此推出了Ariel或AI RAN平台。
NVIDIA的核心竞争力不仅在于计算平台,更在于CUDA X算法库。我们本质上是一家算法公司。我们让顶尖的计算机科学家针对各行各业的问题进行算法重构并转化为库。本届大会我们发布了约100个库,这些库是公司的皇冠上的明珠,是产生实际影响的关键。其中,cuDNN库引发了现代AI的大爆炸。
(视频旁白)
20年前,我们构建了CUDA统一架构。今天,一千个CUDA X库助力开发者在科研与工程领域取得突破。cuOpt用于决策优化,cuLitho赋能计算光刻,cuDSS处理稀疏求解,cuEquivariant实现几何感知神经网络,Ariel支持AI RAN,Warp模拟可微物理,Parabricks赋能基因组学。底层是算法,它们构成了美丽的基石。
(视频旁白)DGX演进历程
2016年,我们推出了首台深度学习计算机DGX-1。随后,Volta引入NVLink Switch,让16个GPU协同如一。随着Mellanox加入,数据中心演变为单一计算单元。2020年,DGX A100 SuperPOD融合了纵向扩展与横向扩展架构。Hopper架构凭借FP8 Transformer引擎开启了生成式AI时代。Blackwell进一步以NVLink 72重新定义了系统架构,72个GPU通过NVLink Switch连接,提供130 TB每秒的带宽。随着三条Scaling Law全力推进,以及现在的AI Agent系统,计算需求持续呈指数级增长。全新的Vera Rubin架构则为AI Agent的每个阶段而生,全面升级CPU、存储、网络与安全,提供3.6 EFLOPS算力,是加速AI Agent时代的超强引擎。
视频中展示的一切皆为模拟,源自物理求解器或物理AI机器人模型。这种将算法理解与计算平台相结合的能力,正是NVIDIA开启新机遇的关键。我们是一家纵向整合计算公司,同时向世界保持横向开放。
一万亿美元需求与Token工厂
除了Walmart、JPMorgan等行业巨头,还有大量AI原生公司。去年该行业经历了史无前例的飞跃,1500亿美元的风险投资涌入初创领域。每一家公司都需要海量的计算资源和Token,通过重塑计算创造了切实价值。正如PC、互联网和移动云革命一样,当前的计算平台转移也将孕育出一批影响深远的公司。我们正处于新平台转移的开始。
过去两年,ChatGPT开启了生成式AI时代,使软件具备了理解和生成独特内容的能力。其次,计算模式发生了根本性转变,从传统的基于检索转向基于生成。最后是推理AI,o1以及随后的o3。推理能力赋予了AI反思、规划和分解问题的能力。o1让生成式AI变得可靠且基于事实,由于增加了为了推理而生成的输出Token数量,这显著提升了计算需求。
随后推出的Claude Code,它是首个AI Agent模型。它能够读取文件、编写代码、编译、测试、评估并返回进行迭代。正如各位所知,Claude Code已经彻底改变了软件工程。在NVIDIA内部,100%的工程师都在结合使用或者同时使用Claude Code、Copilot 和Cursor。今天没有哪位软件工程师是不在AI Agent辅助下进行工作的。Claude Code带来了彻底的革新,标志着一个新的拐点。这是第一次,你不再询问AI是什么、在哪里、什么时候以及如何做,而是要求它去创建、执行和构建。你要求它使用工具,理解你的语境并读取文件。它能够以AI Agent的方式分解问题、进行推理并反思,从而解决问题并执行实际任务,完成极具生产力的工作。
从感知到生成,再到推理,现在的AI已经进化到能够实际承担生产性工作。在座的各位都清楚,过去两年对GPU的计算需求呈爆发式增长,现货价格飞涨,甚至一卡难求。尽管我们正以惊人的规模出货,需求依然在持续攀升。究其根源,是因为这个根本性的拐点,即AI终于能够从事生产性工作,这意味着推理拐点已经到来。AI现在必须思考,而思考的过程就是推理,AI必须行动,而行动的基础也是推理。无论是阅读、推理还是执行,AI的每一个动作、每一次生成Token,本质上都是推理。我们现在已经跨越了训练阶段,全面进入了推理阶段。
推理拐点的到来,伴随着Token需求量和计算量约一万倍的激增。结合过去两年的情况,工作的计算需求增长了一万倍,而使用量增长了约一百倍。我曾多次提到,我相信过去两年计算需求的实际感知增长达到了一百万倍。这是我们所有人的共识,是每一家创业公司的感受,也是OpenAI和Anthropic的共同体验。如果他们能获得更多产能来生成更多Token,收入就会增长,用户群会扩大,AI也会变得更先进、更聪明。我们现在正处于那个正向飞轮系统中,推理拐点已经正式降临。
去年此时,我曾提到基于当时的情况,我们预见Blackwell和Rubin 直至2026年的需求及订单规模约为5000亿美元。虽然5000亿美元是个天文数字,但由于各位去年都刷新了业绩记录,大家似乎对此并不感到惊讶。

现在我站在这里告诉大家,在GTC DC结束几个月后,也是去年GTC之后的一年,我预见截止到2027年的需求至少将达到1万亿美元。这非常合理,也正是我接下来要探讨的核心。事实上,由于计算需求会远高于这个数字,我们的供应仍将面临短缺。
我们在去年做了大量工作。2025年是NVIDIA的推理年。我们要确保自己不仅在训练和后训练阶段保持领先,在AI的每一个阶段都要表现卓越,以便客户在基础设施上的投资能够实现长期扩展。NVIDIA基础设施的服役寿命极长,这意味着分摊后的成本极低。使用周期越长,成本就越低。毫无疑问,NVIDIA系统是全球性价比最高的AI基础设施。
去年的核心是用于推理的AI,这驱动了当前的拐点。与此同时,我们非常高兴看到Anthropic加入了NVIDIA生态,Meta也选择了我们。作为一个整体,开源模型已经占据了全球AI计算量的三分之一,且已接近前沿水平,无处不在。NVIDIA是目前全球唯一能够运行所有AI领域、支持所有AI模型的平台,涵盖语言、生物、计算机图形、视觉、语音、蛋白质与化学、机器人等各个领域,无论是在边缘还是云端。NVIDIA的架构具有极高的通用性,在所有场景下都表现卓越。这使我们成为成本最低、最值得信赖的平台。投入一万亿美元建设基础设施是巨额决策,你必须确信这笔投资能被充分利用,具备高性能和高成本效益,并拥有长久的服役寿命。你可以完全放心地投资NVIDIA基础设施,我们已经在全球范围内证明了这一点。无论你选择在云端、本地数据中心还是任何国家构建,我们都能提供支持。我们现在是一个运行全领域AI的计算平台。
我们的业务表现也印证了这一点。虽然60%的业务来自前五大超大规模云服务商,但其中很大一部分是其内部AI消耗。这些关键工作负载,如推荐系统,正从传统的协同过滤转向深度学习和LLM。搜索业务同样在向深度学习转型。几乎所有这些超大规模工作负载都在向GPU擅长的领域迁移。此外,凭借与各大AI实验室的合作、对所有AI模型的加速,以及庞大的AI原生生态系统,无论我们的计算资源增长多快、规模多大,都会被迅速消耗。剩下的40%业务则广泛分布于区域云、主权云、企业、工业机器人及超级计算等各个领域。AI的多样性和广泛覆盖正是其生命力所在。这绝非单一应用的改良,而是一次根本性的计算平台转型。
我们的使命是持续推进技术。去年我们在Hopper架构处于巅峰时,毅然决定进行重塑。我们将8路NVLink的Hopper架构提升到了全新高度,彻底重新设计了系统,实现了计算系统的解构,并创造了NVLink 72。其构建、制造和编程方式都发生了翻天覆地的变化。Grace Blackwell和NVLink 72是一次巨大的豪赌,过程极其艰辛。在此,我要感谢所有合作伙伴的辛勤付出。
NVLink 72引入了MVFP4,这不只是精度级别的提升,更是一种全新的Tensor Core和计算单元。我们已证明,MVFP4推理在无精度损失的前提下,能极大提升性能和能效,同时它也可用于训练。结合Dynamo、TensorRT-LLM及一系列新算法,我们甚至构建了一台名为DGX Cloud的超级计算机,投入数十亿美元用于优化算子和软件栈,从而让推理变得高效可行。
最终,这些努力开花结果。过去常有人说推理很简单,但实际上推理极其困难,且由于直接驱动收入,它也极其重要。根据SemiAnalysis提供的有史以来最全面的AI推理测评结果,在左侧图表中可以看到每瓦Token数这一关键指标。由于数据中心和工厂本质上都受电力供应限制,一座1吉瓦的工厂受物理定律约束很难扩容,因此你必须在有限的电力内产出最多的Token,这才是工厂的核心产出。

横轴代表交互性,即推理速度。推理越快,响应就越快。更重要的是,推理速度越快,意味着你可以运行更大的模型、处理更长的上下文、进行更深入的思考。这个轴也代表了AI的智能程度。通常AI越聪明,思考时间越长,吞吐量就会降低。未来,全球的CEO都会像我这样审视业务,因为这是你的Token工厂,是你的AI工厂,更是你的收入来源。在电力受限的情况下,性能功耗比越高,Token产出就越多。
在成本方面,NVIDIA展现了世界顶尖的性能。令人震惊的是,在这一代产品中,我们实现了35倍的能效提升,而按照摩尔定律通常只能带来1.5倍的增长。当时没人相信我,直到分析师指出我保守估计了性能,实际提升甚至达到了50倍。这意味着我们的单位Token成本全球最低。我常说,如果架构选错了,即使设备免费,运行成本也无法接受。因为建造一座吉瓦级工厂需要投入约400亿美元,你必须配备最顶级的计算系统来确保最低的Token生产成本。凭借极端的协同设计,NVIDIA的Token成本已成为行业标杆,堪称Token之王。
我们坚持垂直整合技术,同时保持水平开放。我们将软件和技术集成到全球快速增长的推理服务商中,这些公司的业务在过去一年增长了百倍。对于这些Token工厂来说,生产效率和成本就是生命线。通过更新我们的软件和算法,在相同的硬件系统上,Token生成速度从平均每秒700个飙升至近5000个,提升了7倍。这就是极端协同设计的惊人力量。
数据中心正从文件存储中心演变为Token生成工厂。在电力受限的未来,每一家公司都会关注其Token工厂的效能。因为智能驱动着在座的每一个人,而未来的智能将由Token来增强。
(视频旁白)
STX机架是基于BlueField 4构建的AI原生存储。通过Spectrum-X共封装光学器件进行扩展,提高了能源效率和韧性。此外还有一个令人惊叹的新成员,即Groq 3 LPX机架。它与Vera Rubin紧密连接,Groq的LPU拥有海量片上SRAM(一种高性能片上存储器),作为已经非常快速的Vera Rubin的Token加速器。两者结合,每兆瓦吞吐量提升了35倍。全新的Vera Rubin平台包含七颗芯片、五台机架级计算机,是一台专为Agentic AI打造的革命性超级计算机。在短短10年内,计算量提升了4000万倍。
Vera Rubin,专为AI Agent打造的超级系统
早些年,每当我提到Hopper,我都会举起一颗芯片,现在回想起来,那种方式确实非常简单。而现在这是Vera Rubin。当我们谈论Vera Rubin时,我们想到的是整个系统,它是垂直集成的,完全由软件驱动,实现了端到端的扩展,并作为一个庞大的巨型系统进行了整体优化。

它专为AI Agent系统设计,原因显而易见,因为对于AI Agent来说,最重要的工作负载是其思考过程,即大语言模型。大语言模型将变得越来越庞大,生成Token的速度也会越来越快,从而实现更敏捷的思考,但这同时也意味着必须频繁访问内存。内存将承受极高的负荷。无论是KV缓存、结构化数据cuDF还是非结构化数据cuVS,都会对内存和存储系统产生巨大的压力,这正是我们重新发明存储系统的原因。
AI还会调用各种工具。人类对运行较慢的电脑容忍度较高,但AI要求工具的速度越快越好。这些工具也可以是云端的虚拟PC,而这些电脑必须具备极致的速度。我们打造了一款全新的CPU,专为极高的单线程性能和海量数据输出而设计,极度擅长数据处理且具有极高的能效比。它是全球唯一采用LPDDR5的数据中心CPU,其单线程性能和每瓦性能无可匹敌。我们构建这款CPU,是为了让它能与这些机架的其他组件协同工作,处理AI Agent的任务。
这就是Vera Rubin系统。请注意,与此前相比,它实现了100%的液冷。所有的线缆都消失了,过去需要两天才能完成的安装,现在仅需两小时。这令人难以置信,制造周期将因此大幅缩短。这台超级计算机采用45摄氏度的热水进行冷却,这减轻了数据中心的压力,将原本用于冷却的成本和能源释放出来供系统使用。
这是核心秘诀。我们是目前全球唯一一家构建出第六代扩展级交换系统的公司。这并非以太网或InfiniBand,而是第六代NVLink。要做好这一点极其困难,甚至仅仅是实现它都难如登天。我为团队感到无比自豪。NVLink实现了完全液冷。
这是全新的Groq系统,包含八颗Groq芯片。这是从未公开面世的LPU-30。世人见过的只是第一代,而这已经是第三代产品,目前正在量产中。稍后我会详细介绍。还有全球首款CPO Spectrum-X交换机,它也已投入全面生产。它采用了共封装光学技术(Co-packaged Optics),光学组件直接集成在芯片上,与硅片直接对接。电子直接转化为光子,并直接连接到芯片。我们与TSMC共同开发了这种名为CoWos的工艺技术。这是颠覆性的创新,NVIDIA的Spectrum-X已经全面投产。
Vera系统的每瓦性能是目前全球其他CPU的两倍,且已进入量产。我们从未想过会单独销售CPU,但现在我们正在独立销售大量的CPU,这已经成为我们价值数十亿美元的业务。我非常感谢我们的 CPU架构师,他们设计了这款革命性的CPU。此外,还有搭载Vera CPU的CX9以及基于BlueField 4 STX的新一代存储平台。
这些机架已经互联,这种NVLink机架非常沉重,由于线缆每年都在增加,它似乎一年比一年重。由于这种结构化布线系统在创建数据中心时非常高效,我们也将其引入了以太网。一个机架可容纳256个液冷节点,并配有性能惊人的连接器。
想看看Rubin Ultra吗?

这就是Rubin Ultra计算节点。不同于水平插入的Rubin,Rubin Ultra垂直安装在名为Kyber的全新机架中,使我们能在单个NVLink域中连接144个GPU。Kyber机架极其沉重,我就不试着搬动它了。计算节点垂直滑入Kyber机架的中板。这种设计最奇妙的地方在于,中板背面不再使用有距离限制的传统铜缆,而是采用全新的系统连接144个 GPU。这就是新的NVLink。它垂直放置并连接到背面的中板。前端是计算,后端是NVLink交换机,构成了一台巨型计算机。这就是Rubin Ultra。
正如我提到的,我们先把它降下去,我需要其余的幻灯片。谢谢你.Janine。这就是没有经过充分排练的后果。好了,你们慢慢操作,别受伤。
Token正在成为一种新型大宗商品,将分为不同层级

你们看到了这张幻灯片。只有在NVIDIA的演讲中,你才会看到去年的幻灯片再次出现。因为去年我告诉过你们一件至关重要的事,重要到值得重申,这可能是未来AI工厂最重要的图表。全球每一位CEO 都会深度研究它。虽然实际情况要复杂得多,但你必须关注AI工厂在同等功耗下的吞吐量和Token生成速度。这一分析将直接决定你的收入。你今年的投入将精准转化为明年的收益。
纵轴是吞吐量,横轴是Token速率。随着模型规模的扩大和上下文长度的增加,输入和输出的长度都在增长,这决定了未来Token的定价模式。Token正在成为一种新型大宗商品,随着市场成熟,它将细分为不同层级。高吞吐量、低速层级可作为免费层级。下一层级是中等层级,对应更大的模型、更快的速度以及更长的上下文。模型越聪明,上下文越相关,速度越高,AI的价值就越高。通过这些性能层级的提升,你可以逐步提高价格,例如从3美元、6美元到溢价服务的 45美元。甚至可能有一天,会出现针对关键科研任务的极速溢价服务,即使价格达到每百万Token 150美元也不是问题。
假设一名研究员每天使用5000万个Token,这并不是什么遥不可及的事情。这就是未来AI的发展方向。Hopper奠定了基础,而Grace Blackwell则带来了巨大飞跃。在主流业务层级,Grace Blackwell的吞吐量提升了35倍。这符合所有商业逻辑,即层级越高,质量越好,性能越强。
现在我们有了Vera Rubin。我们在每一个层级都提升了吞吐量,特别是在利润最高、价值最大的细分市场,性能提升了10倍。这极其困难,全靠NVLink 72、极低延迟以及极端的协同设计才得以实现。
从客户的角度来看,假设我有1吉瓦的电力,我可以自由分配。免费层级吸引客户,而高端层级服务于最有价值的客户。这种组合最终决定了你的收入。Blackwell能带来5倍的收益提升,Vera Rubin同样如此。你应该尽快升级到Vera Rubin,因为Token成本会下降,而吞吐量会上升。
Vera Rubin系统与Groq联动的解耦推理革命
但我们并不满足于此。优化高吞吐量与优化低延迟在架构上往往是互斥的。这就是我们整合Groq的原因。我们吸收了相关团队并获得了技术授权。在最高价值的层级,我们将性能进一步提升了35倍。NVLink 72在大多数工作负载下表现完美,但当你追求每秒1000个Token的超高速服务时,带宽会遇到瓶颈。这时Groq就能打破NVLink 72的极限。如果你的负载涉及大量代码编写或高价值工程计算,可以将25%的算力部署为Groq。
Groq的吸引力在于其确定性的数据流处理器架构。它采用静态编译和编译器调度,所有计算和数据流都在软件中预先安排,没有任何动态调度的干扰。该架构设计有海量的SRAM,专为推理负载设计。但Groq芯片在容量上存在局限,单颗Rubin芯片拥有288GB显存,这限制了Groq触及主流市场的能力。于是我们提出了一个好主意,采用名为解耦推理(Disaggregated Inference)的技术,并由Dynamo系统管理。我们将适合Rubin的工作负载保留,而将受带宽限制的解码生成任务卸载给Groq。解码中的Attention部分在Rubin上进行,而Token生成部分则在Groq上完成。两者通过低延迟以太网紧密协作。配合Dynamo操作系统,你将获得35倍的性能提升,以及前所未有的推理表现。
我想感谢三星为我们代工Groq LPU 30芯片,他们正全力以赴地生产。Groq LPU将于今年第三季度左右出货。Vera Rubin的采样进展非常顺利。Satya已经确认,首个Vera Rubin机架已在Microsoft Azure上线。我们的供应链目前每周可生产数千套系统,每月可交付数吉瓦规模的AI工厂。我们正在全面投产Vera Rubin机架和GB300机架。
Vera CPU取得了巨大的成功。其核心原因在于AI需要CPU来进行工具调用,而Vera CPU的设计完美切中了这一核心平衡点。对于下一代数据处理而言,Vera CPU是理想的选择。当Vera CPU加上BlueField以及CX9共同接入BlueField 4堆栈时,全球所有的存储行业都在这一系统上与我们汇合。这是因为他们洞察到了完全相同的趋势,存储系统将承受巨大的压力。过去由人类使用存储系统和SQL,现在将由AI来使用这些存储系统。它将存储cuDF加速存储、cuVS加速存储,以及至关重要的KV缓存。这就是Vera Rubin系统。
令人惊叹的是,在短短两年时间内,依托一座1吉瓦规模的工厂,使用我早些时候展示的数学模型,如果遵循摩尔定律,我们仅能在晶体管数量、算力和带宽上实现小幅增长。然而凭借这套全新的架构,我们将Token生成速率从200万提升到7亿,实现了350倍的增长。这就是极致协同设计的力量,我们在垂直方向上进行深度集成与优化,并在水平方向上向全行业开放,让所有人受益。
这是我们的路线图。Blackwell 及其配套的 Oberon 系统已经面世。在下一代Rubin架构中,我们也配备了Oberon系统。我们始终坚持向下兼容,确保用户可以在不改变既有架构的情况下平滑迁移。标准的Oberon机架系统依然可用,它支持铜缆纵向扩展,也可以通过光连接扩展至支持576个GPU的NVLink网络。关于NVIDIA走铜缆还是光纤纵向扩展路线的争论很多,我们的答案是两者兼顾。我们将提供带有Kyber交换机的NVLink 144方案,并通过Oberon系统实现NVLink 72加光纤连接,从而达到NVLink 576的规模。
下一代Rubin Ultra将搭载即将流片的Rubin Ultra芯片,以及全新的LPU 35。LPU 35将首次整合NVIDIA的MVFP4计算结构,带来数倍的性能提升。采用光连接扩展并使用Spectrum-X 6全球首款共封装光学(Co-packaged Optics)技术的Oberon NVLink 72系统目前已正式投入生产。
再下一代架构是Feynman。它不仅拥有全新的GPU,还集成了由NVIDIA与Groq团队合力打造的LPU 40。这款LPU将展现令人惊叹的技术突破。此外,我们还将推出代号为Rosa的全新CPU、支持CX10超级网卡的BlueField 5,以及同时支持铜缆和CPO纵向扩展的Kyber系统。很多人问我铜缆是否依然重要,光纤纵向或横向扩展是否是未来,答案都是肯定的。随着生态系统的扩张,我们需要在铜缆、光纤和CPO等各个维度上储备更强大的容量。这就是我们一直与各位合作,为这种级别的增长奠定基础的原因。Feynman架构将包含所有这些特性,每一年我们都会推出全新的架构。
NVIDIA DSX平台加速吉瓦级AI工厂建设
NVIDIA已从一家芯片公司蜕变为AI基础设施与计算公司。现在,我们正致力于构建完整的AI工厂。在这些庞大的工厂中浪费了太多的电力。我们希望确保这些AI工厂以最佳方式设计并组合在一起。过去,大多数技术供应商直到进入数据中心阶段才首次碰头,但在构建超级复杂的系统时,这种情况不能再发生。因此我们创建了Omniverse以及Omniverse DSX平台,让我们所有人都能在虚拟空间中见面,并在系统内部虚拟地设计这些吉瓦级AI工厂。我们拥有针对机架、机械、热力、电力及网络的模拟系统。这些模拟系统集成了生态系统合作伙伴提供的顶尖工具。我们还将系统与电网相连进行运营,通过信息交互来动态调节电网和数据中心的功率,从而节省能源。在数据中心内部,我们利用Max-Q技术跨冷却和电力等各环节动态调整系统,确保不浪费任何电力,并以最优速率输出海量的Token吞吐量。这一方案能带来两倍的性能提升,在这样的规模下,两倍的增益是巨大的。我们称之为NVIDIA DSX平台,它包含硬件层、库层以及生态系统层。
(视频旁白)
史上最大规模的基础设施建设浪潮正在进行。全球都在竞相建造芯片、系统和AI工厂。每延迟一个月都会造成数十亿美元的收入损失。AI工厂的收入等于每瓦生成的Token,因此在电力受限的情况下,每一瓦未使用的电力都意味着收入损失。NVIDIA DSX是一个基于Omniverse的数字孪生蓝图,专为AI工厂的Token吞吐量最大化、高韧性和能效优化而设计。开发者通过多个API进行连接,DSX Sim用于物理、电力、热力和网络模拟,DSX Exchange用于AI工厂运营数据,DSX Flex用于电网间安全动态的功率管理,而DSX Max-Q用于动态最大化Token吞吐量。该过程始于NVIDIA和设备制造商提供的SimReady资产,由PTC Windchill进行管理。随后,在达索系统的3DEXPERIENCE中进行基于模型的系统工程设计。Jacobs将数据带入其定制的Omniverse应用中以最终确定设计。系统使用领先的模拟工具进行测试,包括用于外部热力模拟的西门子STAR-CCM+、用于内部模拟的Cadence Reality、用于电力模拟的ETAP,以及网络模拟器DSX Air,最后通过Procore进行虚拟调试以确保缩短建设时间。当站点上线时,数字孪生将转变为运营商。AI Agent与DSX Max-Q协作,动态编排基础设施。Védra的智能体负责监督冷却和电气系统并向Max-Q发送信号,从而持续优化计算吞吐量和能源效率。Emerald AI Agent则解释实时电网需求和压力信号并动态调整功率。通过DSX,NVIDIA及其合作伙伴正加速在全球建设高韧性、高效率和高吞吐量的AI基础设施。
这确实不可思议。Omniverse的设计初衷是承载世界的数字孪生,并容纳各种规模的模型。感谢这些新加入的合作伙伴,几年前我们还不认识其中的许多公司,而现在我们正紧密协作,共同构建人类历史上规模最大的计算机。NVIDIA DSX就是我们全新的AI工厂平台。
NVIDIA正在走向太空。Thor芯片已通过抗辐射认证并应用于卫星成像。未来,我们还将在太空建立数据中心。虽然太空中没有对流散热,只能依靠热辐射,但我们的工程师正致力于攻克这些挑战。
智能体元年,每一家SaaS公司都将转型为GaaS公司
Peter Steinberg编写了一个名为OpenClaw的软件。OpenClaw是人类历史上最受欢迎的开源项目,在短短几周内,它的影响力就超过了Linux过去三十年的成就。它的重要性在于,你只需在控制台输入简单指令,它就会自动构建一个AI Agent,随后你可以指派它完成任何任务。

(OpenClaw视频演示)
Andrej Karpathy发布的这项研究引起了轰动。你给AI Agent布置一个任务,它会在你睡觉时自动运行上百个实验,并保留有效方案。无论是帮助60岁的老人通过蓝牙连接机器酿造啤酒,还是自动化运营整个订购网站,OpenClaw正在改变一切。目前在深圳,数百人在排队购买通过 OpenClaw自动化运营生产的龙虾。甚至已经出现了Claw-Con开发者大会。
不可思议,OpenClaw到底是什么?它是一个智能体系统(Agentic System),通过调用并连接大语言模型来运作。它拥有管理的资源,可以访问工具、文件系统和大语言模型。它具备调度、执行定时任务以及将提示词分解为逐步任务的能力。它可以派生并调用其他子智能体。它拥有全模态的输入输出,你可以通过手势或任何方式与之交互,它会通过短信或邮件向你反馈。从这些特征来看,它本质上是一个操作系统。OpenClaw开源了智能体计算机的操作系统。
这与Windows开启个人电脑时代的逻辑完全一致。现在,OpenClaw让个人AI成为可能。这种采用率说明了一切,现在每家软件和技术公司的CEO都在思考自己的OpenClaw策略。正如过去我们需要制定Linux策略、开启互联网的HTTP/HTML策略以及让移动云成为可能的Kubernetes策略一样,当今世界的每家公司都需要有自己的OpenClaw策略,即智能体系统策略。这就是新时代的计算机。
这是OpenClaw出现之前的企业IT模式。之所以称为数据中心,是因为这些建筑存放着人的文件和企业的结构化数据。数据通过带有记录系统和工作流的软件,转化为人类员工使用的工具。那是旧的IT行业,由软件公司创建工具,咨询顾问负责集成。这些工具对于治理、安全和合规性至关重要。而在OpenClaw开启智能体时代后,一切都发生了变化。
每一家SaaS公司都将转型为GaaS(Agentic-as-a-Service)公司,即智能体即服务公司。OpenClaw在准确的时间为行业提供了所需的开源堆栈。但有一个关键问题,企业网络中的智能体系统具备访问敏感信息、执行代码以及与外部通信的权限。这种风险显然不能被忽视。因此我们与Peter合作,召集了顶尖的安全和计算专家,使OpenClaw具备了企业级安全和隐私保护能力。我们将其称为NVIDIA NemoClaw,它包含了所有智能体AI工具包。其中最重要的Open Shell技术现已集成到OpenClaw中。

通过NemoClaw参考堆栈,你可以将其连接到全球所有SaaS公司的策略引擎。NemoClaw能够执行这些策略,它拥有网络护栏和隐私路由,因此,我们可以保护并防止智能体在公司内部随意执行并安全地完成工作。
我们还在智能体系统中添加了几项功能。对于你自己的Claw,即定制Claw,最重要的事情之一是你可以拥有自己的定制模型。我们推出了NVIDIA开放模型计划。我们目前处于AI模型每个领域的尖端,包括Nemotron推理模型、Cosmos世界基础模型、Groot通用机器人基础模型、Alp-Ignite自动驾驶模型、BioNemo数字生物学模型以及用于AI物理的Earth-2模型。我们不仅发布模型,还分享训练数据和框架,帮助开发者为特定的专业领域定制AI。
我们的模型对各位非常有价值。首先,它们在排行榜上名列前茅,拥有世界领先的水平。更重要的是,我们绝不会放弃对这些模型的研发,而是会投入每一天的努力。Nemotron 3之后会有Nemotron 4,Cosmos 1之后会有Cosmos 2,还有GR00T以及GR00T第二代。我们将持续推动每一个模型的进化。我们坚持垂直整合与水平开放,旨在让每个人都能加入AI革命。
无论是在研究、语音、世界模型、通用机器人、自动驾驶还是逻辑推理领域,我们的模型都位居榜首。在OpenClaw框架下的Nemotron 3表现尤为突出,看看前三名,它们是目前世界上最顶尖的三个模型。我们正处于技术的最前沿。
我们致力于打造基础模型,以便各位能够进行微调和后训练,将其转化为真正符合需求的智能形态。Nemotron 3 Ultra将成为世界上最优秀的底座模型,这有助于各国构建其主权AI。我们正在与众多企业展开合作。今天,我宣布成立Nemotron联盟,共同打造更加惊人的Nemotron 4。这个联盟汇聚了许多杰出的公司,包括图像领域的Black Forest Labs,我们内部深度使用的著名编程工具Cursor,拥有十亿级下载量、用于创建自定义代理的LangChain,以及Mistral 等。
Perplexity同样加入了我们,它非常出色,是一个多模态AI Agent系统。此外还有Reflection、印度的Sarvam、Thinking Machine以及 Mira Murati的实验室。感谢这些伙伴的加入。
全球每一家企业和软件公司都需要AI Agent策略。大家需要制定自己的OpenClaw策略。这一点已得到业界共识。合作伙伴们正与我们合作,整合NemoClaw参考设计、NVIDIA代理AI工具包以及我们所有的开源模型。这是一个企业IT复兴的时刻。这个行业将从2万亿美元的规模增长至数万亿级,它不仅提供工具,更提供在特定领域具备专家能力的AI Agent供大家租用。
我可以预见,未来公司的每一位工程师都会拥有年度Token预算。在几十万美元的基本薪资之外,我可能会额外提供价值薪资一半的Token,让他们的生产力放大10倍。这已成为硅谷的招聘卖点:你的职位配发多少Token?原因非常明确,拥有Token使用权的工程师生产力更高。这些Token将由我们合作建设的AI工厂生产。
未来的软件公司都将是代理化的,它们既是Token的使用者,也是Token的制造商。OpenClaw的重要性堪比HTML或Linux。我们现在拥有了一个世界级、开源的代理框架,任何人都可以基于此构建自己的策略。我们打造的NemoClaw参考设计不仅经过极致优化,而且性能卓越,安全可靠。
谈到Agents,它们具备感知、推理和行动的能力。目前我提到的多是数字代理(digital agents),它们在数字世界中编写软件,进行推理。但长期以来,我们也在研发物理具身代理,即机器人。它们需要的是物理AI。目前已有110种机器人接入我们的平台。几乎每一家机器人公司都在与NVIDIA合作。我们提供训练、合成数据生成与仿真,以及机器人内置的计算平台。我们拥有完整的软件栈和AI模型支持,并与Siemens、Cadence等全球生态伙伴深度整合。今天我们将宣布更多合作伙伴。
自动驾驶与人形机器人的ChatGPT时刻
在自动驾驶领域,我们的ChatGPT时刻已经到来。我们已经证明了可靠的自主驾驶技术。今天,我们宣布BYD、现代、日产和吉利成为NVIDIA Robotaxi就绪平台的四个新合作伙伴。加上之前的Mercedes、Toyota和GM,合作伙伴的年产量达到1800万辆。未来,支持自动驾驶出租车的车辆规模将极其惊人。此外,我们还与Uber达成合作,将在多个城市把这些车辆接入其网络。
在工业领域,我们与ABB、库卡等公司合作,将物理AI模型整合到仿真系统中,以便将机器人部署到全球的生产线上。此外还有Caterpillar和T-Mobile的加入。未来的基站将演变为NVIDIA Ariel AI RAN,成为具备推理能力的机器人基站,通过智能调整波束赋形(Beamforming)来实现节能增效。
会场里有很多人形机器人,我最喜欢的是Disney研发的那台。
(视频内容展示)
开发者正利用算力弥补物理AI的数据差距。Paratus AI在NVIDIA Isaac Lab中训练手术机器人助手,利用NVIDIA Cosmos世界模型扩展数据。Skilled AI利用Isaac Lab和Cosmos为其大脑生成后训练数据,通过强化学习在数千种变化中强化模型。Foxconn在Isaac Lab中微调GR00T模型。Disney研究院在Newton和Isaac Lab中使用Camino物理仿真器来训练其机器人策略。
(Jensen与Olaf互动)

Olaf能够学会走路归功于我们与DeepMind共同开发的Newton求解器,它运行在NVIDIA Warp之上,使机器人能够适应物理世界。你能想象吗?未来的迪士尼乐园里,这些角色机器人四处走动。虽然Olaf比我想象中要矮一些,但他非常聪明。
通常我会通过总结演讲重点来结束:推理拐点、AI工厂、OpenClaw代理革命,以及物理AI与机器人。但今天,让我们用一点特别的方式收尾。
(歌曲部分)
演讲渐近尾声,Jensen描绘了前路。
AI工厂正在苏醒,AI Agent学习驾驶。
从开源模型到具身智能,万物皆可重构。
从卷积网络到OpenClaw,算力已翻千万倍。
需求无止境,唯有更强性能。
过去我们谈论训练,如今推理主宰世界。
Vera降本增效,Blackwell奏响华章。
NVIDIA稳坐推理之王。
AI工厂曾经耗时多年,难以扩展。
如今DSX与Dynamo将电力转化为收益。
代理不再等待,而是自主行动。
Nemo Claws严守安全防线,开源精神永存。
这不是电影,而是现实的开启。
自动驾驶与具身机器人,迎来ChatGPT时刻。
为物理AI举起双手,我们不再沉溺于过去,而是为AI构建未来。
每一年的架构革新,只为满足更多的Token需求。
五层架构蛋糕,邀全球共尝。
开源引领道路,算力生成新知。
机器人遵循Scaling Law完美进化。
未来已至,欢迎来到GTC。
祝大家GTC愉快,谢谢大家。
(如有版权问题,请联系删除)
