▶ 原文作者:Nicholas Welch, Lily Ottinger, and Jordan Schneider
▶ 原文链接:https://www.chinatalk.media/p/chinas-weird-chip-surplus-explained
▶ 编译:超算百科
随着DeepSeek近期的突破性进展占据新闻头条,一个更深层次的问题依然存在:中国政府是否真的在推动实现通用人工智能(AGI)?如果是的话,它在计算资源分配中可能扮演了何种角色?
尽管DeepSeek的成就表明,获取超越对冲基金所能拼凑的计算能力或许并不是开发算法进步的直接瓶颈,但情况要复杂得多。西方实验室仍在竞相构建大规模的10万GPU级别的集群(更不用提“星际之门项目”),希望以规模化方式开发和部署AGI。而DeepSeek的首席执行官也多次表示,他面临计算资源的限制。
在本文中,我们探讨一个关键的悖论:中国为何能够同时存在计算资源过剩和短缺的现象?这又说明了中国是否准备好迈向开发和部署AGI的下一步?
自2024年初以来,有关中国闲置计算中心的报道不断涌现。9月,租赁Nvidia AI芯片在中国的价格比美国更低。乍一看,这似乎不合逻辑。由于美国限制了中国获取先进AI芯片的渠道,人们本应看到芯片短缺、所有可用芯片被充分利用以及云服务价格高企的局面
那么,到底发生了什么?
这一谜团也引起了中国记者的关注。在本文中,我们综合了两篇去年11月发表的长篇中文文章的观点:
- 吴俊宇为《财经杂志》撰写的《中国算力,过剩了吗?》
- 张帅为《钛媒体》撰写的《智算中心太“多”,大模型不够用了》
本文关键要点
2024年,中国在其计算能力中新增了至少100万块AI芯片(其中70%为Nvidia,30%为华为)——从理论上讲,这足以构建多个10万GPU规模的集群(这可能是与GPT-5或其他下一代西方模型竞争所需的规模)。
但为什么即使在当前的1万GPU规模集群时代,中国已经出现了过剩现象?
解释一:芯片部署不当,导致“高质量算力”短缺,而“低质量算力”过剩。
在人工智能热潮中,许多公司和地方政府急于购买GPU,认为仅仅拥有这些硬件就能确保利润。然而,由于其中许多人缺乏技术和市场专业知识,芯片最终被分散部署在地理位置偏远、质量较低的数据中心,要么难以使用,要么处于没有需求的地方。这种投机行为和资源管理不善导致了尽管整体算力短缺,却仍出现闲置计算中心的现象。
政府对此作出回应,不再批准新建数据中心的许可,除非它们位于八个指定枢纽之一。行业的整合和专业化使得类似混乱在2025年阻碍中国数据中心建设的可能性降低。
解释二:短期过剩,长期短缺。
到2024年,对基础模型训练的需求显著放缓。许多在2023年匆忙开发基础模型的参与者已停止训练新一代模型。尽管推理需求正在快速增长,但仍不足以完全吸收先前用于训练的过剩算力。
未来,推理需求的增长以及更大基础模型的开发预计将引发新的短缺。当前这种暂时性过剩的“过渡期”预计将在2025年中期结束。
接下来,我们将更详细地探讨中国媒体对以下问题的看法:
- 中国拥有多少AI芯片,又是谁在部署它们;
- “虚假”和“伪”1万GPU集群的出现,以及政府如何应对;
- 使用国产芯片的算力集群所面临的独特挑战;
- 从训练需求向推理需求的转变;
- 中国是否需要更多公共云计算,而非私有GPU集群;
- 在10万GPU规模时代,中国如何避免1万GPU规模时代的陷阱。
谁参与投资了智算中心?
首先,《财经》杂志概述了在中国实际构建算力集群的主体。主要分为三大类:
- 大型科技公司(阿里巴巴、腾讯、百度):预计2024年资本支出总额超过1300亿元人民币;
- 国有电信运营商(中国移动、中国电信):计划在2024年投资845亿元人民币;
- 地方政府和国有企业:统计数据不完整,但仅2024年1月至10月的投资就至少达到275亿元人民币。
大型科技公司
《财经》认为,资本支出(Capex)是衡量算力中心投资的良好指标,因为资本支出通常用于购买芯片和租赁土地。
2024年上半年,阿里巴巴、腾讯和百度的总资本支出达到504.4亿元人民币,同比增长121.6%,这是自2018年以来的最高增长率。如果这一增长趋势延续到下半年,那么2024年阿里巴巴、腾讯和百度的总资本支出将超过1300亿元人民币。
需要注意的是,华为和字节跳动也运营着重要的算力中心。但由于它们并非上市公司,未披露相关数据——这意味着“大型科技公司”这一类别中的总投资实际上高于这里呈现的数据。
预计在未来几个月内,DeepSeek将像OpenAI与微软合作那样,与其中一家公司达成合作。据钛媒体周一报道,字节跳动正“考虑与DeepSeek开展研究合作”。与字节跳动的合作可能为DeepSeek的研究人员带来巨大的突破,使其能够获得数量级更高的计算资源支持。

注:1. 阿里巴巴的自然年与其财年不一致,数据已根据自然年进行调整。
2. 科技公司的资本支出通常用于购买芯片和服务器,以及租赁土地建设数据中心;
因此,科技公司的资本支出与算力投资直接相关。| 来源:财经

注:1. 英伟达的自然年与财年不一致,数据已根据自然年进行调整。
2. 为便于统计,英伟达来自中国大陆、台湾及其他非美国地区的收入在图表中被合并为“其他”。
3. 英伟达财务报告统计中的中国大陆收入包含香港。
《财经》解释称,自2023年以来,国有电信运营商已将投资重点从5G转向算力中心投资。事实上,其投资规模与上述私营科技公司的差距并不大。
中国移动和中国电信均披露了2024年的算力投资计划,其中中国移动计划投资475亿元人民币,中国电信计划投资370亿元人民币。两者合计845亿元人民币,同比增长13%。中国联通未披露相关数据,因此本部分的数据也存在不完整性。

中国移动已公开发布了两份公开招标的采购公告。这两份采购文件显示,计划采购超过9200台华为昇腾AI服务器(一台昇腾AI服务器通常配备4到8个GPU,因此这大约相当于3.6万到7.4万个GPU)。中标者是国内知名的昇腾经销商,例如昆仑、华鲲振宇、宝德、百信、长江、鲲泰、湘江鲲鹏和四川虹信软件。一些文章指出,中国移动在2024年建设的计算基础设施中,约85%依赖国产芯片。
《财经》提醒,即使是这些国产芯片也依赖全球供应链:
华为的一位代表在今年9月向我们表示,尽管Nvidia的H20芯片目前仍在向中国销售,但必须为最坏的情况做好准备,因为供应链随时可能中断。华为的昇腾910系列芯片依赖韩国SK海力士提供的高带宽存储器(HBM)。目前,国内缺乏既有效又可靠的HBM替代品。在极端情况下,如果SK海力士的HBM供应链被切断,昇腾910芯片的生产能力也会受到影响。
这里的数据显示最为杂乱且不完整。《财经》的统计表明,截至2024年10月16日,各地城市已至少启动了30个与人工智能计算中心相关的招标项目,总投资额不少于275亿元人民币。
注:1. 统计时段为2024年1月至2024年10月16日,以上统计并不完整。
2. 投资金额包括软件、硬件及土建工程投资,例如服务器采购和智能计算中心建设。
基于上述投资数据,《财经》谨慎估计,2024年中国新增了:
- 70万块Nvidia H20芯片;
- 30万块国产华为芯片。
- 超过100万块Nvidia H20芯片;
- 55万块国产(如华为)芯片。
钛媒体估算,2024年上半年:
国内智算中心交付了17亿卡时(card-hours),其中5.6亿卡时被使用,利用率约为32%。其他数据显示,当前算力基础设施行业的平均机架利用率不足60%。
不同运营商的利用率存在差异:
通过云服务提供更多的算力资源可以有效提升智能算力的使用效率。阿里云和华为云已经向多个政府部门提交了这一建议。
公共云服务的合理利用率在40%-60%之间,政务云服务的利用率在25%-40%之间,但私有化计算资源的利用率通常不超过5%。
仅仅拥有GPU是不够的。在2023年和2024年中国建设1万GPU规模集群的过程中,出现了许多关于高效和合理分配的问题。
阿里云智能科技研究中心主任安琳指出,当前中国存在三种类型的“1万GPU集群”:
- 假的1万GPU集群(假万卡集群):这类集群的技术定义是公司确实拥有1万个AI加速器,但这些GPU分散在多个不同地点的数据中心。每个数据中心可能只有几百或几千块GPU,尽管总数可能超过1万块,但它们无法作为一个统一的集群运行。
- 伪1万GPU集群(伪万卡集群):这种集群将1万块AI加速卡部署在一个数据中心内。然而,虽然硬件设施集中在一个地方,但这些GPU并未被用作统一资源来训练单一的大模型。例如,一部分GPU可能用于训练模型A,另一部分则用于模型B。
- 真正的1万GPU集群(真万卡集群):在一个数据中心内集中部署超过1万块GPU,并通过先进的大规模资源调度技术实现互联,使其能够作为一个整体协同工作。这使得单一大模型可以同时利用全部1万块GPU进行训练。
- 高性能网络以处理巨大的数据流量;
- 高效的调度系统以最大化GPU利用率;
- 稳定的运行能力,能够应对频繁的硬件故障。
在人工智能热潮中,许多公司和地方政府急于购买GPU,认为仅凭拥有这些硬件就能在AI竞赛中占据优势。然而,其中许多人缺乏实际部署这些资源所需的技术专长,导致了“假的1万GPU集群”和“伪1万GPU集群”的出现。据钛媒体报道:
“目前,囤积NVIDIA显卡确实造成了一些算力浪费。许多买家缺乏构建智能计算中心所需的网络、调度和运营能力。一位业内技术专家直言不讳地表示:‘投机行为太多了。很多人其实并不在这个行业——他们以为囤积硬件就能赚钱。他们把这些GPU随便塞进某个数据中心,却没有解决稳定性、容错性等技术问题,结果造成了大量资源浪费。’”此外,一些中国的中小型云服务提供商可能提供价格低廉的服务,但其质量同样较低。
中国政府清楚地意识到2023年及2024年初因数据中心建设混乱所造成的资源浪费,并已采取措施,试图主动减缓新建数据中心的步伐。
据钛媒体报道,国家发展和改革委员会(NDRC)已停止批准新建数据中心的能源配额。不过,如果在去年我们文章中探讨过的中国“东数西算”项目的八大节点之一中使用华为芯片,则可能会获得例外批准。
《科技日报》(党媒《科技日报》头版文章)发表了一篇题为“智算中心建设不应盲目跟风”的文章,提出了以下观点:
“智算中心的运营和管理高度依赖专业技术人才和高效的管理团队。如果没有这些,算力中心可能无法按预期发挥作用,导致设备闲置和资源浪费。
因此,是否建设、何时建设以及在何处建设智算中心需要科学审慎的决策。“从众心理”或急于“跟风”的行为必须避免。总体原则应是基于明确且可持续的市场需求,因地制宜地建设智算中心,并适度超前规划。 ”
地方政府正在提高对承包商的要求:
“一些地方政府加强了对智算中心运营的要求。例如,山东德州一个价值约2亿元人民币的项目,在招标文件中明确表示将采用“设计、施工、采购与运营一体化模式”。该项目要求运营期不少于五年,并明确规定了项目验收和交付使用后每年的算力收入下限。
据云轴科技(ZStack)CTO王伟介绍,政府如今对智算中心提出了更高要求。过去,简单建成算力中心即可,但现在政府希望寻找有能力的运营商,或将建设与运营整合起来,以确保算力的高效利用。 ”其他地方政府则尝试将其闲置的计算资源交给云服务提供商:
“一些地方政府已开始协调,鼓励云服务提供商租赁其智算中心的闲置算力。“我们甚至不知道国内有这么多GPU。某种意义上,算力短缺与资源错配并存,”一位业内人士表示。 ”
此外,还有几项政府政策试图解决小型分散计算中心的资源浪费问题:
“《数据中心绿色低碳发展专项行动计划》对数据中心行业的区域布局、能源和水资源效率以及绿色电力的使用提出了严格而全面的要求。该计划还提出“全面取消对高耗能行业的地方优惠电价政策”。人们普遍认为,这一政策将加速淘汰落后产能,优化行业供给结构,推动健康发展。
工业和信息化部(MIIT)近期批准了六个城市的云边端一体化智能算力应用试点。这些试点旨在解决各地早期建设智算中心过程中出现的问题,尤其是由国有资金支持的小型分散算力中心的资源浪费问题。”
文章对国产芯片在闲置算力悖论中的作用传递了复杂的信息。
据《财经》报道,受闲置悖论影响最严重的集群是由国有移动运营商和地方政府运营的那些。部分原因在于它们使用的是国产芯片:
“国产AI芯片的情况更为特殊。目前,国产AI芯片仅达到了“能用”的水平,但距离“好用”仍有差距。盲目使用这些芯片只会导致算力浪费。企业需要通过各种技术手段进行适配,以最大化国产AI芯片的效率。 ”
钛媒体也描述了华为芯片面临的生态挑战,但引用业内人士的观点称,这些问题只是小问题,是不可避免的,并且最终将有助于华为生态的成熟:
“一方面,有观点认为,国内智算中心仍然依赖海外生态系统,需要三到五年的过渡期。在此期间,大规模快速建设此类中心很可能导致显著的浪费。专家指出,国内AI计算存在效率低下问题,他表示:“华为的运营能力非常强大。然而,在用户准备好采用国产GPU或华为解决方案之前,华为已经投入大量资源开发计算集群和智算中心。电信运营商虽然建起了数万GPU的集群,但硬件从可用到高效使用之间仍存在差距。随着更多国产芯片进入市场,这些低效问题可能会更加突出。”
另一方面,也有观点认为,海外限制只会愈加严格,国内AI计算生态必须更快成熟。与国家战略竞争相比,因建设过快引发的一些小问题是可接受的。“不过,总体而言,我对国产GPU持乐观态度,特别是在大模型时代的算力趋势变化下。过去,AI模型非常分散,Nvidia的CUDA生态系统之所以占据主导地位,是因为它需要支持如此多的不同模型。如今,随着大模型逐渐整合,主流框架变得更加统一。同时,Nvidia GPU价格昂贵,且获取其算力面临诸多挑战,因此会有更多人愿意尝试国产GPU,”专家补充道。”2023年,无数公司争相开发基础模型,推动了全国范围内众多算力中心的建设。
2023年出现了算力短缺,因为“百模大战”导致对训练算力的需求激增。美国出口管制进一步限制了供应,而企业的恐慌性采购加剧了供需失衡。一家领先科技公司的战略规划师在2023年8月提到,他们的公司在2023年以比Nvidia官方定价高出1.5至2倍的价格购买了市场上的A100/A800和H100/H800芯片,甚至从小型和中型分销商手中收购了散货囤积的芯片。然而,到2024年,许多公司已放弃开发基础模型的雄心,导致训练需求急剧下降。这表明资源正逐渐集中到行业中的少数主导者手中。根据钛媒体的报道,截至2024年10月,在中国正式获批的188个模型中(《ChinaTalk》编辑注:原文未提供数据来源,因此仅供参考):
- 超过30%的模型在获批后没有进一步进展;
- 仅有约10%的模型仍在积极进行训练;
- 近50%的模型将重点转向AI应用开发。
《财经》也认同这一观点,并指出:
需求结构正在发生变化。到2024年,随着企业囤积了越来越多的芯片,算力逐渐变得充足。模型训练的需求开始放缓,而应用推理的需求尚未爆发。此时,一个过渡性的“空档期”出现了。
目前,国内科技公司如阿里巴巴、字节跳动和百度的旗舰模型性能已接近OpenAI的GPT-4。由于GPT-4之后的下一代模型尚未真正出现,追赶GPT-4的任务已基本结束。因此,国内主要科技公司暂时放缓了模型训练的努力。
在2022年至2027年之间,训练算力的比例将下降至27.4%,而推理算力的比例将上升至72.6%。
所有这些都表明,最终可能会再次出现算力短缺。《财经》指出:
我们从多家技术云服务提供商和部分电信运营商处获悉,他们的共同判断是“短期充足,但长期不足”。短期内,现有的算力能够满足基本业务需求,并在局部出现过剩现象。然而,从长远来看,AI应用的落地将需要更多的算力支持。
这一“过渡期”的长短取决于两个因素:第一,下一代模型训练竞赛何时开始;第二,推理算力需求增长的速度,这取决于AI应用的采纳与普及速度。一些科技公司的技术专家预测,这一过渡期可能会持续到2025年中期,但总体而言不会持续太久。