▶ 原文标题:《The cost of compute: A $7 trillion race to scale data centers》
▶ 原文作者:麦肯锡
▶ 原文链接:https://www.mckinsey.com/industries/technology-media-and-telecommunications/our-insights/the-cost-of-compute-a-7-trillion-dollar-race-to-scale-data-centers#
AI算力需求爆发正重塑数据中心投资版图:2025年全球资本支出将超万亿美元,微软、亚马逊等巨头单年砸下数百亿美元建智算中心,中国“东数西算”叠加新能源优势,年内智算项目已超300个,投资规模近千亿元。液冷、核能、模块化与REITs并行,绿色、高密度、可扩展成为资本追逐的新标杆,数据中心正从成本中心升级为AI时代的核心资产。
人工智能正在推动对计算能力的高需求,促使企业向基础设施投入数十亿美元。然而,由于未来需求存在不确定性,投资者需要做出谨慎的决策。
在人工智能蓬勃发展的浪潮中,计算能力正成为本世纪最关键的资源之一。在全球各地的数据中心中,数百万台服务器日夜不停地运行,以处理支撑人工智能的基础模型和机器学习应用。这些数据中心所需的硬件、处理器、内存、存储和能源统称为计算能力,而对计算能力的需求似乎永无止境。
我们的研究表明,到2030年,全球数据中心预计将需要6.7万亿美元来跟上对计算能力的需求。配备用于处理人工智能工作负载的数据中心预计将需要5.2万亿美元的资本支出,而用于支持传统IT应用的数据中心预计将需要1.5万亿美元的资本支出(见侧栏“非人工智能工作负载的情况如何?”)。总体而言,到2030年需要的资本支出总额接近7万亿美元——无论从哪个角度来看,这都是一个惊人的数字。
为了满足这一需求,计算能力价值链上的公司必须在快速部署资本和谨慎行事之间取得平衡。为了提高其数据中心投资获得良好回报的可能性,公司可以分阶段开展项目,并在每一步评估投资回报率。然而,未来需求的不确定性使得精确的投资计算变得困难。
计算能力价值链是复杂的——从建造数据中心的房地产开发商,到为其提供电力的公用事业公司,再到生产芯片的半导体企业,以及托管数万亿太字节数据的云服务超大规模提供商。这一价值链上的大佬们都知道,他们必须投资计算能力以加速人工智能的增长。然而,他们面临的挑战是艰巨的:决定将多少资本分配到哪些项目上,同时仍然不确定人工智能未来的增长和发展将如何影响计算能力的需求。超大规模提供商是否会继续承担成本负担,还是企业、政府和金融机构会引入新的融资模式?随着人工智能使用的持续激增,对数据中心的需求会上升,还是会随着技术进步使人工智能对计算能力的依赖减少而下降?
有一点是确定的:利害关系重大。在数据中心基础设施上过度投资可能会导致资产闲置,而投资不足则意味着落后。本文基于麦肯锡的研究和分析,为计算能力价值链上的公司提供了未来五年的投资格局概览。尽管这些预测背后有严谨的研究,但我们承认人工智能是一个迅速发展的领域。我们的分析基于深入研究的假设,但仍有一些关键的不确定性目前还无法量化。
预测计算能力需求曲线
为了决定在计算能力上投资多少,公司首先需要准确预测未来的需求——鉴于人工智能行业变化如此之快,这是一项具有挑战性的任务。我们的研究表明,到2030年,全球对数据中心容量的需求可能会接近三倍,其中约70%的需求来自人工智能工作负载。然而,这一预测取决于两个关键的不确定性:
人工智能用例。人工智能的价值在于应用层面——企业如何将人工智能转化为真正的商业影响。如果企业未能从人工智能中创造有意义的价值,对计算能力的需求可能会低于预期。相反,变革性的人工智能应用可能会推动比当前预测更大的需求。
快速创新周期和颠覆。人工智能技术的持续进步,例如处理器、大语言模型(LLM)架构和功耗,可能会显著提高效率。例如,2025年2月,中国的大语言模型参与者DeepSeek报告称,其V3模型在训练和推理效率方面取得了显著改进,与GPT-4o相比,训练成本大幅降低了约18倍,推理成本降低了约36倍。然而,初步分析表明,这些效率提升可能会被更广泛的人工智能市场中增加的实验和训练所抵消。因此,从长期来看,效率提升可能不会显著影响整体计算能力需求。
仅人工智能需求
就需要5.2万亿美元的投资
我们计算出,到2030年,计算能力价值链上的公司需要向数据中心投资5.2万亿美元,以满足全球仅人工智能的需求。这一数字基于广泛的分析和关键假设,包括到2030年预计需要156吉瓦(GW)与人工智能相关的数据中心容量,2025年至2030年期间将增加125吉瓦。这5.2万亿美元的数字反映了满足人工智能计算能力不断增长的需求所需的巨额投资规模——这一巨大的资本投入凸显了未来面临的挑战的规模。
在对未来计算能力需求存在不确定性的情况下,我们创建了三种投资情景,从需求受限到加速增长。在我们的三种情景中的第一种中,增长显著加快,2025年至2030年期间将增加205吉瓦与人工智能相关的数据中心容量。这将需要估计7.9万亿美元的资本支出。第二种情景是我们在这篇文章中使用的:需求增长,但不如第一种情景那么快,预计的资本支出为5.2万亿美元。在我们的第三种情景中,需求更为受限,未来五年内增加78吉瓦,总资本支出为3.7万亿美元。
全球数据中心总资本支出由人工智能驱动,按类别和情景划分,2025-2030年预测,万亿美元
在任何一种情景下,这些投资数字都是惊人的。它们是由几个因素推动的:
生成式人工智能的广泛采用。支撑生成式人工智能的基础模型需要大量的计算能力资源来训练和运行。训练和推理工作负载都在推动基础设施的增长,预计到2030年,推理将成为主要的工作负载。
企业整合。在各行业(从汽车到金融服务)部署人工智能驱动的应用程序需要大量的云计算能力。随着用例的增加,人工智能应用将变得更加复杂,整合针对特定领域的专业基础模型。
竞争性基础设施竞赛。超大规模提供商和企业正在竞相建立专有的人工智能能力以获得竞争优势,这推动了越来越多的数据中心的建设。这些“建设者”(下文将进一步描述)希望通过实现规模经济、优化数据中心技术栈,并最终降低计算成本来获得竞争优势。
地缘政治优先事项。各国政府正在大力投资人工智能基础设施,以增强安全、经济领导力和技术独立性。
投资流向何处?
为了使我们对人工智能基础设施的5.2万亿美元投资预测更具说服力,重要的是要注意,我们的分析可能低估了所需的总资本投资,因为我们的估计仅量化了直接为人工智能增长提供基础设施和基础技术所需的资本投资的五种计算能力投资者原型中的三种——建设者、赋能者和技术开发者及设计师。大约15%(0.8万亿美元)的投资将流向建设者,用于土地、材料和场地开发。另有25%(1.3万亿美元)将分配给赋能者,用于发电和输电、冷却和电气设备。最大的投资份额,即60%(3.1万亿美元),将流向技术开发者和设计师,他们为数据中心生产芯片和计算硬件。另外两种投资者原型,运营商(如超大规模提供商和共址提供商)和人工智能架构师(他们构建人工智能模型和应用)也投资于计算能力,特别是在人工智能驱动的自动化和数据中心软件等领域。然而,量化他们的计算能力投资是困难的,因为这与他们更广泛的研发支出重叠。
五种数据中心投资者类型
尽管有这些预计的资本需求,我们的研究表明,目前的投资水平落后于需求。在与数十位客户的访谈中,我们发现首席执行官们不愿以最大水平投资计算能力,因为他们对未来需求的可见性有限。对人工智能采用是否会继续快速上升的不确定性,以及基础设施项目有很长的前置时间,使得企业难以做出明智的投资决策。许多公司不确定今天对人工智能基础设施的大规模资本支出是否会在未来产生可衡量的投资回报率。那么,企业领导者如何能够自信地推进他们的投资呢?首先,他们可以确定自己的组织在计算能力生态系统中的位置。
人工智能基础设施投资者的五种原型
在为人工智能计算能力提供资金的数万亿美元竞赛中,投资者是谁?我们已经确定了五种关键的投资者原型,每一种都在应对不同的挑战和机遇,并详细说明了他们在未来五年内可能花费多少。
1.建设者
他们是:房地产开发商、设计公司和建筑公司,正在扩大数据中心的容量。
人工智能工作负载的资本支出:8000亿美元。
非人工智能工作负载的资本支出:1000亿美元。
关键投资:土地和材料采购、熟练劳动力、场地开发。
机会。优化选址的建设者可以确保获得优质地点,缩短建设时间线,并尽早整合运营反馈,从而确保更快的部署和更高的数据中心效率。
挑战。劳动力短缺可能会影响技术人员和建筑工人的可用性,而地点限制可能会限制选址选项。与此同时,机架功率密度的增加可能会带来空间和冷却方面的挑战。
解决方案。富有远见的建设者可以找到解决核心挑战的方法,为其投资决策增添确定性。例如,一些建设者通过采用模块化设计来解决劳动力短缺问题,这种设计简化了建设过程,例如在场外建造大型组件,然后在现场组装。
2.赋能者
他们是谁:公用事业公司、能源供应商、冷却/电气设备制造商和电信运营商,他们正在为人工智能数据中心建设电力和连接基础设施。
人工智能工作负载的资本支出: 1.3万亿美元。
非人工智能工作负载的资本支出: 2000亿美元。
关键投资:发电(发电厂、输电线路)、冷却解决方案(空气冷却、直接芯片液体冷却、浸没式冷却)、电气基础设施(变压器、发电机)、网络连接(光纤、电缆)。
机会。能够扩展电力基础设施并在可持续能源解决方案中进行创新的赋能者,将最有可能从超大规模提供商不断增长的能源需求中受益。
挑战。由于现有电网的薄弱环节,为数据中心供电可能会停滞不前,而解决因处理器密度增加带来的热量管理挑战仍然是一个障碍。赋能者还面临着清洁能源转型的要求和漫长的电网连接审批流程。
解决方案。随着超过1万亿美元的投资岌岌可危,赋能者正在寻找方法提供可靠的电力,同时推动投资回报率。他们正在对新兴发电技术进行大量投资,包括核能、地热能、碳捕获与储存以及长期能源储存。他们还在加倍努力,尽快将尽可能多的产能投入运营,无论是可再生能源还是传统能源基础设施,如天然气和化石燃料。现在发生变化的是需求的巨大规模,这带来了以前所未有的速度建设电力产能的新紧迫性。随着需求——尤其是对清洁能源的需求——的激增,预计发电量将迅速增长,可再生能源预计到2030年将占能源结构的45%到50%,而今天仅占约三分之一。
3.技术开发者和设计师
他们是谁:为数据中心生产芯片和计算硬件的半导体公司和IT供应商。
人工智能工作负载的资本支出:3.1万亿美元。
非人工智能工作负载的资本支出:1.1万亿美元。
关键投资:图形处理单元(GPU)、中央处理单元(CPU)、内存、服务器和机架硬件。
机会。投资于可扩展、未来就绪且需求明确的技术的技术开发者和设计师,可能会在人工智能计算领域获得竞争优势。
挑战。少数几家半导体公司控制着市场供应,抑制了竞争。产能建设仍不足以满足当前需求,而与此同时,人工智能模型训练方法和工作负载的变化使得预测特定芯片的未来需求变得困难。
解决方案。技术开发者和设计师在计算能力竞赛中获益最多,因为他们是提供实际进行计算的处理器和硬件的人。他们目前的产品需求很高,但他们的投资需求也是最大的——未来五年超过3万亿美元。少数几家半导体公司对行业供应有着不成比例的影响,使他们成为计算能力增长的潜在瓶颈。技术开发者和设计师可以通过扩大制造能力并多样化供应链来缓解这一风险,以防止瓶颈。
4.运营商
他们是谁:超大规模提供商、共址提供商、GPU即服务平台以及通过提高服务器利用率和效率来优化计算资源的企业。
人工智能工作负载的资本支出:未包含在此分析中。
非人工智能工作负载的资本支出:未包含在此分析中。
关键投资:数据中心软件、人工智能驱动的自动化、定制硅片。
机会。能够高效扩展同时平衡投资回报率、性能和能源使用的运营商,可以推动长期的行业领导地位。
挑战。不成熟的人工智能托管应用可能会掩盖长期投资回报率的计算。数据中心运营中的低效正在推高成本,但人工智能需求的不确定性仍在继续扰乱长期基础设施规划和采购决策。
解决方案。尽管今天的数据中心以高效率运行,但人工智能创新的快速步伐将要求运营商优化能源消耗和工作负载管理。一些运营商通过投资更有效的冷却解决方案和增加机架堆叠能力来减少空间需求而不牺牲处理能力,从而提高数据中心的能源效率。还有些运营商正在投资人工智能模型开发本身,以创建需要较少计算能力来训练和运行的架构。
5.人工智能架构师
他们是谁:人工智能模型开发者、基础模型提供商以及构建专有AI能力的企业。
人工智能工作负载的资本支出:未包含在此分析中。
非人工智能工作负载的资本支出:未包含在此分析中。
关键投资:模型训练和推理基础设施,算法研究。
机会。开发能够在性能与较低计算需求之间取得平衡的架构的人工智能架构师,将引领下一波人工智能的采用。投资于专有AI能力的企业可以通过开发符合其需求的专用模型来获得竞争力。
挑战。人工智能治理问题,包括偏见、安全和监管,增加了复杂性,可能会减缓发展。与此同时,推理构成了一个主要的不可预测成本组成部分,企业正面临难以证明人工智能投资的明确投资回报率的困难。
解决方案。大规模人工智能模型不断升级的计算需求正在增加训练它们的成本,特别是在推理方面,即训练有素的人工智能模型将他们学到的知识应用到新的、未见过的数据上以做出预测或决策的过程。具有先进推理能力的模型,如OpenAI的o1,需要显著更高的推理成本。例如,与该公司的非推理型GPT-4o相比,OpenAI的o1的推理成本高出六倍。为了降低推理成本,领先的人工智能公司正在通过采用稀疏激活和蒸馏等技术来优化他们的模型架构。这些解决方案减少了人工智能模型在生成响应时所需的计算能力,使操作更加高效。
人工智能基础设施
增长的关键考虑因素
在公司规划其人工智能基础设施投资时,他们将不得不应对一系列潜在的结果。在需求受限的情景中,与人工智能相关的数据中心容量可能需要3.7万亿美元的资本支出——受到供应链限制、技术干扰和地缘政治不确定性的限制。然而,在需求加速的情景中,这些障碍得到了缓解,导致投资高达7.9万亿美元。跟上不断演变的格局对于做出明智、战略性的投资决策至关重要。投资者必须考虑的一些不确定性包括:
技术干扰。模型架构的突破,包括计算利用效率的提高,可能会减少预期的硬件和能源需求。
供应链限制。劳动力短缺、供应链瓶颈和监管障碍可能会延迟电网连接、芯片供应和数据中心扩展——减缓整体人工智能的采用和创新。为了解决关键芯片的供应链瓶颈,半导体公司正在投入大量资本建设新的制造设施,但由于监管限制和上游设备供应商的长前置时间,这种建设可能会停滞。
地缘政治紧张局势。波动的关税和技术出口管制可能会在计算能力需求中引入不确定性,可能会影响基础设施投资和人工智能的增长。
竞争优势的竞争
人工智能驱动的计算时代中,能够预测计算能力需求并相应投资的公司将成为赢家。在计算能力价值链上积极获取关键资源(土地、材料、能源容量和计算能力)的公司可能会获得显著的竞争优势。为了自信地投资,他们可以采取三管齐下的方法。
首先,投资者需要在不确定性中了解需求预测。公司应该尽早评估人工智能计算需求,预测需求的潜在变化,并设计可扩展的投资策略,以适应人工智能模型和用例的发展。其次,投资者应该寻找提高计算效率的方法。为此,他们可以优先投资于成本和能源效率高的计算技术,在管理功耗和基础设施成本的同时优化性能。第三,他们可以建立供应端的弹性,以支持人工智能基础设施的增长,而不过度扩张资本。这将需要投资者确保关键投入(如能源和芯片),优化选址,并在供应链中建立灵活性。
在增长和资本效率之间取得正确的平衡将至关重要。战略性投资不仅仅是一场扩大数据基础设施规模的竞赛——它是一场塑造人工智能未来的竞赛。
(如有版权问题,请联系删除)