4月8日,斯坦福大学以人为本人工智能研究院(Stanford HAI)发布了《2025年人工智能指数报告》(Artificial Intelligence Index Report 2025)。
这份长达456页的报告全面分析了全球人工智能的发展现状,涵盖了技术性能、经济影响、教育、政策以及负责任人工智能等多个维度,为深入理解AI的快速发展提供了详实的数据支持。
报告原文链接:https://hai-production.s3.amazonaws.com/files/hai_ai_index_report_2025.pdf
报告揭示了 2024 年 AI 行业的 12 大趋势:
2023 年,研究人员推出了多项新测试——MMMU、GPQA 和 SWE-bench,用于挑战先进 AI 系统的极限。仅过一年,这些系统的表现便大幅提升:在 MMMU、GPQA 和 SWE-bench 三项测试中的得分分别提高了 18.8、48.9 和 67.3 个百分点。
除了基准测试,AI 系统在高质量视频生成方面也取得了重大进展。在某些场景,基于大语言模型的智能体甚至在时间受限的编程任务中表现优于人类。
在交通领域,无人驾驶汽车已不再只是实验项目:美国规模最大的运营商之一 Waymo 每周提供超过 15 万次自动驾驶出行服务;而百度的平价自动驾驶出租车“萝卜快跑”也已在中国多个城市落地运营。
2024 年,美国企业、风投和私募基金等机构在 AI 领域的投资增至1091亿美元——是中国(93亿美元)的近12倍,英国(45亿美元)的24倍。其中,生成式AI尤为抢眼,吸引全球339亿美元的非政府资本投入,较2023 年增长18.7%。
AI的商业化应用也在加速落地:2024年,78%的企业表示已在使用AI,显著高于上一年的55%。与此同时,研究持续表明,AI不仅显著提升生产效率,在多数情况下还能有效缩小员工之间的技能差距。
2024年,美国机构发布了40款重要 AI 模型,远超中国的15款和欧洲的3款。虽然美国在数量上保持领先,但中国的模型在质量上迅速缩小差距:在 MMLU和HumanEval 等主要基准测试中的性能差距,从2023年的两位数缩小至2024年的几乎持平。
与此同时,中国在 AI 领域的学术论文和专利数量依旧领先全球。随着全球模型研发的加速,中东、拉丁美洲和东南亚等地区也开始频频推出具有影响力的新模型。
与 AI 相关的安全事件急剧增加,但在主要的 AI 模型开发者中,标准化的 RAI(Responsible AI )评估仍然较为罕见。尽管如此,像 HELM Safety、AIR-Bench 和 FACTS 等新兴基准测试工具,提供了有效评估模型真实性和安全性的手段。
尽管许多公司已认识到RAI所涉及的风险,但在采取实际行动方面仍存在差距。与此相比,各国政府的反应更加紧迫:2024年,全球范围内的AI治理合作加速,OECD、欧盟、联合国和非洲联盟等组织发布了涵盖透明性、可信度等核心负责任 AI 原则框架。
不过,情绪正在发生变化:自2022年以来,包括德国(+10%)、法国(+10%)、加拿大(+8%)、英国(+8%)和美国(+4%)在内的一些原本持怀疑态度的国家,乐观情绪显著上升。

随着小型模型能力的不断提升,执行与 GPT-3.5 相当的系统推理成本在 2022 年 11 月到 2024 年 10 月期间下降了超过 280 倍。在硬件层面,成本每年下降 30%,而能效则每年提升 40%。
开源模型也在缩小与封闭模型之间的差距,在一些基准测试中,性能差距从 8% 减少到仅 1.7%,这一变化仅在一年内发生。这些趋势共同作用,正迅速降低先进 AI 的门槛。

2024年,美国联邦机构出台了 59 项与 AI 相关的法规,是 2023 年的两倍,且由更多的机构参与制定。全球范围内,75 个国家的 AI 立法提及量自 2023 年以来增长了 21.3%,自 2016 年以来增长了九倍。
随着关注度的提升,各国政府也在加大投资力度:加拿大承诺投入 24 亿美元,中国启动了 475 亿美元的半导体基金,法国承诺投资 1090 亿欧元,印度承诺投资 12.5 亿美元,沙特阿拉伯的“超越计划”则代表了 1000 亿美元的投资计划。
目前,三分之二的国家已提供或计划提供K–12计算机科学教育,数量是 2019年的两倍,非洲和拉丁美洲在这方面取得了最大的进展。在美国,计算机科学本科毕业生的数量在过去10年增长了22%。
然而,由于基础设施的缺口,如电力等问题,许多非洲国家的教育机会仍然有限。在美国,81%的K–12计算机科学教师认为AI应该成为基础计算机科学教育的一部分,但不到一半的教师认为自己具备教授AI的能力。
2024 年,近90%的重要 AI 模型来自产业界,远高于2023年的60%。尽管如此,学术界仍然是高引用研究的主要来源。模型规模持续快速增长——训练计算能力每五个月翻一番,数据集每八个月翻一番,能源消耗也在每年增长。
然而,性能差距正在缩小:排名第一和第十的模型之间的分数差距从11.9% 降至5.4%,而排名前两的模型差距仅为0.7%。AI 领域的竞争愈加激烈,且参与者越来越多。
AI 的日益重要性体现在多个重大奖项上:两项诺贝尔奖分别表彰了推动深度学习(物理学)和其在蛋白质折叠应用中的研究(化学),而图灵奖则表彰了在强化学习领域的开创性贡献。

AI 模型在诸如国际数学奥林匹克竞赛问题等任务中表现出色,但在像 PlanBench 这样的复杂推理基准测试中依然存在困难。即使可证明存在正确的解决方案,它们也常常无法可靠地解决逻辑任务,这限制了它们在高风险、对精确度要求极高的场景中的应用效果。
这份长达456页的报告全面分析了全球人工智能的发展现状,涵盖了技术性能、经济影响、教育、政策以及负责任人工智能等多个维度,为深入理解AI的快速发展提供了详实的数据支持。
报告原文链接:https://hai-production.s3.amazonaws.com/files/hai_ai_index_report_2025.pdf
报告揭示了 2024 年 AI 行业的 12 大趋势:
2023 年,研究人员推出了多项新测试——MMMU、GPQA 和 SWE-bench,用于挑战先进 AI 系统的极限。仅过一年,这些系统的表现便大幅提升:在 MMMU、GPQA 和 SWE-bench 三项测试中的得分分别提高了 18.8、48.9 和 67.3 个百分点。
除了基准测试,AI 系统在高质量视频生成方面也取得了重大进展。在某些场景,基于大语言模型的智能体甚至在时间受限的编程任务中表现优于人类。
从医疗到交通,AI 正在加速从实验室走向现实应用。2023 年,美国 FDA 批准了 223 款搭载 AI 技术的医疗设备,而在 2015 年这一数字还只有 6 件。
在交通领域,无人驾驶汽车已不再只是实验项目:美国规模最大的运营商之一 Waymo 每周提供超过 15 万次自动驾驶出行服务;而百度的平价自动驾驶出租车“萝卜快跑”也已在中国多个城市落地运营。
2024 年,美国企业、风投和私募基金等机构在 AI 领域的投资增至1091亿美元——是中国(93亿美元)的近12倍,英国(45亿美元)的24倍。其中,生成式AI尤为抢眼,吸引全球339亿美元的非政府资本投入,较2023 年增长18.7%。
AI的商业化应用也在加速落地:2024年,78%的企业表示已在使用AI,显著高于上一年的55%。与此同时,研究持续表明,AI不仅显著提升生产效率,在多数情况下还能有效缩小员工之间的技能差距。
2024年,美国机构发布了40款重要 AI 模型,远超中国的15款和欧洲的3款。虽然美国在数量上保持领先,但中国的模型在质量上迅速缩小差距:在 MMLU和HumanEval 等主要基准测试中的性能差距,从2023年的两位数缩小至2024年的几乎持平。
与此同时,中国在 AI 领域的学术论文和专利数量依旧领先全球。随着全球模型研发的加速,中东、拉丁美洲和东南亚等地区也开始频频推出具有影响力的新模型。
与 AI 相关的安全事件急剧增加,但在主要的 AI 模型开发者中,标准化的 RAI(Responsible AI )评估仍然较为罕见。尽管如此,像 HELM Safety、AIR-Bench 和 FACTS 等新兴基准测试工具,提供了有效评估模型真实性和安全性的手段。
尽管许多公司已认识到RAI所涉及的风险,但在采取实际行动方面仍存在差距。与此相比,各国政府的反应更加紧迫:2024年,全球范围内的AI治理合作加速,OECD、欧盟、联合国和非洲联盟等组织发布了涵盖透明性、可信度等核心负责任 AI 原则框架。
在中国(83%)、印度尼西亚(80%)和泰国(77%)等国家,绝大多数人认为 AI 产品和服务带来的好处大于坏处。相比之下,加拿大(40%)、美国(39%)和荷兰(36%)等地的乐观情绪要低得多。
不过,情绪正在发生变化:自2022年以来,包括德国(+10%)、法国(+10%)、加拿大(+8%)、英国(+8%)和美国(+4%)在内的一些原本持怀疑态度的国家,乐观情绪显著上升。

随着小型模型能力的不断提升,执行与 GPT-3.5 相当的系统推理成本在 2022 年 11 月到 2024 年 10 月期间下降了超过 280 倍。在硬件层面,成本每年下降 30%,而能效则每年提升 40%。
开源模型也在缩小与封闭模型之间的差距,在一些基准测试中,性能差距从 8% 减少到仅 1.7%,这一变化仅在一年内发生。这些趋势共同作用,正迅速降低先进 AI 的门槛。

2024年,美国联邦机构出台了 59 项与 AI 相关的法规,是 2023 年的两倍,且由更多的机构参与制定。全球范围内,75 个国家的 AI 立法提及量自 2023 年以来增长了 21.3%,自 2016 年以来增长了九倍。
随着关注度的提升,各国政府也在加大投资力度:加拿大承诺投入 24 亿美元,中国启动了 475 亿美元的半导体基金,法国承诺投资 1090 亿欧元,印度承诺投资 12.5 亿美元,沙特阿拉伯的“超越计划”则代表了 1000 亿美元的投资计划。
目前,三分之二的国家已提供或计划提供K–12计算机科学教育,数量是 2019年的两倍,非洲和拉丁美洲在这方面取得了最大的进展。在美国,计算机科学本科毕业生的数量在过去10年增长了22%。
然而,由于基础设施的缺口,如电力等问题,许多非洲国家的教育机会仍然有限。在美国,81%的K–12计算机科学教师认为AI应该成为基础计算机科学教育的一部分,但不到一半的教师认为自己具备教授AI的能力。
2024 年,近90%的重要 AI 模型来自产业界,远高于2023年的60%。尽管如此,学术界仍然是高引用研究的主要来源。模型规模持续快速增长——训练计算能力每五个月翻一番,数据集每八个月翻一番,能源消耗也在每年增长。
然而,性能差距正在缩小:排名第一和第十的模型之间的分数差距从11.9% 降至5.4%,而排名前两的模型差距仅为0.7%。AI 领域的竞争愈加激烈,且参与者越来越多。
AI 的日益重要性体现在多个重大奖项上:两项诺贝尔奖分别表彰了推动深度学习(物理学)和其在蛋白质折叠应用中的研究(化学),而图灵奖则表彰了在强化学习领域的开创性贡献。

AI 模型在诸如国际数学奥林匹克竞赛问题等任务中表现出色,但在像 PlanBench 这样的复杂推理基准测试中依然存在困难。即使可证明存在正确的解决方案,它们也常常无法可靠地解决逻辑任务,这限制了它们在高风险、对精确度要求极高的场景中的应用效果。