原文标题:《From Words to Worlds: Spatial Intelligence is AI’s Next Frontier》
原文链接:https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence

1950 年,当计算机不过是自动化算术和简单逻辑的代名词时,艾伦·图灵提出了一个至今仍有回响的问题:机器能思考吗?他以非凡的想象力预见到了我们今天所见的景象:智能或许可以被构建,而非与生俱来。这一洞见后来启动了一场被称为人工智能的不懈科学探索。在我自己从事 AI 工作的第二十五年里,我仍然受到图灵愿景的启发。但我们离目标有多近?答案并不简单。

今天,大语言模型(Large Language Models,LLMs)等领先的 AI 技术已经开始改变我们获取和处理抽象知识的方式。然而,它们仍然是黑暗中的文字匠人;雄辩但缺乏经验,博学但未能落地。空间智能将改变我们创造和交互真实与虚拟世界的方式——革新叙事、创意、机器人技术、科学发现等等。这是 AI 的下一个前沿。

自踏入这个领域伊始,对视觉与空间智能的求索,便是我念兹在兹、一路前行的“北极星”。为此,我投入数年时间构建了 ImageNet,这是首个大规模视觉学习与基准测试数据集,它与神经网络算法、图形处理器(GPUs)等现代计算技术一道,成为催生现代 AI 诞生的三大关键要素之一。为此,我在斯坦福的学术实验室在过去十年间,致力于将计算机视觉与机器人学习相结合。也正是为此,一年多以前,我与联合创始人 Justin Johnson, Christoph Lassner 和 Ben Mildenhall 共同创立了 World Labs,旨在首次将这一可能性完整地变为现实。

在这篇文章中,我将解释什么是空间智能,为什么它重要,以及我们如何构建将解锁它的世界模型——其影响将重塑创造力、具身智能和人类进步。

空间智能:人类认知的基础架构


AI 从未如此令人兴奋。大语言模型等生成式 AI 模型已经从研究实验室走向日常生活,成为数十亿人的创造力、生产力和沟通工具。它们展示了曾被认为不可能的能力,轻松生成连贯的文本、大量代码、照片级逼真的图像,甚至短视频片段。AI 是否会改变世界已不再是问题。以任何合理的标准来衡量,它已经改变了。

然而,仍有太多东西超出我们的能力范围。自主机器人的愿景仍然引人入胜但充满猜测,远未成为未来学家们长期承诺的日常设备。在疾病治疗、新材料发现和粒子物理学等领域大规模加速研究的梦想在很大程度上仍未实现。而那种能够真正理解并赋能人类创造者的 AI——无论是帮助学生理解复杂的分子化学概念,协助建筑师将空间可视化,辅助电影制作人构建世界,还是让任何人寻求完全沉浸式的虚拟体验——其承诺也仍未兑现。

要了解为什么这些能力仍然难以捉摸,我们需要考察空间智能是如何进化的,以及它如何塑造我们对世界的理解。

视觉一直是人类智能的基石之一,但它的力量源自更为基础的某种东西。在动物学会筑巢、照料幼崽、用语言沟通或建立文明之前很久,“感知”这一看似孤立的能力——感受到一缕微光,触到某种纹理——就悄然点燃了一条通往智能的演化之路。

从外部世界获取信息的这个简单动作,在感知与生存之间搭起了一座桥梁,随着时代演进,这座桥愈加坚固、愈加精巧。一层又一层的神经元从那座桥梁生长出来,形成解释世界并协调生物体与其环境之间互动的神经系统。因此,许多科学家推测,感知和行动成为驱动智能进化的核心循环,以及自然界创造我们人类这一感知、学习、思考和行动的终极化身的基础。

空间智能在我们与物理世界的互动方式中扮演着核心角色。每一天,我们都依赖它来完成最普通的行为:通过想象保险杠与路缘之间的距离来停车,接住抛过来的钥匙,在拥挤的人行道上穿行而避免碰撞,或是在睡意朦胧中将咖啡倒入杯中而无需凝视。在更极端的情况下,消防员在烟雾弥漫、结构不稳的倒塌建筑中穿行,瞬间判断稳定性和生存可能,并通过手势、肢体语言和一种没有语言替代的职业直觉进行沟通。而孩子们在牙牙学语前的几年里,通过与环境的玩耍互动来学习世界。所有这一切都发生得直观且自然——这种流畅性是机器尚未达到的。

空间智能同样是我们想象力与创造力的基础。故事讲述者在脑海中创造出丰富多样的世界,并利用从古代洞穴壁画到现代电影,再到沉浸式视频游戏等多种视觉媒介,将它们呈现给他人。无论是孩子在沙滩上堆砌沙堡,还是在电脑上玩《我的世界》,这种基于空间的想象力构成了真实或虚拟世界中互动体验的基础。在许多行业应用中,对物体、场景和动态互动环境的模拟,为从工业设计到数字孪生再到机器人训练等无数关键业务提供了动力。

历史上,那些真正塑造文明走向的时刻,往往都能看到空间智能的身影。在古希腊,埃拉托斯特尼将影子转化为几何学——在太阳直射赛因城(Syene)的同一时刻,测量出亚历山大港 7 度的太阳夹角——从而计算出地球的周长。哈格里夫斯的“珍妮纺纱机”,凭借一项空间布局的巧思,彻底改写了纺织业的历史:将多个纺锤并排排列在同一个框架中,使得一名工人能同时纺织多根纱线,生产效率提升了八倍。

沃森(Watson)和克里克(Crick)则通过亲手搭建 3D 分子模型发现了 DNA 的结构,他们不断操控金属板和金属丝,直到碱基对的空间排列“咔哒”一声完美契合。在每一个案例中,空间智能都推动着文明的进步,科学家和发明家们必须操控物体、将结构可视化、并对物理空间进行推理——所有这些都无法单凭文字来捕捉。

空间智能是我们认知构建的基础架构。无论我们是被动观察还是主动寻求创造,它都在发挥作用。它驱动我们的推理和规划,即使是在最抽象的话题上。它对我们互动的方式——无论是言语的还是身体的,与同伴的还是与环境的——都至关重要。虽然我们大多数人平日里并不会像埃拉托斯特尼那样揭示新的真理,但我们每天都在以同样的方式思考——通过感官感知一个复杂的世界,然后利用对它在物理、空间维度上如何运作的直观理解来认识它。

遗憾的是,今天的 AI 还不会这样思考。

过去几年确实取得了巨大进步。多模态大语言模型(Multimodal LLMs,MLLMs)除了文本数据外,还使用海量多媒体数据进行训练,引入了一些基本的空间意识,今天的 AI 可以分析图片、回答有关它们的问题,并生成超逼真的图像和短视频。通过传感器和触觉技术的突破,我们最先进的机器人可以开始在高度受限的环境中操纵物体和工具。

但坦白而言,AI 的空间能力仍远未达到人类水平。其局限性很快就会显现。最先进的 MLLM 模型在估计距离、方向和大小(或"在脑海中"通过从新角度重新生成物体来旋转它们)方面的表现很少好于随机猜测。它们无法导航迷宫、识别捷径或预测基本物理现象。AI 生成的视频都很新颖且确实很酷,但往往在几秒钟后就失去连贯性。

虽然当前最先进的 AI 在阅读、写作、研究和数据模式识别方面表现出色,但这些相同的模型在表示或与物理世界互动时存在根本性限制。我们对世界的看法是整体的——不仅仅是我们正在看的东西,还包括一切事物在空间上如何关联、它意味着什么以及为什么重要。通过想象、推理、创造和互动——而非仅仅描述——来理解这一点,正是空间智能的力量。没有它,AI 就与其试图理解的物理现实脱节。它无法有效驾驶我们的汽车、引导我们家中和医院中的机器人、实现全新的沉浸式和互动式学习娱乐体验方式,或加速材料科学和医学的发现。

哲学家维特根斯坦曾写道:“我的语言的界限意味着我的世界的界限。”我不是哲学家。但我至少知道对 AI 而言,不仅仅只有语言。空间智能代表着语言之外的前沿——连接想象、感知和行动的能力,为机器真正增强人类生活开启可能性,从医疗保健到创造力,从科学发现到日常协助。

AI 的下一个十年:构建真正空间智能的机器


那么,我们该如何构建具备空间智能的 AI?要打造出能像埃拉托斯特尼般洞察几何、如工业设计师般精工巧思、似故事家般挥洒想象、同急救员般自如行动的模型,其路径何在?

构建空间智能 AI 需要比大语言模型更雄心勃勃的东西:世界模型,一种新型生成模型,其在理解、推理、生成以及与语义、物理、几何和动态复杂的世界(虚拟或真实)交互方面的能力远超当今 LLMs 的能力范围。该领域尚处于初期,当前方法从抽象推理模型到视频生成系统不等。World Labs 于 2024 年初基于这一信念成立:基础方法仍在建立中,这使之成为下一个十年的决定性挑战。

在这个新兴领域,最重要的是建立指导发展的原则。对于空间智能,我通过三个基本能力来定义世界模型:

1、生成性:世界模型可以生成具有感知、几何和物理一致性的世界

解锁空间理解和推理的世界模型也必须生成自己的模拟世界。它们必须能够产生无限多样化的模拟世界,这些世界遵循语义或感知指令——同时保持几何、物理和动态一致性——无论是表示真实还是虚拟空间。研究界正在积极探索这些世界在固有几何结构方面应该隐式还是显式表示。此外,除了强大的潜在表示外,我相信通用世界模型的输出还必须允许为许多不同用例生成世界的显式、可观察状态。特别是,其对当前的理解必须与其过去连贯地联系;与导致当前状态的世界先前状态相联系。

2、多模态:世界模型在设计上是多模态的

正如动物和人类一样,世界模型应该能够处理多种形式的输入——在生成式 AI 领域中称为“提示”(prompts)。给定部分信息——无论是图像、视频、深度图、文本指令、手势还是动作——世界模型都应尽可能完整地预测或生成世界状态。这要求以真实视觉的保真度处理视觉输入,同时以同等的能力解读语义指令。这使得智能体和人类能够通过多样的输入与模型就世界进行交流,并反过来接收多样的输出。

3、交互性:世界模型可以基于输入动作输出下一个状态

最后,如果动作和/或目标是世界模型提示的一部分,其输出必须包含世界的下一个状态,无论是隐式还是显式表示。当仅给定一个动作(无论有无目标状态)作为输入时,世界模型应产生一个与世界先前状态、预期的目标状态(如有),及其语义含义、物理定律和动态行为相一致的输出。随着空间智能世界模型在其推理和生成能力上变得更加强大和稳健,可以想象,在给定一个目标的情况下,世界模型本身将能够不仅预测世界的下一个状态,还能基于新状态预测下一步的行动。

这项挑战的范围超越了 AI 以往面临的任何挑战。

语言,作为人类认知中一种纯粹的生成现象,其规则相对简单;而世界的运行规则要复杂得多。例如,在地球上,引力支配着运动,原子结构决定了光如何产生颜色和亮度,无数的物理定律约束着每一次互动。即使是最具想象力的世界,也是由遵循定义它们的物理定律和动态行为的空间物体和智能体组成的。要将所有这些——语义、几何、动态和物理——一致地协调起来,需要全新的方法。表现一个世界的维度,远比表现像语言这样的一维顺序信号要复杂得多。

要实现能提供我们人类所享有的那种通用能力的世界模型,需要克服几个艰巨的技术障碍。在 World Labs,我们的研究团队正致力于在实现这一目标的道路上取得根本性的进展。

目前,我们在几个方向上开展研究。

其一,是为训练找到一种新的“通用任务函数”。将通用任务函数定义得像大语言模型中的下一个词元预测一样简单和优雅,长期以来一直是世界模型研究的核心目标。在世界模型这里,输入和输出空间的复杂性让这样的目标函数变得难以定义。但无论如何,它以及与之对应的表征方式,都必须忠实反映几何与物理定律,尊重世界模型作为“扎根于想象与现实”的表征这一根本属性。

其二,是大规模训练数据。训练世界模型所需的数据,比文本清洗要复杂得多。好消息是:庞大的数据源其实早已存在。互联网上规模惊人的图像和视频,为我们提供了触手可及的训练素材——难点在于,要发明出能从这些二维的图像或视频帧信号(也就是 RGB)中,抽取更深层空间信息的算法。过去十年的研究已经表明,在语言模型上,数据体量与模型规模存在清晰的“缩放定律”;对世界模型而言,关键在于构建能够以类似规模利用现有视觉数据的架构。除此之外,我也不会低估高质量合成数据以及深度、触觉等额外模态的作用。它们在训练的关键阶段可以补充互联网级数据。但要走通这条路,前提是更好的传感器系统、更可靠的信号提取算法,以及强大得多的神经模拟方法。

其三,是新的模型架构和表征学习。世界模型的研究必然会推动架构与学习算法的演进,尤其是在现有 MLLM 和视频扩散模型范式之外。当前这些主流方法往往把数据切成一维或二维的 Token 序列,这会把一些原本简单的空间任务变得异常困难——比如在一段短视频里数清有几把不同的椅子,或者记住一个房间一小时之前的样子。替代性的架构也许能帮上忙,比如在 Token 化、上下文建模和记忆机制上,采用具备 3D 或 4D 意识的方法。举例来说,在 World Labs,我们最近在一个名为 RTFM 的实时生成框架模型上做了一些尝试,它使用带空间锚点的“帧”作为一种空间记忆,在保持生成世界持续性的同时,实现高效的实时生成。

显然,在通过世界建模彻底释放空间智能之前,我们仍要面对巨大的挑战。但这些研究绝不只是理论层面的练习,它们将成为一整个新类别创意和生产力工具的核心引擎。World Labs 内部取得的进展让人鼓舞。最近,我们向一小部分用户展示了 Marble,一个首创的世界模型:它可以接受多模态输入作为提示,生成并维持一致的 3D 环境,供用户和讲故事的人探索、互动,并在各自的创作流程中进一步搭建。我们正努力尽快把它带到更广泛的公众面前。

Marble 只是我们创建真正空间智能世界模型的第一步。随着进展加速,研究人员、工程师、用户和商业领袖都开始认识到其非凡的潜力。下一代世界模型将使机器在全新水平上实现空间智能——这一成就将解锁今天的 AI 系统中仍在很大程度上缺失的基本能力。

使用世界模型为人类构建更好的世界


驱动 AI 发展的动机至关重要。作为帮助开启现代 AI 时代的科学家之一,我的动机一直很明确:AI 必须增强人类能力,而非取代它。多年来,我一直致力于使 AI 的开发、部署和治理与人类需求保持一致。如今技术乌托邦和末日论的极端叙事比比皆是,但我继续持有更务实的观点:AI 由人开发、被人使用、由人治理。它必须始终尊重人的主体性和尊严。其魔力在于扩展我们的能力;使我们更具创造力、联系更紧密、更有生产力、更充实。空间智能代表了这一愿景——赋能人类创作者、照护者、科学家和梦想家实现曾经不可能的事情。这种信念是我致力于将空间智能作为 AI 下一个伟大前沿的驱动力。

空间智能的应用跨越不同的时间线。创意工具正在涌现——World Labs 的 Marble 已经将这些能力交到创作者和讲故事者手中。机器人代表着一个雄心勃勃的中期目标,因为我们正在完善感知和行动之间的循环。最具变革性的科学应用将需要更长时间,但承诺对人类繁荣产生深远影响。

在这些时间轴上,有几个领域尤其值得期待,它们可能重新定义人类能力。当然,实现这一愿景需要巨大的集体努力,远远超出任何一支团队或一家公司的能力边界。它需要整个 AI 生态——研究者、创新者、创业者、企业乃至政策制定者——共同参与,朝着一个共享的愿景前进。但这个愿景值得我们投入。我们可以这样想象未来。

创意:增强讲故事和沉浸式体验


我个人的偶像爱因斯坦曾说过一句我很喜欢的话:“创造力是智能的乐趣。”在文字出现很久之前,人类就开始讲故事——把故事画在洞穴墙壁上,一代代口耳相传,在共同叙事中塑造文化。故事是我们理解世界、跨越时间与距离建立连接、探索作为人的意义的方式,也是我们在生活与爱中寻找意义的途径。如今,空间智能有机会以一种不辜负故事重要性的方式,改变我们创造和体验叙事的方式,并把这种影响从娱乐扩展到教育,从设计延伸到建造。

World Labs 的 Marble 平台会把前所未有的空间能力和可控性交到电影制作人、游戏开发者、建筑师以及各种讲故事者手中,让他们在无需传统 3D 设计软件那些繁琐开销的前提下,快速搭建并迭代可自由探索的三维世界。在这一过程中,创作行为本身依旧是鲜活而“人”的;AI 工具做的,只是放大和加速创作者原本就能做到的事情。比如,叙事体验可以在全新的维度展开。

电影人和游戏设计师可以借助 Marble 在不同世界之间穿梭,而不再受限于预算或地理条件,探索在传统制作流程中几乎不可能试验的大量场景和视角。随着不同媒介与娱乐形式之间的边界被不断打破,我们正在接近一种全新的交互体验:艺术、模拟和游戏彼此融合,任何人——而不仅仅是大工作室——都能创造并栖居于属于自己的故事世界。随着从概念和分镜到完整体验的过程被极大加速,叙事将不再被束缚在某一种媒介里,创作者可以在多种载体与平台上构建具有共同“底层世界”的作品。

在设计层面,几乎所有制造出来的物体或建造出来的空间,都必须先在虚拟 3D 中完成设计,再落到物理世界。这一流程高度迭代,且在时间和金钱上成本都极高。有了具备空间智能的模型,建筑师可以在投入数月时间完善方案之前,就快速可视化结构,并走进这些尚不存在的空间中“先行体验”,本质上是在讲述我们未来如何工作、生活与聚集的故事。工业设计师和时装设计师,可以即时把想象转化为形态,尝试物体如何与人体以及空间互动。

在体验层面,体验本身是我们这个物种创造意义的最深刻途径之一。在几乎整个人类历史中,我们共享的三维世界只有一个:我们共同生活的这个物理世界。直到最近几十年,通过游戏和早期虚拟现实,我们才开始隐约窥见共创“另一个世界”的样子。如今,当空间智能与新的硬件形态结合在一起,比如 VR 头显、XR 头显以及沉浸式显示设备,这种体验被提升到了前所未有的高度。我们正在走向这样一个未来:走进一个完全构筑起来的多维世界,就像打开一本书一样自然。空间智能让“造世界”的能力不再只服务于拥有专业制作团队的大型工作室,而是普惠给个体创作者、教育者,以及任何想要分享自己构想的人。

机器人技术:具身智能在行动


从昆虫到人类,动物理解、导航和操控世界,无不依赖空间智能。机器人也不会例外。自这个领域诞生之初,具备空间意识的机器就一直是人们的梦想,包括我与学生、合作者在斯坦福实验室做的很多工作。正因如此,我对用 World Labs 正在构建的这类模型来实现它们,感到格外兴奋。

要让机器人成熟起来,关键在于找到可扩展的学习路径,而这背后的前提,是可行的训练数据解法。鉴于机器人必须面对的状态空间极其庞大,它们要学会理解、推理、规划和交互,许多人推测,真正具备泛化能力的机器人,很可能需要互联网数据、合成模拟和真实世界中人类示范的结合。但和语言模型不同,机器人研究今天面临的最大瓶颈之一,恰恰是训练数据的匮乏。世界模型会在这里发挥决定性的作用。随着世界模型在感知精度和计算效率上的提升,它们生成的输出可以在很大程度上缩小模拟与现实之间的鸿沟,帮助机器人在无数不同状态、交互和环境的模拟中高效学习。

未来,机器人作为人类的伙伴与协作者——无论是在实验台前辅助科学家,还是在家中陪伴独居老人——都有可能在劳动力紧缺的领域拓展出一部分“新增劳动力”和生产力。但要做到这一点,机器人必须具备空间智能,能够感知、推理、规划和行动,更重要的是:在这一切的同时,与人类目标和行为保持一种富有同理心的一致。比如,在实验室里,一个机器人助手可以负责处理仪器,让科学家把注意力集中到更需要灵巧操作或复杂思考的环节;在家中,一个机器人可以帮年长者准备晚餐,却又不剥夺对方在厨房中获得快乐与自主的空间。真正具备空间智能的世界模型,能够预测“下一步世界状态”,甚至在某些情况下给出与期望相符的下一步动作,这是实现这一目标的关键。

再往远一点看,机器人的形态本身也会极大丰富。人形机器人在我们已经建成的这个世界里当然有一席之地,但真正释放创新潜力的,恐怕是一整个形态的谱系:在体内递送药物的纳米机器人、能穿梭于狭窄空间的软体机器人、专为深海或外太空环境设计的机器体。不论形态如何,未来的空间智能模型都必须同时吸纳机器人所处环境的特性,以及它们自身具身感知和运动的限制。但开发这类机器人面临的一个关键难题,是在这些形态各异的具身形式上严重缺乏训练数据。世界模型将在生成模拟数据、搭建训练环境和构建评测基准方面发挥关键作用。

更长远的视野:科学、医疗保健和教育


在科学研究中,具备空间智能的系统可以模拟实验、并行检验假设,还可以探索人类难以直接抵达的环境——从深海到遥远行星。它们有望改变诸如气候科学、材料研究等领域的计算建模方式。通过把多维度模拟与真实世界的数据采集结合起来,这类工具可以有效降低算力门槛,扩展每一个实验室的“可见范围”。

在医疗领域,从实验室到病床,空间智能都将重塑流程。在斯坦福,我与学生、合作者多年来一直与医院、养老院以及居家患者合作。这些经历让我愈发确信,空间智能在这里有着巨大的变革潜力。AI 可以通过多维建模分子相互作用,加速药物发现;通过帮助放射科医生发现医学影像中的复杂模式,提升诊断能力;通过构建“环境感知”的长期监护系统,在不替代人际链接的前提下,为患者和照护者提供支持,更不用说机器人在各类医疗场景中为医护和病患提供帮助的可能性。

在教育领域,空间智能可以把抽象或复杂的概念变成可感、可操作的对象,构建出符合我们大脑和身体学习方式的迭代体验。在 AI 时代,更快、更高效的学习和再培训需求,对在校学生和成年人都尤为迫切。学生可以走进“细胞工厂”,在多维空间里观察分子机器如何运转,或以一种“亲临现场”的方式走进历史事件。教师则获得了一整套工具,用互动环境来实现更个性化的教学。从外科医生到工程师,各种专业人士都可以在高度逼真的模拟中反复练习复杂技能,而不会给现实世界带来风险。

在所有这些领域,潜在的应用场景几乎无穷无尽,但目标却始终如一:构建那种能增强人类专业能力、加速人类发现、放大人类关怀的 AI,而不是取代人类判断、创造力与共情——这些是作为人的核心所在。

结论


过去十年见证了 AI 成为全球现象,成为技术、经济甚至地缘政治的拐点。但作为研究者、教育者和现在的企业家,图灵 75 年前那个问题背后的精神仍然最能激励我。我仍然分享着他的惊奇感。这正是空间智能的挑战每天给予我的活力。

有史以来第一次,我们准备好构建与物理世界如此协调的机器,以至于我们可以依靠它们作为我们面临的最大挑战中的真正伙伴。无论是加速我们在实验室理解疾病的方式、革新我们讲述故事的方式,还是在我们因疾病、伤害或年龄而最脆弱的时刻支持我们,我们正处于提升我们最关心的生活方面的技术的风口浪尖。这是一个更深刻、更丰富、更有力量的生活的愿景。

在自然界在祖先动物身上释放空间智能的第一缕曙光近五亿年后,我们有幸发现自己处于可能很快赋予机器相同能力的技术人员这一代中——并且有特权将这些能力用于世界各地人民的利益。如果没有空间智能,我们对真正智能机器的梦想将不会完整。
点赞(0)

微信公众账号

微信扫一扫加关注

返回
顶部