11月26日凌晨,OpenAI联合创始人、超级智能公司Safe Superintelligence首席执行官Ilya Sutskever,接受知名播客主持人Dwarkesh Patel 专访,探讨了SSI的战略、预训练存在的问题、如何提升AI模型的泛化能力,以及如何确保AGI的平稳发展等。


一句话总结 Ilya 的思想内核:当前AI的繁荣是“预训练题海+RL刷榜”的虚假高原;真正的突破在于重建人类式的“价值函数”与“泛化机制”——这要求我们回归纯粹研究,以生物学为镜,在“美与真实”的指引下,锻造出既能理解世界、亦能关爱生命的超级智能。


这场专访时长达95分钟,视频地址:https://www.dwarkesh.com/p/ilya-sutskever-2

以下为完整视频观点摘要,Qwen对此亦有贡献,enjoy~


1. 现状反思:AI 发展的“虚幻感”与能力悖论

平淡的奇点感:尽管AI正引发堪比科幻的变革(如GDP百分比级投入),但人类适应速度极快,加上技术抽象性,使得这场“缓慢起飞”显得异常平淡——大众仅看到“某公司宣布巨额投资”的新闻,却未在日常中真切感知其颠覆性。

高分低能的深层困惑:模型在评测(Evals)中表现惊艳,经济影响却严重滞后,甚至陷入“修Bug→引入新Bug→修复后旧Bug重现”的死循环。这暴露了一个尖锐矛盾:评测分数的飙升并未转化为现实鲁棒性。Ilya指出,最可能的解释是——研究员为刷榜,从评测集反向设计RL训练环境,导致模型沦为“编程竞赛特化生”,像练了10,000小时的做题家,却缺乏真实世界所需的灵活纠错与价值判断能力。


2.技术演进:从“Scaling时代”回归“研究时代”


扩展定律的临界点:2020–2025年是“Scaling时代”,靠堆算力与数据即可稳定进步。但预训练数据终将触顶,且单纯扩大100倍规模不再保证质变——当算力已极大时,“如何更聪明地用算力”比“用更多算力”更关键。

RL的效率危机与新方向:当前头部公司已将算力重心转向RL,但因其rollout长、学习信号稀疏,资源消耗巨大却收益有限。Ilya质疑这是否最优路径,并强调:价值函数(Value Function)是破局关键——它能提供任务中途的稠密反馈(如“这步代码设计已走入死胡同”),大幅缩短学习周期,让RL从“试错到终点”变为“边走边调”。


3.人类与 AI 的根本差异:泛化与样本效率之谜


进化赋予的“隐形先验”:人类在视觉、运动等领域样本效率极高(如儿童5岁已能识别汽车;青少年10小时学会开车),很可能源于进化硬编码的强先验;但更惊人的是,人类在数学、编程等进化晚期领域仍展现超强泛化——这指向一种尚未被复制的高效通用学习机制,而非单纯依赖生物先验。

天赋的本质是学习架构:当前AI像专攻奥赛的“10,000小时选手”,预训练提供了海量“题库”,却未能赋予其“练100小时就举一反三”的学生所拥有的核心能力——即可靠泛化。Ilya强调:问题不在于数据量,而在于模型如何构建表征、如何形成归纳偏置;若神经元计算本身比ANN更复杂(如树突动态处理),仅靠扩大规模可能永远无法跨越此鸿沟。


4.核心机制:情绪即进化硬编码的“价值函数”


情绪是可行性的基石:脑损伤案例揭示——丧失情绪者虽认知完好,却连“选哪双袜子”都无法决策。这说明情绪并非干扰项,而是进化塑造的内在价值函数调节器,赋予人类无需外部监督的自我评估与修正能力。

简单即鲁棒:人类价值函数(如追求社会认可、地位)虽源自哺乳动物祖先,机制相对简单,却在现代社会仍高度有效——正因其简洁,才具备跨环境适应性。但进化馈赠亦有盲区:如“饥饿感”在食物富足时代已失效,警示我们:任何内置价值系统都需具备环境校准能力,否则将随世界变迁产生危险偏差。


5.SSI的战略逻辑


纯研究公司的算力优势:SSI(Safe Superintelligence Inc.)虽融资30亿美元(小于巨头),但无需将算力分流至服务亿级用户的产品推理(Inference),也无需维持庞大工程与销售团队;其研究算力的实际占比远超同行,足以验证前沿想法——历史证明,AlexNet(2 GPU)、Transformer(≤64 GPU)等突破均诞生于中小规模算力。

“直通”不是闭门造车:SSI倾向“确信安全后再发布”,并非拒绝渐进主义。Ilya澄清:即使直通方案,部署本身也将是持续学习过程——首个超级智能更像“15岁求知少年”,而非全能成品;通过在真实世界试错、合并多实例经验,其能力将指数级进化。关键在于:谁先掌握超高效学习算法,谁就主导智能爆炸的起点。


6.终极对齐:从“听话”到“关爱”的范式跃迁


对齐失败的根源是泛化脆弱:当前对齐困境(如目标劫持、奖励作弊)本质是价值学习的不可靠泛化——模型学到表面行为,未掌握深层意图。若泛化能力提升,对齐难度将系统性下降。

“关爱感知生命”是务实路径:Ilya提出,对齐所有感知生命(含AI自身)可能比仅对齐人类更可行:因AI具感知性,同理心机制(如镜像神经元原理)可自然延伸至AI间关系,形成更稳定的伦理基底。他承认人类占比将极小,但强调:“若前N个强大系统均具此特质,世界可平稳过渡相当长时间。”

长期均衡的极端解:纯人类控制或纯AI自治均存风险。Ilya提出“Neuralink++式人机融合”作为长期方案——当人类通过接口共享AI认知,理解鸿沟消失,决策全程参与,方能实现真正可持续的共治。


7.研究哲学:以生物为镜,追寻“美、简单、真实”


研究品味的核心是生物学直觉:Ilya的突破源于对“人如何思考”的正确抽象:人工神经元、分布式表征、经验学习——皆从大脑获得灵感,剥离非本质细节(如脑褶皱),抓住核心机制(如局部学习规则)。

自上而下的信念对抗噪声:当实验数据暂时不利时,支撑他坚持的并非盲信,而是对“美、简单、生物学合理性”三位一体的信念——这种自上而下判断力使他能区分“方向错误”与“临时Bug”,在混沌中锚定真解。正如他所言:“丑陋,这里没有丑陋的容身之地。”
点赞(0)

微信公众账号

微信扫一扫加关注

返回
顶部