11月26日凌晨,OpenAI联合创始人、超级智能公司Safe Superintelligence首席执行官Ilya Sutskever,接受知名播客主持人Dwarkesh Patel 专访,探讨了SSI的战略、预训练存在的问题、如何提升AI模型的泛化能力,以及如何确保AGI的平稳发展等。

以下为完整视频观点摘要,Qwen对此亦有贡献,enjoy~
高分低能的深层困惑:模型在评测(Evals)中表现惊艳,经济影响却严重滞后,甚至陷入“修Bug→引入新Bug→修复后旧Bug重现”的死循环。这暴露了一个尖锐矛盾:评测分数的飙升并未转化为现实鲁棒性。Ilya指出,最可能的解释是——研究员为刷榜,从评测集反向设计RL训练环境,导致模型沦为“编程竞赛特化生”,像练了10,000小时的做题家,却缺乏真实世界所需的灵活纠错与价值判断能力。
2.技术演进:从“Scaling时代”回归“研究时代”
RL的效率危机与新方向:当前头部公司已将算力重心转向RL,但因其rollout长、学习信号稀疏,资源消耗巨大却收益有限。Ilya质疑这是否最优路径,并强调:价值函数(Value Function)是破局关键——它能提供任务中途的稠密反馈(如“这步代码设计已走入死胡同”),大幅缩短学习周期,让RL从“试错到终点”变为“边走边调”。
3.人类与 AI 的根本差异:泛化与样本效率之谜
天赋的本质是学习架构:当前AI像专攻奥赛的“10,000小时选手”,预训练提供了海量“题库”,却未能赋予其“练100小时就举一反三”的学生所拥有的核心能力——即可靠泛化。Ilya强调:问题不在于数据量,而在于模型如何构建表征、如何形成归纳偏置;若神经元计算本身比ANN更复杂(如树突动态处理),仅靠扩大规模可能永远无法跨越此鸿沟。
4.核心机制:情绪即进化硬编码的“价值函数”
简单即鲁棒:人类价值函数(如追求社会认可、地位)虽源自哺乳动物祖先,机制相对简单,却在现代社会仍高度有效——正因其简洁,才具备跨环境适应性。但进化馈赠亦有盲区:如“饥饿感”在食物富足时代已失效,警示我们:任何内置价值系统都需具备环境校准能力,否则将随世界变迁产生危险偏差。
5.SSI的战略逻辑
“直通”不是闭门造车:SSI倾向“确信安全后再发布”,并非拒绝渐进主义。Ilya澄清:即使直通方案,部署本身也将是持续学习过程——首个超级智能更像“15岁求知少年”,而非全能成品;通过在真实世界试错、合并多实例经验,其能力将指数级进化。关键在于:谁先掌握超高效学习算法,谁就主导智能爆炸的起点。
6.终极对齐:从“听话”到“关爱”的范式跃迁
长期均衡的极端解:纯人类控制或纯AI自治均存风险。Ilya提出“Neuralink++式人机融合”作为长期方案——当人类通过接口共享AI认知,理解鸿沟消失,决策全程参与,方能实现真正可持续的共治。
7.研究哲学:以生物为镜,追寻“美、简单、真实”
