世界模型战略 (World Model Strategy) 概念
定义
Google DeepMind 通过 Genie(交互式世界生成器)和 VO(视频生成模型)构建 AI 对物理世界的因果理解——Demis Hassabis 视此为 AGI 的核心拼图之一,也是 robotics 和 universal assistant 的必要条件。
为什么 LLM 不够 [来源:podcast,Demis Hassabis,当事人视角]
- 语言包含比预期更多的世界知识,但仍有大量无法用文字描述的信息
- 空间动力学、物理直觉、感官体验(motor angles、smell 等)无法语言化
- robotics、智能眼镜等需要对物理世界的深度理解
核心项目
Genie(交互式世界生成器)
- Demis 称其为「the state-of-the-art in world models」
- 能动态生成可交互的世界——用户/agent 的行为实时改变世界
- 物理模拟「看起来真实但不精确」= 类似 LLM 的 hallucination 问题
- DeepMind 正用游戏引擎建物理基准测试(牛顿三定律等)
- 成本高,正在探索发布形式
VO(视频生成模型)
- 反射、液体等效果已「肉眼不可区分」
- 但不等于物理精确——下一步是「超越人类业余判断,达到物理实验级精度」
Simma(模拟环境 Agent)
- Simma 2 可在商业游戏(如 No Man's Sky)中执行自然语言指令
- 底层用 Gemini → 可用自然语言与 agent 交互
Genie × Simma = AI 自训练循环 [来源:podcast,Demis Hassabis,当事人视角]
- Genie 生成世界 + Simma 在其中探索 → 两个 AI 互相训练
- 可能构成无限自动生成的训练任务(difficulty 自动递增)
- Demis: 「this could be the beginning of an interesting training loop」
- 应用方向:game companions、robotics pre-training
验证世界理解的方法
- 「如果你能生成真实的世界,就说明你理解了世界的 mechanics」[来源:podcast,Demis Hassabis,当事人视角]
- 当前标准:视觉上真实 → 下一步标准:物理实验级精确
与科学应用的关系
- 天气预测、材料科学、生物学 → 都可以通过「学习这些系统的 dynamics」来建模
- 比暴力计算更高效的 learned simulation
与其他概念关系
- 与 持续学习 互为条件——world model 需要从环境交互中持续学习
- 是 AGI 时间线 中明确的必要条件之一
- 服务于 Robotics 战略——「Gemini 要做 robotics 的 Android」
- Demis 的个人最持久研究热情:「my longest standing passion is world models and simulations」
游戏是终极测试场
- Demis 作为前游戏设计师,终极目标包括用 world model 创造「终极游戏」[来源:podcast,当事人视角]
- NPC 将由 Simma 驱动——「the end of boring NPCs」
🔗 相关节点
- Google DeepMind entity