世界模型战略 (World Model Strategy) 概念

定义

Google DeepMind 通过 Genie（交互式世界生成器）和 VO（视频生成模型）构建 AI 对物理世界的因果理解——Demis Hassabis 视此为 AGI 的核心拼图之一，也是 robotics 和 universal assistant 的必要条件。

为什么 LLM 不够 [来源：podcast，Demis Hassabis，当事人视角]

语言包含比预期更多的世界知识，但仍有大量无法用文字描述的信息
空间动力学、物理直觉、感官体验（motor angles、smell 等）无法语言化
robotics、智能眼镜等需要对物理世界的深度理解

核心项目

Genie（交互式世界生成器）

Demis 称其为「the state-of-the-art in world models」
能动态生成可交互的世界——用户/agent 的行为实时改变世界
物理模拟「看起来真实但不精确」= 类似 LLM 的 hallucination 问题
DeepMind 正用游戏引擎建物理基准测试（牛顿三定律等）
成本高，正在探索发布形式

VO（视频生成模型）

反射、液体等效果已「肉眼不可区分」
但不等于物理精确——下一步是「超越人类业余判断，达到物理实验级精度」

Simma（模拟环境 Agent）

Simma 2 可在商业游戏（如 No Man's Sky）中执行自然语言指令
底层用 Gemini → 可用自然语言与 agent 交互

Genie × Simma = AI 自训练循环 [来源：podcast，Demis Hassabis，当事人视角]

Genie 生成世界 + Simma 在其中探索 → 两个 AI 互相训练
可能构成无限自动生成的训练任务（difficulty 自动递增）
Demis: 「this could be the beginning of an interesting training loop」
应用方向：game companions、robotics pre-training

验证世界理解的方法

「如果你能生成真实的世界，就说明你理解了世界的 mechanics」[来源：podcast，Demis Hassabis，当事人视角]
当前标准：视觉上真实 → 下一步标准：物理实验级精确

与科学应用的关系

天气预测、材料科学、生物学 → 都可以通过「学习这些系统的 dynamics」来建模
比暴力计算更高效的 learned simulation

与其他概念关系

与持续学习互为条件——world model 需要从环境交互中持续学习
是 AGI 时间线中明确的必要条件之一
服务于 Robotics 战略——「Gemini 要做 robotics 的 Android」
Demis 的个人最持久研究热情：「my longest standing passion is world models and simulations」

游戏是终极测试场

Demis 作为前游戏设计师，终极目标包括用 world model 创造「终极游戏」[来源：podcast，当事人视角]
NPC 将由 Simma 驱动——「the end of boring NPCs」

🔗 相关节点

Google DeepMind entity