持续学习 / 在线学习 (Continual Learning / Online Learning) 概念
定义
让 AI 系统在部署后继续从真实环境反馈中学习和适应的能力——当前系统的「训练→烘焙→静态部署」模式被 Demis Hassabis 视为 AGI 的核心瓶颈之一。
为什么重要
Demis Hassabis 的判断 [来源:podcast,当事人视角]
- 「当前系统最大缺陷之一——训练完就是静态的,不会从部署后的经验中学习」
- Agent 要真正 work 必须能从 wild 中学习
- 这是 AlphaGo → AlphaZero 路径的核心——从人类知识引导到自主学习
- 是 AGI 的必要但非充分条件
- 2025/4 podcast: 「是 AGI 的 big focus,我们已经 pioneered 这个方向」
- 2026/1 podcast: 「critical missing piece before AGI」
Jeff Dean 的模块化持续学习 [来源:podcast,当事人视角]
- 每个 MoE 模块维护大版本 + 蒸馏小版本
- 大版本持续学习 → 蒸馏 → 删除大版本 → 增加容量 → 继续学习
- 这种循环可以在模型的 1000 个不同模块上并行进行
- 相当于模型「始终在学习」,不需要从头重训
人类学习的启示 [来源:podcast,Jeff Dean & Noam,当事人视角]
- 人类从 ~10 亿 token 学到丰富知识——远比 LLM 的数据效率高
- 关键差异:人类通过行动-观察循环学习(婴儿捡东西、扔东西 → 学习重力)
- 模型需要主动探索环境、采取行动、观察结果——不只是被动消费数据
- Noam: 「数学家和棋手不需要额外输入就能通过思考实验学习」→ self-play / 内部推理也是学习形式
实现路径
路径 1: Genie × Simma 循环 [来源:podcast,Demis Hassabis,当事人视角]
- Genie(世界生成器)动态生成环境
- Simma(具身 Agent)在环境中探索
- 两个 AI 互相交互 → 可能构成无限训练数据源
- Demis: 「这可能是走向 interesting training loop 的开始」
路径 2: 模块化蒸馏循环 [来源:podcast,Jeff Dean,当事人视角]
- 见 MoE / Blob 架构 的持续学习引擎
路径 3: AlphaZero 式自我学习
- 当前 LLM 类似 AlphaGo(人类数据 + search)
- 目标是 AlphaZero(从规则出发自我学习)
- Demis: 先做好 AlphaGo 这步再走 AlphaZero [来源:podcast,当事人视角]
当前状态
- DeepMind 在游戏领域已有成熟的 online learning 技术(AlphaGo/AlphaZero/AlphaStar)
- 语言模型领域尚未突破——推理后学习、经验积累等仍是研究中
- Gemini 3 仍是「烘焙+部署」模式
与其他概念关系
- 实现载体之一:MoE / Blob 架构
- 世界理解基础:世界模型战略
- AGI 必要条件:AGI 时间线
- 基础设施支撑:TPU 基础设施战略
🔗 相关节点
- Google DeepMind entity