持续学习 / 在线学习 (Continual Learning / Online Learning) 概念

定义

让 AI 系统在部署后继续从真实环境反馈中学习和适应的能力——当前系统的「训练→烘焙→静态部署」模式被 Demis Hassabis 视为 AGI 的核心瓶颈之一。

为什么重要

Demis Hassabis 的判断 [来源：podcast，当事人视角]

「当前系统最大缺陷之一——训练完就是静态的，不会从部署后的经验中学习」
Agent 要真正 work 必须能从 wild 中学习
这是 AlphaGo → AlphaZero 路径的核心——从人类知识引导到自主学习
是 AGI 的必要但非充分条件
2025/4 podcast: 「是 AGI 的 big focus，我们已经 pioneered 这个方向」
2026/1 podcast: 「critical missing piece before AGI」

Jeff Dean 的模块化持续学习 [来源：podcast，当事人视角]

每个 MoE 模块维护大版本 + 蒸馏小版本
大版本持续学习 → 蒸馏 → 删除大版本 → 增加容量 → 继续学习
这种循环可以在模型的 1000 个不同模块上并行进行
相当于模型「始终在学习」，不需要从头重训

人类学习的启示 [来源：podcast，Jeff Dean & Noam，当事人视角]

人类从 ~10 亿 token 学到丰富知识——远比 LLM 的数据效率高
关键差异：人类通过行动-观察循环学习（婴儿捡东西、扔东西 → 学习重力）
模型需要主动探索环境、采取行动、观察结果——不只是被动消费数据
Noam: 「数学家和棋手不需要额外输入就能通过思考实验学习」→ self-play / 内部推理也是学习形式

实现路径

路径 1: Genie × Simma 循环 [来源：podcast，Demis Hassabis，当事人视角]

Genie（世界生成器）动态生成环境
Simma（具身 Agent）在环境中探索
两个 AI 互相交互 → 可能构成无限训练数据源
Demis: 「这可能是走向 interesting training loop 的开始」

路径 2: 模块化蒸馏循环 [来源：podcast，Jeff Dean，当事人视角]

见 MoE / Blob 架构的持续学习引擎

路径 3: AlphaZero 式自我学习

当前 LLM 类似 AlphaGo（人类数据 + search）
目标是 AlphaZero（从规则出发自我学习）
Demis: 先做好 AlphaGo 这步再走 AlphaZero [来源：podcast，当事人视角]

当前状态

DeepMind 在游戏领域已有成熟的 online learning 技术（AlphaGo/AlphaZero/AlphaStar）
语言模型领域尚未突破——推理后学习、经验积累等仍是研究中
Gemini 3 仍是「烘焙+部署」模式

与其他概念关系

实现载体之一：MoE / Blob 架构
世界理解基础：世界模型战略
AGI 必要条件：AGI 时间线
基础设施支撑：TPU 基础设施战略

🔗 相关节点

Google DeepMind entity