MoE / Blob 架构远景 (MoE / Blob Architecture Vision) 概念
定义
Jeff Dean 提出的下一代模型架构远景:从当前结构化的 Mixture of Experts 演进为「有机的、非规则的、不断生长的 Blob」——不同 expert 计算量差异 100-1000 倍,可独立开发和热插拔,连接密度自适应硬件拓扑。这是 Pathways 系统设计的目标方向。
机制拆解
当前 MoE 的局限 [来源:podcast,当事人视角]
- 所有 expert 大小相同、计算成本相同
- 路径在很少的层数后就合并回来——没有长分叉
- 不支持独立训练和热插拔
- Gemini 1.5 Pro 已用 MoE 但仍是规则结构
Blob 架构的核心特征 [来源:podcast,Jeff Dean,当事人视角]
- Variable cost experts:不同 expert 计算量差异 100-1000 倍
- 可变深度路径:math 方向可能跨很多层,简单 query 可能用 skip connection
- 推理计算弹性:easy task vs. hard task 投入计算差距 10,000-1,000,000 倍
- 模块化开发:100 个团队并行开发(东南亚语言 / Haskell 推理 / 数学 expert),开发完热插拔
- 持续学习引擎:大版本 → 蒸馏小版本 → 删除大版本 → 增加容量继续学 → 循环
- 硬件拓扑自适应:同芯片密集连接,跨芯片少些,跨 Pod 更少,跨 metro 最少——让结构有机 emerge
- 数据控制模块化:个人数据模块 / YouTube 专用模块 / 公司内部数据模块——数据访问权限通过模块隔离
研发效率革命
- 当前:整体训练一个模型需要大量协调
- 未来:每个模块独立训练,用 frozen baseline + 新模块做 A/B 比较——研发成本可能下降 10-100 倍
推理侧部署
- 可以从 Blob 蒸馏出面向特定 task 的高效推理模型(如 distill for phone deployment)
- Router 可以按问题难度选择不同版本的 expert(tiny distilled vs. full)
- 需要异步推理流水线(Pathways 已支持)
实现状态
- Pathways 系统已构建基础设施支持 [来源:podcast,Jeff Dean,当事人视角]
- 当前 Gemini 用 Pathways 训练但未充分利用其模块化能力 [来源:podcast,Noam,当事人视角]
- 仍需「看到证据证明这是正确方向」才会全面推进 [来源:podcast,Jeff Dean,当事人视角]
与其他概念关系
- 底层支撑:TPU 基础设施战略(TPU Pod 的 ICI 互联是 Blob 的硬件基础)
- 上层目标:持续学习(Blob 的模块化 + 蒸馏循环是持续学习的实现路径)
- 研发组织:Post-train 组织机制(模块化可能改变团队协作模式)
- 与当前 TPU ASIC 路线的张力:TPU 基础设施战略 指出 TPU 通用性受限——Blob 要求更灵活的硬件
⚠️ 注意:Blob 架构目前是 Jeff Dean 的个人远景,尚未在产品级模型中验证。但 Pathways 基础设施已在建设中。
🔗 相关节点
- Google DeepMind entity
- Gemini entity
- Jeff Dean entity