Post-train 组织机制 (Post-train Organization Mechanism) 概念
定义
DeepMind 内部 Post-training 的组织运作模式——2000+人按能力维度细分为 200+ 个 10 人小组,通过极度灵活的资源调度和 Top-down/Bottom-up 混合驱动实现快速迭代。这套机制是理解 Gemini 模型能力演进速度和方向的关键。
机制拆解
组织架构
- DM 总人数:8000人(Frontier AI 2000 + GenAI 4000 + Gemini App 2000 + 其他几百)[来源:DM App访谈260302]
- GenAI 模型训练:大几百人参与训练,Pre-train+SFT+RL 占 10%,通用 post-train 占 90% [来源:DM Post-train Security访谈260301]
- Pre-train:小几百人 [来源:Collaborative访谈]
- Post-train:~2000 人,老大 Melvin Johnson(26年3月刚确定)[来源:Collaborative访谈]
- 基模后训练(文字/视频/图像):~200多人,文字最多 [来源:多模态RL访谈]
- 核心中的核心:真正能训 Flash 级模型的仅 100-200 人 [来源:合版访谈]
- 最核心三组(Sergey 提到):Pre-train 几十人 + Post-train 合版 30-40人 + Infra/Serving 若干 = 一两百人 [来源:合版访谈]
- Flagship post-train:~100人(infra 50, data quality 10-20, RL, SFT)[来源:Gemini专家访谈260211]
- 通用 post-train 按 capability 分 10+ 小组:security, hallucination, content safety, tool use 等 [来源:DM Post-train Security访谈260301]
- 每个组内分两类人:做基模 post-train 的 + 非 post-train(部署/运维/外围系统)[来源:DM Post-train Security访谈260301]
能力划分维度
- Verifiable:Coding(最大)、数学 → 人最多,好出成果
- Unverifiable/Model Behavior:Writing / Collaborative / Proactive AI / Sycophancy → 只有三家大厂在做,Pure Research
- 横向能力:Reasoning / Instruction Following / Tool Call / 审美
- 模态维度:文字 / 图像 / 视频 / 音频(另一种划分方式,与能力划分交叉)[来源:Collaborative访谈]
运作方式
- Big Goal Top-down:Melvin 级别定大阶段目标 [来源:Collaborative访谈]
- 执行方案 Bottom-up:如何拆解能力、选哪些细分点突破由下层决定 [来源:Collaborative访谈]
- Pairwise 目标设定:对标竞品——Claude Code 做得好就抓 Code,GPT 视频好就上 Veo [来源:Collaborative访谈]
- 卡每周 Refresh:资源分配变化极快 [来源:Collaborative访谈]
- 组织极 Flat:新 Project 用人灵活,跨 Report Chain 拉人 [来源:Collaborative访谈]
- 跷跷板权衡:能力增长受限于技术瓶颈,某项指标下降需高层决定优先级 [来源:Collaborative访谈]
算力分配机制 [来源:DM App访谈260407]
- 月度 Resource Allocation:DM 高层(1-2 个 L7-8 TPGM + GenAI Leader Abby Len)决定
- 各组在 tool 上 make a case → leader review → 重要项目可能需 face-to-face explain,非常重要的直接在 tool 上给
- 分配以 project 为单位:大 project(如 Gemini 4 pre-training)优先级最高,小 project 优先级极低
- → tpu-infrastructure-strategy.md
合版机制
- "One Launch Thing" 团队(30-40人):负责所有 Gemini Model 的最终 Release [来源:合版访谈]
- 各能力组独立迭代 → 最终 Merge:Merge 时看 Trade-off [来源:Collaborative访谈]
- RL Stage 数据量不需太大:关键在精细度,算力充足则多跑实验 [来源:Collaborative访谈]
- Post-train 与 Eval 并行:同一人既做 Eval 也做 Training [来源:Collaborative访谈]
话语权分布
- Post-train > 产品端("谁有卡,谁有话语权")[来源:Collaborative访谈]
- User Signal Team 收集反馈 → Post-train 必须 Address 才能 Release [来源:Collaborative访谈]
- 产品端反馈太 Noisy/Sparse,Reddit 吐槽甚至更有用 [来源:Collaborative访谈]
- Coordination Team(几十人)管所有 post-train 小组,push back 占工作很大部分,在 Google scale 基本跑通 [来源:DM Post-train Security访谈260301] [印证来源:研究3]
数据支撑
- Post-train 人员工作强度:每周 50-70 小时 [来源:Collaborative访谈]
- 半年 Review 一次,不根据 Performance 裁员(vs. Meta 固定比例裁员)[来源:Collaborative访谈]
- GDM 被戏称 AI"黄埔军校"——人才流失严重 [来源:Collaborative访谈]
与其他概念关系
待验证假设
- 2000+人的 Post-train 团队效率是否优于 Anthropic 的精干团队?规模是优势还是负担?
- Pairwise 目标设定(跟着竞品走)是否会导致缺乏独立创新方向?
- 极度灵活的组织是否带来协调成本和知识传承损失?
🔗 相关节点
- Google DeepMind entity
- TPU 基础设施战略 concept