Post-train 组织机制 (Post-train Organization Mechanism) 概念

定义

DeepMind 内部 Post-training 的组织运作模式——2000+人按能力维度细分为 200+ 个 10 人小组，通过极度灵活的资源调度和 Top-down/Bottom-up 混合驱动实现快速迭代。这套机制是理解 Gemini 模型能力演进速度和方向的关键。

DM 总人数：8000人（Frontier AI 2000 + GenAI 4000 + Gemini App 2000 + 其他几百）[来源：DM App访谈260302]
GenAI 模型训练：大几百人参与训练，Pre-train+SFT+RL 占 10%，通用 post-train 占 90% [来源：DM Post-train Security访谈260301]
Pre-train：小几百人 [来源：Collaborative访谈]
Post-train：~2000 人，老大 Melvin Johnson（26年3月刚确定）[来源：Collaborative访谈]
基模后训练（文字/视频/图像）：~200多人，文字最多 [来源：多模态RL访谈]
核心中的核心：真正能训 Flash 级模型的仅 100-200 人 [来源：合版访谈]
最核心三组（Sergey 提到）：Pre-train 几十人 + Post-train 合版 30-40人 + Infra/Serving 若干 = 一两百人 [来源：合版访谈]
Flagship post-train：~100人（infra 50, data quality 10-20, RL, SFT）[来源：Gemini专家访谈260211]
通用 post-train 按 capability 分 10+ 小组：security, hallucination, content safety, tool use 等 [来源：DM Post-train Security访谈260301]
每个组内分两类人：做基模 post-train 的 + 非 post-train（部署/运维/外围系统）[来源：DM Post-train Security访谈260301]

Verifiable：Coding（最大）、数学 → 人最多，好出成果
Unverifiable/Model Behavior：Writing / Collaborative / Proactive AI / Sycophancy → 只有三家大厂在做，Pure Research
横向能力：Reasoning / Instruction Following / Tool Call / 审美
模态维度：文字 / 图像 / 视频 / 音频（另一种划分方式，与能力划分交叉）[来源：Collaborative访谈]

Big Goal Top-down：Melvin 级别定大阶段目标 [来源：Collaborative访谈]
执行方案 Bottom-up：如何拆解能力、选哪些细分点突破由下层决定 [来源：Collaborative访谈]
Pairwise 目标设定：对标竞品——Claude Code 做得好就抓 Code，GPT 视频好就上 Veo [来源：Collaborative访谈]
卡每周 Refresh：资源分配变化极快 [来源：Collaborative访谈]
组织极 Flat：新 Project 用人灵活，跨 Report Chain 拉人 [来源：Collaborative访谈]
跷跷板权衡：能力增长受限于技术瓶颈，某项指标下降需高层决定优先级 [来源：Collaborative访谈]

月度 Resource Allocation：DM 高层（1-2 个 L7-8 TPGM + GenAI Leader Abby Len）决定
各组在 tool 上 make a case → leader review → 重要项目可能需 face-to-face explain，非常重要的直接在 tool 上给
分配以 project 为单位：大 project（如 Gemini 4 pre-training）优先级最高，小 project 优先级极低
→ tpu-infrastructure-strategy.md

Post-train > 产品端（"谁有卡，谁有话语权"）[来源：Collaborative访谈]
User Signal Team 收集反馈 → Post-train 必须 Address 才能 Release [来源：Collaborative访谈]
产品端反馈太 Noisy/Sparse，Reddit 吐槽甚至更有用 [来源：Collaborative访谈]
Coordination Team（几十人）管所有 post-train 小组，push back 占工作很大部分，在 Google scale 基本跑通 [来源：DM Post-train Security访谈260301] [印证来源：研究3]