数据即模型 (Data Is The Model) 概念
定义
在预训练进入 overtrain 时代、post-train 以 RL 为核心范式的背景下,数据的质量、选取和 taste 已成为模型能力的决定性因素,超越算法创新和模型架构本身。多位 DeepMind 受访者在不同访谈中独立印证了这一判断。
机制拆解
预训练:Overtrain 范式
- 模型规模不再无限膨胀,核心转向控制模型规模 + 大量 overtrain [来源:数据&评估访谈]
- 推理成本是约束——inference optimal > compute optimal [来源:数据&评估访谈]
- Hero run 一年仅1-2次,数据量大幅超越理论最优配比 [来源:数据&评估访谈]
- Overtrain 范式的技术细节见 → scaling-and-inference.md
- 所有数据会被重复学习,重要数据多次迭代。过拟合风险需特定机制防范 [来源:数据&评估访谈]
Post-train:数据 > 算法
- "数据最重要,算法差点问题不大" [来源:合版访谈,多源印证](4+ 独立来源:合版访谈+数据&评估访谈+Koray podcast+Jeff Dean podcast)
- DeepMind 每年可能只有一两个真正好的算法突破。GRPO 出来两年无惊艳后续 [来源:合版访谈,待验证]
- RL 数据极难做:需要好环境、Tool calls 难、供应商数据只有~50%可用、太简单/太难都不行 [来源:数据&评估访谈]
- SFT 数据"越少越好",各 Vertical 提供的数据 70-80% 被砍掉 [来源:合版访谈]
Taste 是核心能力
- "对数据的敏感度、能不能挑出好数据,是目前最重要的能力" [来源:Collaborative访谈,多源印证](4+ 独立来源:合版访谈+数据&评估访谈+Koray podcast+Jeff Dean podcast)
- "数据 taste 和问题定义比算法更重要" [来源:Collaborative访谈,多源印证](4+ 独立来源:合版访谈+数据&评估访谈+Koray podcast+Jeff Dean podcast)
- 模型达到一定 Level 后,原有 Taste 可能失效,需重新定义问题 [来源:Collaborative访谈]
- 标注市场质量堪忧(Scale AI 等),劣币驱逐良币,最终决定权必须在自己手里 [来源:Collaborative访谈]
数据供给挑战
- AI 生成内容污染:上一代蒸馏数据喂给下一代可能损害能力。这比"数据用完"更大 [来源:数据&评估访谈]
- Google 的爬取优势:不是专有数据,而是 crawl 能力更强 [来源:数据&评估访谈]
- 数据采购战略性 > 训练效用:纯为训练买数据影响有限,更多是维护内容生态 [来源:数据&评估访谈]
- 后训练评估数据极贵:$1000/条不算贵 [来源:数据&评估访谈]
数据支撑
- 评估芯片消耗 ≈ 训练芯片消耗 [来源:数据&评估访谈]
- Gemini SFT 数据量仍比 ChatGPT / Claude 多(即使执行"越少越好"原则)[来源:合版访谈]
- Pre-train 核心组几十人,Post-train 合版核心 30-40人 [来源:合版访谈]
与其他概念关系
待验证假设
- 当 RL 数据瓶颈被突破(环境自动生成/更好的合成方法),算法是否会重新变得更重要?
- "数据 taste" 是否可以被 AI 辅助系统化?还是本质上依赖人类直觉?
- Google 的 crawl 优势是否会随 AI 生成内容比例上升而被侵蚀?
🔗 相关节点
- Google DeepMind entity