数据即模型 (Data Is The Model) 概念

定义

在预训练进入 overtrain 时代、post-train 以 RL 为核心范式的背景下，数据的质量、选取和 taste 已成为模型能力的决定性因素，超越算法创新和模型架构本身。多位 DeepMind 受访者在不同访谈中独立印证了这一判断。

机制拆解

预训练：Overtrain 范式

模型规模不再无限膨胀，核心转向控制模型规模 + 大量 overtrain [来源：数据&评估访谈]
推理成本是约束——inference optimal > compute optimal [来源：数据&评估访谈]
Hero run 一年仅1-2次，数据量大幅超越理论最优配比 [来源：数据&评估访谈]
Overtrain 范式的技术细节见 → scaling-and-inference.md
所有数据会被重复学习，重要数据多次迭代。过拟合风险需特定机制防范 [来源：数据&评估访谈]

Post-train：数据 > 算法

"数据最重要，算法差点问题不大" [来源：合版访谈，多源印证]（4+ 独立来源：合版访谈+数据&评估访谈+Koray podcast+Jeff Dean podcast）
DeepMind 每年可能只有一两个真正好的算法突破。GRPO 出来两年无惊艳后续 [来源：合版访谈，待验证]
RL 数据极难做：需要好环境、Tool calls 难、供应商数据只有~50%可用、太简单/太难都不行 [来源：数据&评估访谈]
SFT 数据"越少越好"，各 Vertical 提供的数据 70-80% 被砍掉 [来源：合版访谈]

Taste 是核心能力

"对数据的敏感度、能不能挑出好数据，是目前最重要的能力" [来源：Collaborative访谈，多源印证]（4+ 独立来源：合版访谈+数据&评估访谈+Koray podcast+Jeff Dean podcast）
"数据 taste 和问题定义比算法更重要" [来源：Collaborative访谈，多源印证]（4+ 独立来源：合版访谈+数据&评估访谈+Koray podcast+Jeff Dean podcast）
模型达到一定 Level 后，原有 Taste 可能失效，需重新定义问题 [来源：Collaborative访谈]
标注市场质量堪忧（Scale AI 等），劣币驱逐良币，最终决定权必须在自己手里 [来源：Collaborative访谈]

数据供给挑战

AI 生成内容污染：上一代蒸馏数据喂给下一代可能损害能力。这比"数据用完"更大 [来源：数据&评估访谈]
Google 的爬取优势：不是专有数据，而是 crawl 能力更强 [来源：数据&评估访谈]
数据采购战略性 > 训练效用：纯为训练买数据影响有限，更多是维护内容生态 [来源：数据&评估访谈]
后训练评估数据极贵：$1000/条不算贵 [来源：数据&评估访谈]

数据支撑

评估芯片消耗 ≈ 训练芯片消耗 [来源：数据&评估访谈]
Gemini SFT 数据量仍比 ChatGPT / Claude 多（即使执行"越少越好"原则）[来源：合版访谈]
Pre-train 核心组几十人，Post-train 合版核心 30-40人 [来源：合版访谈]

与其他概念关系

重塑了模型-产品协作模式——产品团队对数据的贡献受到严格筛选
是全栈式 AI 战略 Model 支柱的核心方法论
影响搜索防守机制——AIM 使用 Flash 模型的选择也受数据和训练效率约束

待验证假设

当 RL 数据瓶颈被突破（环境自动生成/更好的合成方法），算法是否会重新变得更重要？
"数据 taste" 是否可以被 AI 辅助系统化？还是本质上依赖人类直觉？
Google 的 crawl 优势是否会随 AI 生成内容比例上升而被侵蚀？

🔗 相关节点

Google DeepMind entity