Scaling 极限与推理时计算 (Scaling Limits & Inference-time Compute) 概念
定义
DeepMind 内部对 Scaling Law 的 nuanced 判断:预训练 scaling 有 diminishing returns,但可以通过推理时计算(inference-time compute)、合成数据、算法创新来突破。
核心判断
Scaling 有 Diminishing Returns
- Vinyals:"对数坐标下看似线性,实际是指数投入换线性收益"——"收拾房间类比":前10分钟效果巨大,7小时后10分钟无差别 [来源:podcast,当事人视角]
- Hassabis:"不是所有问题都能靠 scaling 解决"——需要架构创新 [来源:podcast,当事人视角]
- Silver:人类数据有天花板——"Bitter Lesson"证明,拿掉人类数据系统反而更好 [来源:podcast,当事人视角]
- [多源印证] 与 tier2 数据&评估访谈中 "overtrain 路线" 一致——控制模型规模、大量 overtrain,inference optimal > compute optimal
突破路径
- Inference-time Compute:在推理阶段投入更多计算——对标 OpenAI o1/o3 [来源:podcast,Hassabis/Vinyals 视角]
- 合成数据:模型自生成训练数据突破人类数据天花板——但需精细质量控制 [来源:podcast,Vinyals 视角]
- RL / Self-play:AlphaZero 证明不需要人类数据即可超越人类——Silver "经验纪元" [来源:podcast,Silver 视角]
- 算法创新:Transformer 微调、训练过程优化、hyperparameter 创新——Vinyals 认为可以"弯曲" scaling 曲线 [来源:podcast,当事人视角]
DeepMind 的 Overtrain 路线
- 控制模型参数规模(不追求最大模型)
- 用更多数据/更长训练时间 overtrain
- 优化推理效率而非训练效率
- [多源印证] 与 tier2 数据&评估访谈、CTO Koray 访谈一致
与竞争对手的路线分歧
| 维度 | DeepMind | OpenAI |
|---|---|---|
| 主路线 | Overtrain + 推理时计算 + RL | Scaling + 推理时计算 |
| 模型规模倾向 | 控制规模,效率优先 | 倾向更大模型 |
| 数据策略 | Crawl 优势 + 合成数据 | 规模化 RLHF + 合成数据 |
| 算法创新 | 强调(AlphaZero/RL 传统) | 较少公开论述 |
媒体报道印证 [来源:多家媒体]
- 2024年11月 The Information 报道 Gemini 传统 scaling 遭遇性能增长放缓——增加算力和数据后未达预期 [多源印证:与 tier2/tier3 中 overtrain 路线论述一致]
- Google 成立专门团队(Jack Rae + Noam Shazeer 领导)开发 reasoning model [来源:媒体,已公开事实]
- 合成数据和多模态数据训练效果不如预期 [来源:媒体——与 tier2 数据评估访谈"数据质量>数量"判断一致]
- 训练数据中发现 duplicate data 问题 [来源:媒体,已公开事实]
待验证假设
- Overtrain 路线是否在所有能力维度都优于 pure scaling?
- Inference-time compute 能否替代预训练 scaling 达到同等效果?
- 合成数据的质量控制是否存在规模化瓶颈?
🔗 相关节点
- Google DeepMind entity
- Gemini entity