Scaling 极限与推理时计算 (Scaling Limits & Inference-time Compute) 概念

定义

DeepMind 内部对 Scaling Law 的 nuanced 判断：预训练 scaling 有 diminishing returns，但可以通过推理时计算（inference-time compute）、合成数据、算法创新来突破。

核心判断

Scaling 有 Diminishing Returns

Vinyals："对数坐标下看似线性，实际是指数投入换线性收益"——"收拾房间类比"：前10分钟效果巨大，7小时后10分钟无差别 [来源：podcast，当事人视角]
Hassabis："不是所有问题都能靠 scaling 解决"——需要架构创新 [来源：podcast，当事人视角]
Silver：人类数据有天花板——"Bitter Lesson"证明，拿掉人类数据系统反而更好 [来源：podcast，当事人视角]
[多源印证] 与 tier2 数据&评估访谈中 "overtrain 路线" 一致——控制模型规模、大量 overtrain，inference optimal > compute optimal

突破路径

Inference-time Compute：在推理阶段投入更多计算——对标 OpenAI o1/o3 [来源：podcast，Hassabis/Vinyals 视角]
合成数据：模型自生成训练数据突破人类数据天花板——但需精细质量控制 [来源：podcast，Vinyals 视角]
RL / Self-play：AlphaZero 证明不需要人类数据即可超越人类——Silver "经验纪元" [来源：podcast，Silver 视角]
算法创新：Transformer 微调、训练过程优化、hyperparameter 创新——Vinyals 认为可以"弯曲" scaling 曲线 [来源：podcast，当事人视角]

DeepMind 的 Overtrain 路线

控制模型参数规模（不追求最大模型）
用更多数据/更长训练时间 overtrain
优化推理效率而非训练效率
[多源印证] 与 tier2 数据&评估访谈、CTO Koray 访谈一致

与竞争对手的路线分歧

维度	DeepMind	OpenAI
主路线	Overtrain + 推理时计算 + RL	Scaling + 推理时计算
模型规模倾向	控制规模，效率优先	倾向更大模型
数据策略	Crawl 优势 + 合成数据	规模化 RLHF + 合成数据
算法创新	强调（AlphaZero/RL 传统）	较少公开论述

媒体报道印证 [来源：多家媒体]

2024年11月 The Information 报道 Gemini 传统 scaling 遭遇性能增长放缓——增加算力和数据后未达预期 [多源印证：与 tier2/tier3 中 overtrain 路线论述一致]
Google 成立专门团队（Jack Rae + Noam Shazeer 领导）开发 reasoning model [来源：媒体，已公开事实]
合成数据和多模态数据训练效果不如预期 [来源：媒体——与 tier2 数据评估访谈"数据质量>数量"判断一致]
训练数据中发现 duplicate data 问题 [来源：媒体，已公开事实]

待验证假设

Overtrain 路线是否在所有能力维度都优于 pure scaling？
Inference-time compute 能否替代预训练 scaling 达到同等效果？
合成数据的质量控制是否存在规模化瓶颈？

🔗 相关节点

Google DeepMind entity
Gemini entity