Scaling 极限与推理时计算 (Scaling Limits & Inference-time Compute) 概念

定义

DeepMind 内部对 Scaling Law 的 nuanced 判断:预训练 scaling 有 diminishing returns,但可以通过推理时计算(inference-time compute)、合成数据、算法创新来突破。

核心判断

Scaling 有 Diminishing Returns

突破路径

  1. Inference-time Compute:在推理阶段投入更多计算——对标 OpenAI o1/o3 [来源:podcast,Hassabis/Vinyals 视角]
  2. 合成数据:模型自生成训练数据突破人类数据天花板——但需精细质量控制 [来源:podcast,Vinyals 视角]
  3. RL / Self-play:AlphaZero 证明不需要人类数据即可超越人类——Silver "经验纪元" [来源:podcast,Silver 视角]
  4. 算法创新:Transformer 微调、训练过程优化、hyperparameter 创新——Vinyals 认为可以"弯曲" scaling 曲线 [来源:podcast,当事人视角]

DeepMind 的 Overtrain 路线

与竞争对手的路线分歧

维度DeepMindOpenAI
主路线Overtrain + 推理时计算 + RLScaling + 推理时计算
模型规模倾向控制规模,效率优先倾向更大模型
数据策略Crawl 优势 + 合成数据规模化 RLHF + 合成数据
算法创新强调(AlphaZero/RL 传统)较少公开论述

媒体报道印证 [来源:多家媒体]

待验证假设

🔗 相关节点