Noam Shazeer 实体
Transformer 论文共同作者、MoE 先驱、Google Gemini co-lead。曾离开 Google 创办 Character.AI,后回归 Google 领导 Gemini 模型研发。
核心贡献
- 语言模型先驱(2000-2001):受 George Herrick "压缩即理解"理论启发,停下其他工作全力投入语言模型研究——期间正值 Larry Page 裁撤所有工程管理层 [来源:深度分析,有引用支撑]
- PHIL(Probabilistic Hierarchical Inferential Learner):与 George Herrick 共同构建的 Google 最早语言模型,应用于拼写纠正("did you mean")和 AdSense 内容理解(2003),巅峰期占 Google 15% 数据中心算力 [来源:深度分析,有引用支撑]
- Transformer 论文共同作者(2017):听说 Jakob Uszkoreit 的 attention 概念后加入项目,从零重写整个代码库——这是 Transformer 成功的技术转折点(重写前效果不如 LSTM,重写后碾压一切)[来源:深度分析,有引用支撑] [多源印证:与 tier4 $2.7B 回归报道中"一个修复值整个收购价"的技术判断一致]
- MoE(Mixture of Experts)的早期研究者——2000+ experts 模型中发现 expert 语义可解释性(圆柱形物体、日期等)
- 大规模语言模型在翻译中的应用(2007)
- 回归后修复 Gemini 预训练架构关键问题 → Gemini 2.5 质量大幅跃升("一个修复值整个 Character 收购价")[来源:媒体,已公开事实]
- Co-led 对标 OpenAI o1-preview 的 thinking model 研发 [来源:媒体,已公开事实]
- 目前领导约 50 人团队专注 long-context learning [来源:媒体,已公开事实]
回归经过 [来源:媒体,已公开事实]
- ~2020年在 Google 开发类 ChatGPT 聊天机器人(与 Daniel de Freitas),Google 以安全风险阻止发布
- 2021年离职创办 Character.AI
- 2024年8月以 $2.7B 交易回归 Google(雇用 Shazeer/de Freitas + 授权技术)
- 与 Sergey Brin、Larry Page 关系密切 [多源印证:媒体报道]
技术判断 [来源:podcast,当事人视角]
加速派
- 明确站在 intelligence explosion 加速一边:「我停止打扫车库了,等机器人来」
- 「个人内阁」式 AI 助理:戴在眼镜上,分析你看到的一切
- 每多花 2 倍推理计算 = 5-10 IQ 提升 → 人们愿意每天花 $20
- 预测 AI 算力占世界 GDP 比例将极大
AI 安全
- 「分析文本比生成文本更容易」→ LLM 检查 LLM 输出是可行的安全路径
- 通过 API / UI 暴露模型能力来控制用途
训练方法
- Dropout + 多 epoch 可以从现有文本数据中提取更多学习信号
- 人类只看 ~10 亿 token 就学到很多 → 数据效率有巨大提升空间
- 自我对话(thought experiment)也是学习形式——「数学家、棋手不需要额外输入就能变强」
组织观察 [来源:podcast,当事人视角]
- Google Brain 的 bottom-up 算力分配(UBI 式,每人一 credit 投票)→ 灵活但缺乏聚焦
- Gemini 时代的 top-down 管理 → 协作增强,但激励变形(争资源隐瞒问题)
- 建议未来混合模式
与其他实体关系
- 所在组织:Google DeepMind
- 长期搭档:Jeff Dean
- 核心产品:Gemini