Noam Shazeer 实体

Transformer 论文共同作者、MoE 先驱、Google Gemini co-lead。曾离开 Google 创办 Character.AI，后回归 Google 领导 Gemini 模型研发。

核心贡献

语言模型先驱（2000-2001）：受 George Herrick "压缩即理解"理论启发，停下其他工作全力投入语言模型研究——期间正值 Larry Page 裁撤所有工程管理层 [来源：深度分析，有引用支撑]
PHIL（Probabilistic Hierarchical Inferential Learner）：与 George Herrick 共同构建的 Google 最早语言模型，应用于拼写纠正（"did you mean"）和 AdSense 内容理解（2003），巅峰期占 Google 15% 数据中心算力 [来源：深度分析，有引用支撑]
Transformer 论文共同作者（2017）：听说 Jakob Uszkoreit 的 attention 概念后加入项目，从零重写整个代码库——这是 Transformer 成功的技术转折点（重写前效果不如 LSTM，重写后碾压一切）[来源：深度分析，有引用支撑] [多源印证：与 tier4 $2.7B 回归报道中"一个修复值整个收购价"的技术判断一致]
MoE（Mixture of Experts）的早期研究者——2000+ experts 模型中发现 expert 语义可解释性（圆柱形物体、日期等）
大规模语言模型在翻译中的应用（2007）
回归后修复 Gemini 预训练架构关键问题 → Gemini 2.5 质量大幅跃升（"一个修复值整个 Character 收购价"）[来源：媒体，已公开事实]
Co-led 对标 OpenAI o1-preview 的 thinking model 研发 [来源：媒体，已公开事实]
目前领导约 50 人团队专注 long-context learning [来源：媒体，已公开事实]