TPU 基础设施战略 (TPU Infrastructure Strategy) 概念

定义

Google 自研 TPU 芯片及配套软件栈(JAX、自定义分布式计算框架)的长期战略——已形成深度锁定,与 GPU/CUDA 生态完全脱钩,成为全栈 AI 战略的硬件底座。

机制拆解

自研路径的历史逻辑

Google 一贯自己定义技术基础设施规则 [来源:DM App访谈260407]

TPU 起源:算力危机而非战略规划 [来源:深度分析,有引用支撑] [多源印证:前 TPU 工程师 Henry podcast]

TPU 演进时间线

版本年份备注
TPU v12015推理专用,Jeff Dean + David Patterson 推动,起因是语音推理用 CPU 太贵
TPU v22017支持训练,用于 AlphaGo、PaLM、Bard、早期 Transformer
TPU v32018
TPU v4~2021引入 3D Torus + OCS(光交换机)→ MoE 效率大幅提升
TPU v6~2023开始分训练/推理两个版本,全面转向大模型优化
TPU v7 (Ironwood)2025峰值 FLOPs 接近 GB200,HBM 带宽大幅提升
TPU v8设计中已在设计阶段

[来源:前TPU工程师 Henry podcast]

技术绑定深度(无法剥离)[来源:DM App访谈260407]

  1. 资金沉没:已投入大量资金
  2. 软件栈完全自研:JAX 框架 + 自定义 request routing / data center 管理 / 分布式计算——其他公司基本用开源
  3. 所有 code 写在 TPU 上,所有 test 在 TPU 运行
  4. 性能优化路线不同:TPU 用 bfloat16(vs. GPU 默认 float32),节省内存

内部 GPU 使用情况 [来源:DM App访谈260407]

战略意义

与其他概念关系

算力分配机制

公司级分配(跨 PA)[来源:媒体,已公开事实]

DeepMind 内部分配 [来源:DM App访谈260407]

TPU 架构技术细节 [来源:前TPU工程师 Henry podcast,当事人视角]

核心架构差异

XLA 编译器 = 黑盒秘密武器

ICI 通信与拓扑

产能与供应链瓶颈

外部客户生态

TPU 本质是 Transformer ASIC [来源:podcast,Henry,当事人视角]

推理市场分层 [来源:podcast,Henry,当事人视角]

待验证假设

🔗 相关节点