TPU 基础设施战略 (TPU Infrastructure Strategy) 概念
定义
Google 自研 TPU 芯片及配套软件栈(JAX、自定义分布式计算框架)的长期战略——已形成深度锁定,与 GPU/CUDA 生态完全脱钩,成为全栈 AI 战略的硬件底座。
机制拆解
自研路径的历史逻辑
Google 一贯自己定义技术基础设施规则 [来源:DM App访谈260407]:
- Code base:Google Three(非 GitHub)
- 分布式计算:MapReduce(非 Apache 生态)
- 硬件:TPU(非 NVIDIA GPU)
TPU 起源:算力危机而非战略规划 [来源:深度分析,有引用支撑] [多源印证:前 TPU 工程师 Henry podcast]
- 2014年 Jeff Dean 的具体计算:如果10亿 Android 用户每天用3分钟语音识别 → 需要翻倍数据中心 → "We need another Google" [直接引语]
- 替代方案:设计专为矩阵乘法优化的自研芯片
- 核心设计思路:降低计算精度(4586.8272 → 4586.8 → 4586),换取同等功耗/内存/晶体管下更多计算
- 从设计到部署仅 15 个月——"hair-on-fire response" 而非从容规划
- TPU v1 设计成硬盘 form factor 以嵌入现有服务器机架,无需物理重新架构
- 保密一年+ 后才公开
- 2025年估计 2-3M 颗 TPU,接近 NVIDIA GPU 出货规模 [来源:深度分析]
- 成本结构优势:行业付 NVIDIA ~80% 整机毛利率 vs. Google 付 Broadcom ~50% 芯片毛利率——芯片占数据中心成本过半时这个差距是决定性的 [来源:深度分析]
TPU 演进时间线
| 版本 | 年份 | 备注 |
|---|---|---|
| TPU v1 | 2015 | 推理专用,Jeff Dean + David Patterson 推动,起因是语音推理用 CPU 太贵 |
| TPU v2 | 2017 | 支持训练,用于 AlphaGo、PaLM、Bard、早期 Transformer |
| TPU v3 | 2018 | — |
| TPU v4 | ~2021 | 引入 3D Torus + OCS(光交换机)→ MoE 效率大幅提升 |
| TPU v6 | ~2023 | 开始分训练/推理两个版本,全面转向大模型优化 |
| TPU v7 (Ironwood) | 2025 | 峰值 FLOPs 接近 GB200,HBM 带宽大幅提升 |
| TPU v8 | 设计中 | 已在设计阶段 |
[来源:前TPU工程师 Henry podcast]
技术绑定深度(无法剥离)[来源:DM App访谈260407]
- 资金沉没:已投入大量资金
- 软件栈完全自研:JAX 框架 + 自定义 request routing / data center 管理 / 分布式计算——其他公司基本用开源
- 所有 code 写在 TPU 上,所有 test 在 TPU 运行
- 性能优化路线不同:TPU 用 bfloat16(vs. GPU 默认 float32),节省内存
内部 GPU 使用情况 [来源:DM App访谈260407]
- GPU 主要在 Cloud 给客户使用
- 内部基本不用 GPU,除非产能瓶颈
- 25年初似乎遇到过产能瓶颈,但团队选择等 TPU——因为换 GPU 可能出 error,没人想 debug(越底层越难)
- 这说明 TPU 锁定不仅是战略选择,也是组织惯性:工程师的技能、工具链、测试体系都围绕 TPU 构建
战略意义
- 正面:避免对 NVIDIA/CUDA 的依赖,自主可控,长期成本优势潜力
- 负面:与外部 GPU 生态脱钩,人才池受限(外部 AI 人才普遍基于 PyTorch/CUDA),内部产能瓶颈时缺乏灵活性
- 外部信号:Google 很早就看到 GPU-CUDA 绑定的瓶颈——这是自研 TPU 的核心动机 [来源:DM App访谈260407]
与其他概念关系
- 是 全栈式 AI 战略 的 Infra 支柱核心
- 与 Post-train 组织机制 的算力分配机制直接相关——算力以 TPU 为单位分配
- 影响 Coding Agent 战略——Anti-Gravity 在 Cloud(客户用 GPU),但模型训练仍在 TPU
算力分配机制
公司级分配(跨 PA)[来源:媒体,已公开事实]
- 高管算力分配委员会:Thomas Kurian(Cloud)、Hassabis、Koray、Nick Fox(K&I)、James Manyika、CFO Ashkenazi
- 前身为 MLSA(Machine Learning Strategy and Allocation),因太大而难以决策被精简
- 2025年约一半算力分配给 Cloud [来源:媒体,已公开事实]
- 考虑因素:Cloud 预期收入、产品增长预测
- 重大决策有时上报 Pichai 和 Alphabet 董事会
- [多源印证:与 tier2 DM App 访谈 260407 中"Cloud 拿走大量算力"的说法一致]
DeepMind 内部分配 [来源:DM App访谈260407]
- Allocator:DM 高层决定,1-2 个 Director level 以上(L7-8)TPGM
- Koray 和其下 VP 负责 DeepMind 内部算力分配决策 [多源印证:媒体报道]
- GenAI Leader:Abby Len(Mountain View)负责 resource allocation [来源:DM App访谈260407,人名可能为音译不准确]
- 流程:月度 resource allocation → 各组在 tool 上 make a case → leader review → 重要项目可能需 face-to-face explain
- 优先级:大 project(如 Gemini 4 pre-training)最高,小 OEM backend 最低
- Gemini 手机 OEM 体量排名:Pixel 和 Samsung 最大,其他都很低
- 研究人员可从其他团队借用算力——以未来回报或调试帮助交换 [来源:媒体,已公开事实]
TPU 架构技术细节 [来源:前TPU工程师 Henry podcast,当事人视角]
核心架构差异
- GPU = SIMT(多线程独立思考的多个大厨);TPU = 脉动阵列(确定性流水线)
- TPU 硬件更「笨」——不做预测、不做调度,全部交给 XLA 编译器在软件层解决
- 结果:每个计算单元利用率更高,满功率运行无 idle period
XLA 编译器 = 黑盒秘密武器
- 静态编译器,给定 workload 后做全局 TPU Pod 级优化
- 算子融合 + 内存管理 + 数据搬运优化 → 深度依赖硬件架构知识
- Debug 极难:有工具但需硬件知识,外部开发者难独立修 bug(不像 CUDA 有开放生态)
- Google 有多个软件组专门对接外部客户(Apple、Midjourney、Anthropic),非常忙
- 「软件决定 TPU 的上限」——比芯片本身更关键
ICI 通信与拓扑
- TPU Pod 用铜直连(chip-to-chip)+ 少量 OCS(光交换机),成本远低于 GPU 的 NVLink/NVSwitch
- V4 引入 3D Torus + OCS(软件可编程路径)→ 解决了 MoE 的 All-to-All 通信瓶颈
- 几千张卡「感觉像一张卡」→ 训练效率极高 [多源印证:与 Jeff Dean podcast 全同步训练描述一致]
产能与供应链瓶颈
- CoWoS 封装:只有 TSMC 能做,产能分配制
- HBM 供应:SK hynix / Samsung / Micron 三家垄断,NVIDIA 是最大客户,TPU 是次要客户
- 良率:TPU 要求集群内芯片性能一致(不像 GPU 可以降级阉割),不合格直接报废
- Broadcom:负责 ICI 通信设计,是关键中间商,议价权随 TPU 增量而增大
- SerDes:TPU 数据中心的主要成本在于芯片间信号传输的稳定性
外部客户生态
- 直接购买 TPU 机架:仅 Anthropic(100 万颗 TPU 订单)
- Apple:最大外部用户团队(庞若明把 Google 整套技术栈带过去)
- 其他客户通过 Google Cloud 使用 → 利用率只有 50-60%,但付同样的钱
- 使用 TPU 必须迁移到 JAX/XLA 栈 → 极高技术门槛
- Anthropic Claude Opus 4.5 API 降价 67% 部分归功于 TPU 推理成本优势
TPU 本质是 Transformer ASIC [来源:podcast,Henry,当事人视角]
- 从 Transformer 发明起就沿这条路径优化——先发优势巨大
- 但 ASIC 的宿命是通用性差——如果出现非 Transformer 新架构,TPU 先发优势会被蚕食
- 当前策略:计算和内存模块化,增加通用性——但本质是对通用性的妥协
- 在限定条件(大规模部署 + Transformer 架构)下,TPU 完全可挑战 GPU
- 不擅长的场景:Agent(单用户低延迟)——TPU 需要大批量吞吐才能分摊成本
推理市场分层 [来源:podcast,Henry,当事人视角]
- 最大规模:Google/TPU
- 中间层:各大厂自研 ASIC
- 低延迟/Agent:Groq 等专用芯片
- 未来是 TPU + GPU + 垂类 ASIC 共存的健康生态
待验证假设
- TPU 自研路线的长期 TCO 是否真优于 GPU?→ 前 TPU 工程师 Henry 确认:在大规模部署 + 已知 workload 下,TPU 的 TCO 确实优于 GPU [来源:podcast,当事人视角,部分验证]
- 随着外部 GPU 生态(CUDA 替代品如 Triton)的发展,TPU 的"避免锁定"优势是否在减弱?
- JAX 生态是否会成为 Google 吸引外部 AI 人才的障碍?
- 新增:HBM 供应会成为 TPU 扩产的硬约束吗?「未来几年 HBM 可能决定你的上限」[来源:Henry podcast]
- 新增:芯片迭代 2-2.5 年周期 vs. 模型 6 个月更新——如果 post-Transformer 架构出现,TPU 能否快速响应?
🔗 相关节点
- Google DeepMind entity
- 全栈式 AI 创新战略 concept
- Gemini entity
- Jeff Dean entity
- Post-train 组织机制 concept