TPU 基础设施战略 (TPU Infrastructure Strategy) 概念

定义

Google 自研 TPU 芯片及配套软件栈（JAX、自定义分布式计算框架）的长期战略——已形成深度锁定，与 GPU/CUDA 生态完全脱钩，成为全栈 AI 战略的硬件底座。

机制拆解

自研路径的历史逻辑

Google 一贯自己定义技术基础设施规则 [来源：DM App访谈260407]：

Code base：Google Three（非 GitHub）
分布式计算：MapReduce（非 Apache 生态）
硬件：TPU（非 NVIDIA GPU）

TPU 起源：算力危机而非战略规划 [来源：深度分析，有引用支撑] [多源印证：前 TPU 工程师 Henry podcast]

2014年 Jeff Dean 的具体计算：如果10亿 Android 用户每天用3分钟语音识别 → 需要翻倍数据中心 → "We need another Google" [直接引语]
替代方案：设计专为矩阵乘法优化的自研芯片
核心设计思路：降低计算精度（4586.8272 → 4586.8 → 4586），换取同等功耗/内存/晶体管下更多计算
从设计到部署仅 15 个月——"hair-on-fire response" 而非从容规划
TPU v1 设计成硬盘 form factor 以嵌入现有服务器机架，无需物理重新架构
保密一年+ 后才公开
2025年估计 2-3M 颗 TPU，接近 NVIDIA GPU 出货规模 [来源：深度分析]
成本结构优势：行业付 NVIDIA ~80% 整机毛利率 vs. Google 付 Broadcom ~50% 芯片毛利率——芯片占数据中心成本过半时这个差距是决定性的 [来源：深度分析]

TPU 演进时间线

版本	年份	备注
TPU v1	2015	推理专用，Jeff Dean + David Patterson 推动，起因是语音推理用 CPU 太贵
TPU v2	2017	支持训练，用于 AlphaGo、PaLM、Bard、早期 Transformer
TPU v3	2018	—
TPU v4	~2021	引入 3D Torus + OCS（光交换机）→ MoE 效率大幅提升
TPU v6	~2023	开始分训练/推理两个版本，全面转向大模型优化
TPU v7 (Ironwood)	2025	峰值 FLOPs 接近 GB200，HBM 带宽大幅提升
TPU v8	设计中	已在设计阶段

[来源：前TPU工程师 Henry podcast]

技术绑定深度（无法剥离）[来源：DM App访谈260407]

资金沉没：已投入大量资金
软件栈完全自研：JAX 框架 + 自定义 request routing / data center 管理 / 分布式计算——其他公司基本用开源
所有 code 写在 TPU 上，所有 test 在 TPU 运行
性能优化路线不同：TPU 用 bfloat16（vs. GPU 默认 float32），节省内存

内部 GPU 使用情况 [来源：DM App访谈260407]

GPU 主要在 Cloud 给客户使用
内部基本不用 GPU，除非产能瓶颈
25年初似乎遇到过产能瓶颈，但团队选择等 TPU——因为换 GPU 可能出 error，没人想 debug（越底层越难）
这说明 TPU 锁定不仅是战略选择，也是组织惯性：工程师的技能、工具链、测试体系都围绕 TPU 构建

战略意义

正面：避免对 NVIDIA/CUDA 的依赖，自主可控，长期成本优势潜力
负面：与外部 GPU 生态脱钩，人才池受限（外部 AI 人才普遍基于 PyTorch/CUDA），内部产能瓶颈时缺乏灵活性
外部信号：Google 很早就看到 GPU-CUDA 绑定的瓶颈——这是自研 TPU 的核心动机 [来源：DM App访谈260407]

与其他概念关系

是全栈式 AI 战略的 Infra 支柱核心
与 Post-train 组织机制的算力分配机制直接相关——算力以 TPU 为单位分配
影响 Coding Agent 战略——Anti-Gravity 在 Cloud（客户用 GPU），但模型训练仍在 TPU

算力分配机制

公司级分配（跨 PA）[来源：媒体，已公开事实]

高管算力分配委员会：Thomas Kurian（Cloud）、Hassabis、Koray、Nick Fox（K&I）、James Manyika、CFO Ashkenazi
前身为 MLSA（Machine Learning Strategy and Allocation），因太大而难以决策被精简
2025年约一半算力分配给 Cloud [来源：媒体，已公开事实]
考虑因素：Cloud 预期收入、产品增长预测
重大决策有时上报 Pichai 和 Alphabet 董事会
[多源印证：与 tier2 DM App 访谈 260407 中"Cloud 拿走大量算力"的说法一致]

DeepMind 内部分配 [来源：DM App访谈260407]

Allocator：DM 高层决定，1-2 个 Director level 以上（L7-8）TPGM
Koray 和其下 VP 负责 DeepMind 内部算力分配决策 [多源印证：媒体报道]
GenAI Leader：Abby Len（Mountain View）负责 resource allocation [来源：DM App访谈260407，人名可能为音译不准确]
流程：月度 resource allocation → 各组在 tool 上 make a case → leader review → 重要项目可能需 face-to-face explain
优先级：大 project（如 Gemini 4 pre-training）最高，小 OEM backend 最低
Gemini 手机 OEM 体量排名：Pixel 和 Samsung 最大，其他都很低
研究人员可从其他团队借用算力——以未来回报或调试帮助交换 [来源：媒体，已公开事实]

TPU 架构技术细节 [来源：前TPU工程师 Henry podcast，当事人视角]

核心架构差异

GPU = SIMT（多线程独立思考的多个大厨）；TPU = 脉动阵列（确定性流水线）
TPU 硬件更「笨」——不做预测、不做调度，全部交给 XLA 编译器在软件层解决
结果：每个计算单元利用率更高，满功率运行无 idle period

XLA 编译器 = 黑盒秘密武器

静态编译器，给定 workload 后做全局 TPU Pod 级优化
算子融合 + 内存管理 + 数据搬运优化 → 深度依赖硬件架构知识
Debug 极难：有工具但需硬件知识，外部开发者难独立修 bug（不像 CUDA 有开放生态）
Google 有多个软件组专门对接外部客户（Apple、Midjourney、Anthropic），非常忙
「软件决定 TPU 的上限」——比芯片本身更关键

ICI 通信与拓扑

TPU Pod 用铜直连（chip-to-chip）+ 少量 OCS（光交换机），成本远低于 GPU 的 NVLink/NVSwitch
V4 引入 3D Torus + OCS（软件可编程路径）→ 解决了 MoE 的 All-to-All 通信瓶颈
几千张卡「感觉像一张卡」→ 训练效率极高 [多源印证：与 Jeff Dean podcast 全同步训练描述一致]

产能与供应链瓶颈

CoWoS 封装：只有 TSMC 能做，产能分配制
HBM 供应：SK hynix / Samsung / Micron 三家垄断，NVIDIA 是最大客户，TPU 是次要客户
良率：TPU 要求集群内芯片性能一致（不像 GPU 可以降级阉割），不合格直接报废
Broadcom：负责 ICI 通信设计，是关键中间商，议价权随 TPU 增量而增大
SerDes：TPU 数据中心的主要成本在于芯片间信号传输的稳定性

外部客户生态

直接购买 TPU 机架：仅 Anthropic（100 万颗 TPU 订单）
Apple：最大外部用户团队（庞若明把 Google 整套技术栈带过去）
其他客户通过 Google Cloud 使用 → 利用率只有 50-60%，但付同样的钱
使用 TPU 必须迁移到 JAX/XLA 栈 → 极高技术门槛
Anthropic Claude Opus 4.5 API 降价 67% 部分归功于 TPU 推理成本优势

TPU 本质是 Transformer ASIC [来源：podcast，Henry，当事人视角]

从 Transformer 发明起就沿这条路径优化——先发优势巨大
但 ASIC 的宿命是通用性差——如果出现非 Transformer 新架构，TPU 先发优势会被蚕食
当前策略：计算和内存模块化，增加通用性——但本质是对通用性的妥协
在限定条件（大规模部署 + Transformer 架构）下，TPU 完全可挑战 GPU
不擅长的场景：Agent（单用户低延迟）——TPU 需要大批量吞吐才能分摊成本

推理市场分层 [来源：podcast，Henry，当事人视角]

最大规模：Google/TPU
中间层：各大厂自研 ASIC
低延迟/Agent：Groq 等专用芯片
未来是 TPU + GPU + 垂类 ASIC 共存的健康生态

待验证假设

TPU 自研路线的长期 TCO 是否真优于 GPU？→ 前 TPU 工程师 Henry 确认：在大规模部署 + 已知 workload 下，TPU 的 TCO 确实优于 GPU [来源：podcast，当事人视角，部分验证]
随着外部 GPU 生态（CUDA 替代品如 Triton）的发展，TPU 的"避免锁定"优势是否在减弱？
JAX 生态是否会成为 Google 吸引外部 AI 人才的障碍？
新增：HBM 供应会成为 TPU 扩产的硬约束吗？「未来几年 HBM 可能决定你的上限」[来源：Henry podcast]
新增：芯片迭代 2-2.5 年周期 vs. 模型 6 个月更新——如果 post-Transformer 架构出现，TPU 能否快速响应？

🔗 相关节点