Gemini 实体

Google 的核心 AI 模型品牌及独立 chatbot 产品，由 DeepMind 主导研发，既是基座模型也是面向消费者的 AI 应用。

双重身份

1. 作为模型

由 DeepMind 统一研发
技术演进：1.0（落后 GPT-4）→ 1.5 Pro（长文本 SOTA）→ 2.0（全面持平）→ 3.0（分庭抗礼）[来源：研究1]
Gemini 3.0（25.11）：逻辑/数学追平 o3，多模态/长文本领先，原生多模态推理 [来源：研究1]
Ultra 已淡化：2.5之后未发 Ultra，3.0 Pro 能力远超原来 Ultra [来源：合版访谈]
无 Teacher 模型：目前 Pro 直接训出，不存在不对外发布的更大 Teacher 模型（但未来可能做）[来源：合版访谈]
Nano Banana 2 = Gemini 3.1 Flash Image：独立分支，非 Main Model [来源：语音PM访谈]
端侧版本：Gemini Nano（与 Android 团队联合开发）[来源：研究3]
生成与理解在预训练中难以互利——即使 3 Pro 规模也难 1+1>2 [来源：多模态RL访谈]

2. 作为产品（Gemini App）

前身 Bard（23.3），24年更名 Gemini 并并入 DeepMind [来源：研究1]
战略定位：Assistant for everybody，不是 coding-specific 或任何单一 niche [来源：DM App访谈260407]
定位对标 ChatGPT [来源：研究1]
负责人更迭：此前是 Sissie（Sissie Hsiao，Google Assistant leader，但一直做得不好，被 Amazon 和 Apple 吊打）→ 去年中换成 Josh Woodward（前 Google Labs，因 NotebookLM 表现好而接手，同时管 Labs），Gemini 作为 assistant 的战略才被明确 [来源：DM App访谈260407, 语音PM访谈]
DAU ~1亿→1.1亿，MAU 7.5亿（25Q4，其中 IoT 端 1.6亿）[来源：研究1, 财报 2025Q4]
26年 DAU 目标 YoY +50% [来源：Gemini专家访谈260211]
App 端 MAU 约为 ChatGPT 的 40%，但 D/M（18.9% vs. 43.8%）和日均时长（11.2min vs. 16.8min）差距大 [来源：研究1]
语音 session 占 40%+，70%+ session 是 mobile（含音响/Auto/Assistant），web 仅 20% [来源：Gemini专家访谈260211]
API 调用量：2025年3月（2.5发布）约 350亿次/月 → 2025年8月约 850亿次/月，5个月翻倍+ [来源：媒体，已公开事实]
Gemini Enterprise：800万订阅者（2800+企业，25Q4）+ 100万在线自助订阅，但客户满意度约 50-50 [来源：媒体+财报 2025Q4] [注：此前为1500家企业]
对话深度没那么深，但场景更多；从 build 用户画像角度价值很高（比 search 还好）[来源：Gemini专家访谈260211，待验证] → personalization-flywheel.md
App 团队无权改模型：不再被允许私自训练模型，只能在 Harness 层做 Personality/Memory 的 Prompt 调整 [来源：合版访谈, 语音PM访谈]
所有强能力（Nano Banana、Veo 等）由模型侧 GenAI PM 定义，App 团队只做 UI 包装和增长 [来源：语音PM访谈]
语音输入体验极差：沿用 Voice Search 逻辑，对话场景下用户说到一半被发送。26年年初才指派 PM 跟进 [来源：语音PM访谈] → ai-product-middleware.md
成为模型技术创新的「容器」：Deep Research, Nano Banana, Veo 等新功能优先在 Gemini 发布 [来源：研究1]

Gemini App 团队结构 [来源：DM App访谈260302]

2000人，20+ 团队，Leader Josh Woodward（同时管 Google Labs）
Gemini Core Experience 400人：
App team 200+（Android/iOS，分 audio inputs/quality/front-end/evals）
Website team / On-device model (Nano) / Gemini Live team
Gemini App Automation 300-400人（刚 reorg）：
Tool Use Platform（build MCP，1P/3P tool 接入）
Apps & Agent（开发 agent mode）
Automation Front-end（Pixel 长按/Chrome sidebar 等不同 surface）

IoT 渗透 [来源：研究1]

智能手机：Pixel/Samsung 长按电源键唤起
智能汽车：Android Auto 多轮对话、日程同步
智能穿戴：Wear OS 即时查询、健康辅助
智能家居：Ask Home 视频搜索、Home Brief 每日摘要
智能音频：Pixel Buds 同声传译
TV：对话式搜索、语音调校硬件

品牌化

Google 几乎所有 AI 功能统一 brand 为 Gemini [来源：研究3]
→ unified-brand-strategy.md

与 AIM 的关系

AIM DAU ~2亿 vs. Gemini DAU ~1亿
未来是否融合存在分歧：CEO 认为长期共存；内部有声音认为 backend 趋同后可能合并
AIM 相当于嵌在 Search 里的 Gemini，「区别无非是一个嵌在 Google 里，一个是独立 App」[来源：研究1]

Agentic 能力演进 [来源：podcast，Vinyals/Wayne 当事人视角]

技术路径：AlphaStar 多 agent RL 经验 → Gemini 2.0 agent 能力 → Project Astra 多模态实时 agent
核心论述：Vinyals "数字身体"——LLM 是大脑，agent 能力给它身体去行动
Astra 架构：视觉编码器 + 音频编码器 + Gemini LLM + Agent 层（工具调用+记忆管理）
多模态优势：原生多模态（能"看"和"听"）是 agentic 场景的关键差异化 vs. GPT-4
→ agentic-ai-strategy.md

Scaling 与技术路线 [来源：podcast，当事人视角]

Vinyals 确认 scaling 有 diminishing returns（对数坐标下指数投入换线性收益）
突破方向：inference-time compute + 合成数据 + 算法微调
→ scaling-and-inference.md

技术路线（来自 tier3 podcast） [来源：podcast，当事人视角]

多模态原生训练

从一开始就在单一模型中融合文本/图像/音频/视频训练——与 GPT 系列先文本再 fine-tune 其他模态的路线不同 [来源：Jeff Dean podcast]
Demis: 「Gemini 从一开始就是多模态设计——为了 Glass/Project Astra 场景」

MoE 架构

Gemini 1.5 Pro 已采用 MoE 架构——不同 expert 专长不同领域
Jeff Dean 远景：从规则 MoE → 有机 Blob（Pathways）
→ MoE / Blob 架构

Gemini 4

2025/4 Demis 确认正在训练
pre-training 团队「全球最强」
预训练仍有大量 headroom（数据质量 + 训练目标 + 架构创新）

收敛 → proto-AGI [来源：Demis Hassabis 2026/1 podcast]

目标：把 Gemini + Genie + Simma + world models + Nano Banana 收敛为一个统一大模型
这个收敛版可能是 proto-AGI 候选

Gemini 3 Persona [来源：Demis Hassabis 2026/1 podcast]

定位：科学人格——warm + helpful + succinct + 友好 pushback
反 sycophancy：拒绝强化用户的错误观点
Demis 亲自参与设计

财报数据追踪 [来源：财报 tier0，管理层原话]

Gemini App 用户增长

时间	MAU	备注
25Q1	—	Sundar 未披露具体数字，强调"increased momentum"
25Q2	4.5 亿+	日均请求 vs Q1 +50%+
25Q3	6.5 亿+	查询量环比 3X
25Q4	7.5 亿	Gemini 3 发布后 engagement 显著提升

Gemini Enterprise

25Q4：800 万+ 付费席位，2,800+ 企业客户，Q4 管理 50 亿+ 客户交互（+65% YoY）[来源：财报 2025Q4]
25Q3：200 万+ 订阅用户，700+ 企业 [来源：财报 2025Q3]

API/开发者

时间	开发者数	Token 处理量	来源
24Q1	1M+	—	财报 2024Q1
24Q2	1.5M+	—	财报 2024Q2
24Q3	—	API 调用 6 个月 14X 增长	财报 2024Q3
25Q1	4.4M+	—	财报 2025Q1
25Q2	9M+	980 万亿 token/月	财报 2025Q2
25Q3	13M+	70 亿 token/分钟；月处理 1.3 千万亿	财报 2025Q3
25Q4	—	100 亿+ token/分钟	财报 2025Q4

模型版本发布时间线（财报确认）

23Q1：Bard 上线（PaLM）→ Google DeepMind 成立
23Q2：SGE 上线；Duet AI 发布
23Q3：Gemini 预告（多模态、多版本）
23Q4：Gemini 1.0 发布；SGE 延迟降低 40%（Gemini 集成）
24Q1：Gemini 1.5 Pro（100 万 token 上下文窗口）；Gemma 开源
24Q2：Trillium TPU（第六代）；Gemini 四个尺寸
24Q3：Gemini 整合 GitHub Copilot；>25% 代码 AI 生成
24Q4：Gemini 2.0（agentic era）；Deep Research；Project Mariner
25Q1：Gemini 2.5 Pro（Chatbot Arena #1）；Ironwood TPU（第七代）
25Q2：Gemini 2.5 系列（Pro/Flash/Flash-Lite）；Veo 3
25Q3：Gemini 2.5 进化；API 月处理 1.3 千万亿 token
25Q4：Gemini 3 发布；AI Mode 日均查询翻倍

Gemini 服务成本

25Q4："2025 年全年降低 78%"（模型优化+效率+利用率提升）[来源：财报 2025Q4，管理层原话]
24Q3：AIO 成本 18 个月下降 >90%（模型大小翻倍）[来源：财报 2024Q3，管理层原话]
24Q1：SGE 成本一年下降 80% [来源：财报 2024Q1，管理层原话]
24Q2：AIO 模型大小翻倍、成本持平、延迟改善 [来源：财报 2024Q2，管理层原话]

与其他实体关系

模型研发方：DeepMind
搜索产品：AIO（使用 Gemini 3.0）、AIM（使用 Gemini 3 Flash）
竞争对手：ChatGPT（App MAU 约为其 40%）
硬件合作：Samsung（定制 post-train）
硬件基础：TPU 基础设施战略
架构远景：MoE / Blob 架构

Gemini 实体

双重身份

1. 作为模型

2. 作为产品（Gemini App）

Gemini App 团队结构 [来源：DM App访谈260302]

IoT 渗透 [来源：研究1]

品牌化

与 AIM 的关系

Agentic 能力演进 [来源：podcast，Vinyals/Wayne 当事人视角]

Scaling 与技术路线 [来源：podcast，当事人视角]

技术路线（来自 tier3 podcast） [来源：podcast，当事人视角]

多模态原生训练

MoE 架构

Gemini 4

收敛 → proto-AGI [来源：Demis Hassabis 2026/1 podcast]

Gemini 3 Persona [来源：Demis Hassabis 2026/1 podcast]

财报数据追踪 [来源：财报 tier0，管理层原话]

Gemini App 用户增长

Gemini Enterprise

API/开发者

模型版本发布时间线（财报确认）

Gemini 服务成本

与其他实体关系

🔗 相关节点