Gemini 实体
Google 的核心 AI 模型品牌及独立 chatbot 产品,由 DeepMind 主导研发,既是基座模型也是面向消费者的 AI 应用。
双重身份
1. 作为模型
- 由 DeepMind 统一研发
- 技术演进:1.0(落后 GPT-4)→ 1.5 Pro(长文本 SOTA)→ 2.0(全面持平)→ 3.0(分庭抗礼)[来源:研究1]
- Gemini 3.0(25.11):逻辑/数学追平 o3,多模态/长文本领先,原生多模态推理 [来源:研究1]
- Ultra 已淡化:2.5之后未发 Ultra,3.0 Pro 能力远超原来 Ultra [来源:合版访谈]
- 无 Teacher 模型:目前 Pro 直接训出,不存在不对外发布的更大 Teacher 模型(但未来可能做)[来源:合版访谈]
- Nano Banana 2 = Gemini 3.1 Flash Image:独立分支,非 Main Model [来源:语音PM访谈]
- 端侧版本:Gemini Nano(与 Android 团队联合开发)[来源:研究3]
- 生成与理解在预训练中难以互利——即使 3 Pro 规模也难 1+1>2 [来源:多模态RL访谈]
2. 作为产品(Gemini App)
- 前身 Bard(23.3),24年更名 Gemini 并并入 DeepMind [来源:研究1]
- 战略定位:Assistant for everybody,不是 coding-specific 或任何单一 niche [来源:DM App访谈260407]
- 定位对标 ChatGPT [来源:研究1]
- 负责人更迭:此前是 Sissie(Sissie Hsiao,Google Assistant leader,但一直做得不好,被 Amazon 和 Apple 吊打)→ 去年中换成 Josh Woodward(前 Google Labs,因 NotebookLM 表现好而接手,同时管 Labs),Gemini 作为 assistant 的战略才被明确 [来源:DM App访谈260407, 语音PM访谈]
- DAU ~1亿→1.1亿,MAU 7.5亿(25Q4,其中 IoT 端 1.6亿)[来源:研究1, 财报 2025Q4]
- 26年 DAU 目标 YoY +50% [来源:Gemini专家访谈260211]
- App 端 MAU 约为 ChatGPT 的 40%,但 D/M(18.9% vs. 43.8%)和日均时长(11.2min vs. 16.8min)差距大 [来源:研究1]
- 语音 session 占 40%+,70%+ session 是 mobile(含音响/Auto/Assistant),web 仅 20% [来源:Gemini专家访谈260211]
- API 调用量:2025年3月(2.5发布)约 350亿次/月 → 2025年8月约 850亿次/月,5个月翻倍+ [来源:媒体,已公开事实]
- Gemini Enterprise:800万订阅者(2800+企业,25Q4)+ 100万在线自助订阅,但客户满意度约 50-50 [来源:媒体+财报 2025Q4] [注:此前为1500家企业]
- 对话深度没那么深,但场景更多;从 build 用户画像角度价值很高(比 search 还好)[来源:Gemini专家访谈260211,待验证] → personalization-flywheel.md
- App 团队无权改模型:不再被允许私自训练模型,只能在 Harness 层做 Personality/Memory 的 Prompt 调整 [来源:合版访谈, 语音PM访谈]
- 所有强能力(Nano Banana、Veo 等)由模型侧 GenAI PM 定义,App 团队只做 UI 包装和增长 [来源:语音PM访谈]
- 语音输入体验极差:沿用 Voice Search 逻辑,对话场景下用户说到一半被发送。26年年初才指派 PM 跟进 [来源:语音PM访谈] → ai-product-middleware.md
- 成为模型技术创新的「容器」:Deep Research, Nano Banana, Veo 等新功能优先在 Gemini 发布 [来源:研究1]
Gemini App 团队结构 [来源:DM App访谈260302]
- 2000人,20+ 团队,Leader Josh Woodward(同时管 Google Labs)
- Gemini Core Experience 400人:
- App team 200+(Android/iOS,分 audio inputs/quality/front-end/evals)
- Website team / On-device model (Nano) / Gemini Live team
- Gemini App Automation 300-400人(刚 reorg):
- Tool Use Platform(build MCP,1P/3P tool 接入)
- Apps & Agent(开发 agent mode)
- Automation Front-end(Pixel 长按/Chrome sidebar 等不同 surface)
IoT 渗透 [来源:研究1]
- 智能手机:Pixel/Samsung 长按电源键唤起
- 智能汽车:Android Auto 多轮对话、日程同步
- 智能穿戴:Wear OS 即时查询、健康辅助
- 智能家居:Ask Home 视频搜索、Home Brief 每日摘要
- 智能音频:Pixel Buds 同声传译
- TV:对话式搜索、语音调校硬件
品牌化
与 AIM 的关系
- AIM DAU ~2亿 vs. Gemini DAU ~1亿
- 未来是否融合存在分歧:CEO 认为长期共存;内部有声音认为 backend 趋同后可能合并
- AIM 相当于嵌在 Search 里的 Gemini,「区别无非是一个嵌在 Google 里,一个是独立 App」[来源:研究1]
Agentic 能力演进 [来源:podcast,Vinyals/Wayne 当事人视角]
- 技术路径:AlphaStar 多 agent RL 经验 → Gemini 2.0 agent 能力 → Project Astra 多模态实时 agent
- 核心论述:Vinyals "数字身体"——LLM 是大脑,agent 能力给它身体去行动
- Astra 架构:视觉编码器 + 音频编码器 + Gemini LLM + Agent 层(工具调用+记忆管理)
- 多模态优势:原生多模态(能"看"和"听")是 agentic 场景的关键差异化 vs. GPT-4
- → agentic-ai-strategy.md
Scaling 与技术路线 [来源:podcast,当事人视角]
技术路线(来自 tier3 podcast) [来源:podcast,当事人视角]
多模态原生训练
- 从一开始就在单一模型中融合文本/图像/音频/视频训练——与 GPT 系列先文本再 fine-tune 其他模态的路线不同 [来源:Jeff Dean podcast]
- Demis: 「Gemini 从一开始就是多模态设计——为了 Glass/Project Astra 场景」
MoE 架构
- Gemini 1.5 Pro 已采用 MoE 架构——不同 expert 专长不同领域
- Jeff Dean 远景:从规则 MoE → 有机 Blob(Pathways)
- → MoE / Blob 架构
Gemini 4
- 2025/4 Demis 确认正在训练
- pre-training 团队「全球最强」
- 预训练仍有大量 headroom(数据质量 + 训练目标 + 架构创新)
收敛 → proto-AGI [来源:Demis Hassabis 2026/1 podcast]
- 目标:把 Gemini + Genie + Simma + world models + Nano Banana 收敛为一个统一大模型
- 这个收敛版可能是 proto-AGI 候选
Gemini 3 Persona [来源:Demis Hassabis 2026/1 podcast]
- 定位:科学人格——warm + helpful + succinct + 友好 pushback
- 反 sycophancy:拒绝强化用户的错误观点
- Demis 亲自参与设计
财报数据追踪 [来源:财报 tier0,管理层原话]
Gemini App 用户增长
| 时间 | MAU | 备注 |
|---|
| 25Q1 | — | Sundar 未披露具体数字,强调"increased momentum" |
| 25Q2 | 4.5 亿+ | 日均请求 vs Q1 +50%+ |
| 25Q3 | 6.5 亿+ | 查询量环比 3X |
| 25Q4 | 7.5 亿 | Gemini 3 发布后 engagement 显著提升 |
Gemini Enterprise
- 25Q4:800 万+ 付费席位,2,800+ 企业客户,Q4 管理 50 亿+ 客户交互(+65% YoY)[来源:财报 2025Q4]
- 25Q3:200 万+ 订阅用户,700+ 企业 [来源:财报 2025Q3]
API/开发者
| 时间 | 开发者数 | Token 处理量 | 来源 |
|---|
| 24Q1 | 1M+ | — | 财报 2024Q1 |
| 24Q2 | 1.5M+ | — | 财报 2024Q2 |
| 24Q3 | — | API 调用 6 个月 14X 增长 | 财报 2024Q3 |
| 25Q1 | 4.4M+ | — | 财报 2025Q1 |
| 25Q2 | 9M+ | 980 万亿 token/月 | 财报 2025Q2 |
| 25Q3 | 13M+ | 70 亿 token/分钟;月处理 1.3 千万亿 | 财报 2025Q3 |
| 25Q4 | — | 100 亿+ token/分钟 | 财报 2025Q4 |
模型版本发布时间线(财报确认)
- 23Q1:Bard 上线(PaLM)→ Google DeepMind 成立
- 23Q2:SGE 上线;Duet AI 发布
- 23Q3:Gemini 预告(多模态、多版本)
- 23Q4:Gemini 1.0 发布;SGE 延迟降低 40%(Gemini 集成)
- 24Q1:Gemini 1.5 Pro(100 万 token 上下文窗口);Gemma 开源
- 24Q2:Trillium TPU(第六代);Gemini 四个尺寸
- 24Q3:Gemini 整合 GitHub Copilot;>25% 代码 AI 生成
- 24Q4:Gemini 2.0(agentic era);Deep Research;Project Mariner
- 25Q1:Gemini 2.5 Pro(Chatbot Arena #1);Ironwood TPU(第七代)
- 25Q2:Gemini 2.5 系列(Pro/Flash/Flash-Lite);Veo 3
- 25Q3:Gemini 2.5 进化;API 月处理 1.3 千万亿 token
- 25Q4:Gemini 3 发布;AI Mode 日均查询翻倍
Gemini 服务成本
- 25Q4:"2025 年全年降低 78%"(模型优化+效率+利用率提升)[来源:财报 2025Q4,管理层原话]
- 24Q3:AIO 成本 18 个月下降 >90%(模型大小翻倍)[来源:财报 2024Q3,管理层原话]
- 24Q1:SGE 成本一年下降 80% [来源:财报 2024Q1,管理层原话]
- 24Q2:AIO 模型大小翻倍、成本持平、延迟改善 [来源:财报 2024Q2,管理层原话]
与其他实体关系