多模态生成战略 (Multimodal Generation Strategy) 概念
定义
Google 在图像/视频/世界模型生成方面的技术布局与商业化进展——图像生成已成熟,视频是下一战场,生成与理解在预训练中难以互利,Veo 已成为 Google Cloud 最大营收来源。
机制拆解
生成模型矩阵
| 模型 | 类型 | 状态 | 备注 |
|---|---|---|---|
| Nano Banana 2 (= Gemini 3.1 Flash Image) | 图像生成/编辑 | 成熟 | 独立分支,非 Main Model |
| Veo 3.1 | 视频生成 | 快速迭代 | Google Cloud Revenue 最大 |
| Project Genie 3 | 世界模型/交互 | 研发中 | 已并入视频团队,I/O 将发新版本 |
| TTS 团队 | 语音合成 | 独立 | Post-train 与文字模型团队接近 |
图像生成:进入成熟期
- Visual Quality 很难有显著突破,各家主要刷新数据源 [来源:多模态RL访谈]
- 未来增量在 infographic(有信息内容的生成)和细节控制 [来源:多模态RL访谈]
- Nano Banana 2 质量已超越 Pro 版本,中文字符生成大幅提升 [来源:多模态RL访谈]
- OpenAI 图片生成分数接近但整体"显得假",infographic 中英文都不行 [来源:多模态RL访谈,待验证]
视频生成:巨大进步空间
- 一致性差、Badcase 多、生成不可控是核心问题 [来源:多模态RL访谈]
- 目标不是简单 Visual Quality,而是一致性理解 + 细节丰富 + 高度可控 [来源:多模态RL访谈]
- Seedance 效果不错但局限——多模态理解不够扎实 [来源:多模态RL访谈,待验证]
生成与理解的"冲突"
- 预训练中生成与理解融合实际效果不如预期——1+1≠2 [来源:多模态RL访谈]
- MoE 调好可以改善但很难两边都好 [来源:多模态RL访谈]
- 多模态数据预训练可能影响 Coding 能力——Google 先做多模态再加 Coding,未看到互帮 [来源:多模态RL访谈]
- 视频数据不会大量放入预训练——将视频与多模态理解完全融合目前全球无技术能做到 [来源:多模态RL访谈]
组织与资源
- 基模后训练(文字+视频+图像)~200多人 [来源:多模态RL访谈]
- Genie 3 团队~300人,已并入视频团队但任务不同 [来源:多模态RL访谈]
- 算力极度紧缺——个人实验几千张卡、排队等资源。Serving 挤压内部实验 [来源:多模态RL访谈]
商业化
- Veo Revenue 是 Google Cloud 模型最大头 [来源:多模态RL访谈]
- Nano Banana 用户量第一但 Token 消耗不及 Veo [来源:多模态RL访谈]
- Launch 周期按月计,不会出现半年前模型才发的情况 [来源:多模态RL访谈]
MoE vs. Dense 的架构分歧
- 受访者认为多任务场景下 MoE 几乎总有好处 [来源:多模态RL访谈,待验证]
- 对 Anthropic 选择 Dense 表示惊讶——Code 数据与普通文本完全不同,Dense 难以兼顾 [来源:多模态RL访谈,待验证]
- Google 内部不完全是 MoE 但不会放弃这个方向 [来源:多模态RL访谈]
与其他概念关系
待验证假设
- 生成与理解的预训练融合是否需要全新架构突破?还是 Scale 足够大就能解决?
- MoE vs. Dense 的争论是否会因新架构(如 Transfusion)而被超越?
- 视频生成的成本何时降到可以大规模 Serving?
- World Model(Genie 3)何时能达到可商业化的体验水平?
🔗 相关节点
- Google DeepMind entity