多模态生成战略 (Multimodal Generation Strategy) 概念

定义

Google 在图像/视频/世界模型生成方面的技术布局与商业化进展——图像生成已成熟，视频是下一战场，生成与理解在预训练中难以互利，Veo 已成为 Google Cloud 最大营收来源。

机制拆解

生成模型矩阵

模型	类型	状态	备注
Nano Banana 2 (= Gemini 3.1 Flash Image)	图像生成/编辑	成熟	独立分支，非 Main Model
Veo 3.1	视频生成	快速迭代	Google Cloud Revenue 最大
Project Genie 3	世界模型/交互	研发中	已并入视频团队，I/O 将发新版本
TTS 团队	语音合成	独立	Post-train 与文字模型团队接近

图像生成：进入成熟期

Visual Quality 很难有显著突破，各家主要刷新数据源 [来源：多模态RL访谈]
未来增量在 infographic（有信息内容的生成）和细节控制 [来源：多模态RL访谈]
Nano Banana 2 质量已超越 Pro 版本，中文字符生成大幅提升 [来源：多模态RL访谈]
OpenAI 图片生成分数接近但整体"显得假"，infographic 中英文都不行 [来源：多模态RL访谈，待验证]

视频生成：巨大进步空间

一致性差、Badcase 多、生成不可控是核心问题 [来源：多模态RL访谈]
目标不是简单 Visual Quality，而是一致性理解 + 细节丰富 + 高度可控 [来源：多模态RL访谈]
Seedance 效果不错但局限——多模态理解不够扎实 [来源：多模态RL访谈，待验证]

生成与理解的"冲突"

预训练中生成与理解融合实际效果不如预期——1+1≠2 [来源：多模态RL访谈]
MoE 调好可以改善但很难两边都好 [来源：多模态RL访谈]
多模态数据预训练可能影响 Coding 能力——Google 先做多模态再加 Coding，未看到互帮 [来源：多模态RL访谈]
视频数据不会大量放入预训练——将视频与多模态理解完全融合目前全球无技术能做到 [来源：多模态RL访谈]

组织与资源

基模后训练（文字+视频+图像）~200多人 [来源：多模态RL访谈]
Genie 3 团队~300人，已并入视频团队但任务不同 [来源：多模态RL访谈]
算力极度紧缺——个人实验几千张卡、排队等资源。Serving 挤压内部实验 [来源：多模态RL访谈]

商业化

Veo Revenue 是 Google Cloud 模型最大头 [来源：多模态RL访谈]
Nano Banana 用户量第一但 Token 消耗不及 Veo [来源：多模态RL访谈]
Launch 周期按月计，不会出现半年前模型才发的情况 [来源：多模态RL访谈]

MoE vs. Dense 的架构分歧

受访者认为多任务场景下 MoE 几乎总有好处 [来源：多模态RL访谈，待验证]
对 Anthropic 选择 Dense 表示惊讶——Code 数据与普通文本完全不同，Dense 难以兼顾 [来源：多模态RL访谈，待验证]
Google 内部不完全是 MoE 但不会放弃这个方向 [来源：多模态RL访谈]

与其他概念关系

是全栈式 AI 战略产品层的重要组成
生成与理解的冲突影响数据即模型的数据配比决策
与语音多模态战略共同构成多模态全景
Genie 3 代表从生成到交互的演进——超越传统 AI 产品形态

待验证假设

生成与理解的预训练融合是否需要全新架构突破？还是 Scale 足够大就能解决？
MoE vs. Dense 的争论是否会因新架构（如 Transfusion）而被超越？
视频生成的成本何时降到可以大规模 Serving？
World Model（Genie 3）何时能达到可商业化的体验水平？

🔗 相关节点

Google DeepMind entity