多模态生成战略 (Multimodal Generation Strategy) 概念

定义

Google 在图像/视频/世界模型生成方面的技术布局与商业化进展——图像生成已成熟,视频是下一战场,生成与理解在预训练中难以互利,Veo 已成为 Google Cloud 最大营收来源。

机制拆解

生成模型矩阵

模型类型状态备注
Nano Banana 2 (= Gemini 3.1 Flash Image)图像生成/编辑成熟独立分支,非 Main Model
Veo 3.1视频生成快速迭代Google Cloud Revenue 最大
Project Genie 3世界模型/交互研发中已并入视频团队,I/O 将发新版本
TTS 团队语音合成独立Post-train 与文字模型团队接近

图像生成:进入成熟期

视频生成:巨大进步空间

生成与理解的"冲突"

组织与资源

商业化

MoE vs. Dense 的架构分歧

与其他概念关系

待验证假设

🔗 相关节点