语音与多模态交互战略 (Audio & Multimodal Interaction Strategy) 概念

定义

Google 在语音入口和多模态交互方面的战略布局——语音是未来 AI 的核心入口（耳机/汽车/硬件），Audio-to-Audio 端到端模型与 Cascade 方案的技术路线辩论仍未定论，但 Gemini Live 是最高优先级。

机制拆解

语音入口的战略地位

语音是未来 Personal Assistant 的核心入口——不再需要盯着屏幕的场景 [来源：语音PM访谈]
Google 设想语音覆盖所有 Surfaces：汽车（Android Auto）、耳机（Pixel Buds）、手机（长按电源键）[来源：语音PM访谈]
当前 Voice Input 占比约 10-15%，短期难超 50%，但特定市场（印度）>30-50% [来源：语音PM访谈]
随 AI Query 变长，语音相对键盘的优势会更明显 [来源：语音PM访谈]

技术路线之争：Native vs. Cascade

Native Audio-in/Audio-out：极低延迟，保留 Acoustic Signal，但存在"掉智商"问题 [来源：语音PM访谈]
Cascade (ASR + LLM + TTS)：稳定，模型智能不受影响，但延迟更高 [来源：语音PM访谈]
折中方案：Audio-in/Text-out + Streaming TTS（字节豆包下一代方向）[来源：语音PM访谈，待验证]
Google 现状：悬而未决。Gemini App 内 Native vs. Cascade 是近几个月才被重视的问题 [来源：语音PM访谈]
受访者判断：最终会走 Native，5-10% 复杂场景语义理解更精准 [来源：语音PM访谈，待验证]
翻译等简单任务用端到端优势大于劣势 [来源：语音PM访谈]

已落地产品

Google Translate App：端到端 Audio-to-Audio（基于 Gemma），极低延迟 [来源：语音PM访谈]
Pixel 10 通话翻译：双向实时翻译 [来源：语音PM访谈]
YouTube Creator Dubbing：多语言 AI 配音，面向创作者 [来源：语音PM访谈]
Gemini Live：Audio-in/Audio-out 对话，最高优先级 [来源：语音PM访谈]

当前问题

Gemini App 语音输入体验极差：沿用 Voice Search 的 Auto Endpointing，用户说到一半被发送 [来源：语音PM访谈，多源印证]（语音PM + Sergey 吐槽 + 用户行为数据，3个独立信号）
原因：此前无 PM 负责，资源全投 Gemini Live。直到26年年初才指派 PM [来源：语音PM访谈]
Sergey 也在吐槽，说明问题已引起最高层关注 [来源：语音PM访谈]
受访者自己用 ChatGPT 多于 Gemini，原因就是语音输入体验 [来源：语音PM访谈]

多模态输出趋势

从输入多模态 → 输出多模态融合是确定趋势 [来源：语音PM访谈，待验证]
线上系统不是一个模型，是多个模型协作调用 [来源：语音PM访谈]
思考类任务调大模型，生成类任务调专门模型 [来源：语音PM访谈]

与其他实体关系

Gemini Live / 语音能力由 DeepMind 核心研发
Gemini App 团队只做 UX 包装
音频 PM 在 GenAI PM 团队，与模型-产品协作模式一致

待验证假设

端到端音频会在何时成熟到可以替代 Cascade？还是两者长期共存？
语音入口占比会随 AI 硬件（耳机/AR眼镜）普及而大幅提升吗？
Gemini 语音输入修复后能否显著提升 Gemini App 留存？

🔗 相关节点

Google DeepMind entity
Gemini entity