语音与多模态交互战略 (Audio & Multimodal Interaction Strategy) 概念
定义
Google 在语音入口和多模态交互方面的战略布局——语音是未来 AI 的核心入口(耳机/汽车/硬件),Audio-to-Audio 端到端模型与 Cascade 方案的技术路线辩论仍未定论,但 Gemini Live 是最高优先级。
机制拆解
语音入口的战略地位
- 语音是未来 Personal Assistant 的核心入口——不再需要盯着屏幕的场景 [来源:语音PM访谈]
- Google 设想语音覆盖所有 Surfaces:汽车(Android Auto)、耳机(Pixel Buds)、手机(长按电源键)[来源:语音PM访谈]
- 当前 Voice Input 占比约 10-15%,短期难超 50%,但特定市场(印度)>30-50% [来源:语音PM访谈]
- 随 AI Query 变长,语音相对键盘的优势会更明显 [来源:语音PM访谈]
技术路线之争:Native vs. Cascade
- Native Audio-in/Audio-out:极低延迟,保留 Acoustic Signal,但存在"掉智商"问题 [来源:语音PM访谈]
- Cascade (ASR + LLM + TTS):稳定,模型智能不受影响,但延迟更高 [来源:语音PM访谈]
- 折中方案:Audio-in/Text-out + Streaming TTS(字节豆包下一代方向)[来源:语音PM访谈,待验证]
- Google 现状:悬而未决。Gemini App 内 Native vs. Cascade 是近几个月才被重视的问题 [来源:语音PM访谈]
- 受访者判断:最终会走 Native,5-10% 复杂场景语义理解更精准 [来源:语音PM访谈,待验证]
- 翻译等简单任务用端到端优势大于劣势 [来源:语音PM访谈]
已落地产品
- Google Translate App:端到端 Audio-to-Audio(基于 Gemma),极低延迟 [来源:语音PM访谈]
- Pixel 10 通话翻译:双向实时翻译 [来源:语音PM访谈]
- YouTube Creator Dubbing:多语言 AI 配音,面向创作者 [来源:语音PM访谈]
- Gemini Live:Audio-in/Audio-out 对话,最高优先级 [来源:语音PM访谈]
当前问题
- Gemini App 语音输入体验极差:沿用 Voice Search 的 Auto Endpointing,用户说到一半被发送 [来源:语音PM访谈,多源印证](语音PM + Sergey 吐槽 + 用户行为数据,3个独立信号)
- 原因:此前无 PM 负责,资源全投 Gemini Live。直到26年年初才指派 PM [来源:语音PM访谈]
- Sergey 也在吐槽,说明问题已引起最高层关注 [来源:语音PM访谈]
- 受访者自己用 ChatGPT 多于 Gemini,原因就是语音输入体验 [来源:语音PM访谈]
多模态输出趋势
- 从输入多模态 → 输出多模态融合是确定趋势 [来源:语音PM访谈,待验证]
- 线上系统不是一个模型,是多个模型协作调用 [来源:语音PM访谈]
- 思考类任务调大模型,生成类任务调专门模型 [来源:语音PM访谈]
与其他实体关系
待验证假设
- 端到端音频会在何时成熟到可以替代 Cascade?还是两者长期共存?
- 语音入口占比会随 AI 硬件(耳机/AR眼镜)普及而大幅提升吗?
- Gemini 语音输入修复后能否显著提升 Gemini App 留存?
🔗 相关节点
- Google DeepMind entity
- Gemini entity