Agentic AI 战略 概念
定义
DeepMind 将 Agentic AI 视为 LLM 向 AGI 演进的关键中间形态——从"回答问题"到"自主执行任务"。核心路径从 AlphaStar 到 Gemini Agent 一脉相承。
核心论述
Vinyals 的"数字身体"隐喻
- LLM = "电子大脑",Agentic AI = 给大脑一个"数字身体" [来源:podcast,当事人视角]
- 真正的 Agent 能:上网研究 → 下载软件学习 → 写代码验证 → 几周后汇报结果 [来源:podcast,当事人视角]
- "不是遥远的未来"——Vinyals 认为这很快就能实现 [来源:podcast,当事人视角]
Agent 的定义(区别于 Tool Calling)
- 不只是调用工具——需要自主规划、多步执行、从失败中学习 [来源:podcast,Vinyals 视角]
- AlphaStar 的多 agent RL 经验正在回流到 Gemini agent 设计 [来源:podcast,当事人视角]
Project Astra 作为 Agent 原型
- 多模态实时助手:视觉+语音+记忆+搜索工具调用 [来源:podcast,Wayne 视角]
- Agent 层在 Gemini 之上:接收传感器输入 → 决定调用哪些工具(Search/Lens/Maps)→ 管理记忆 [来源:podcast,当事人视角]
- 灵感来自 Tomasello 的共享注意力理论——两个智能体共处一个环境、共同指向注意力、推断意图并协作 [来源:podcast,当事人视角]
产品化进展
- Gemini App Automation 300-400人团队(刚 reorg)[多源印证:tier2 DM App访谈260302]
- Tool Use Platform(MCP 接入)
- Apps & Agent(agent mode 开发)
- Automation Front-end(不同 surface 的 agent 入口)
- Gemini 2.0 agent 能力:多轮工具调用、代码执行、web browsing [来源:podcast,当事人视角]
与竞争对手对比
| 维度 | DeepMind | OpenAI | Anthropic |
|---|---|---|---|
| Agent 路线 | RL/AlphaStar 传统 + LLM | LLM-first + tool use | Claude Artifacts/MCP |
| 多模态 | 原生多模态(视觉+音频) | GPT-4V | 文本为主 |
| 产品形态 | Project Astra / Gemini Agent Mode | ChatGPT Actions / o3 | Claude Computer Use |
| 差异化 | RL 经验 + 多模态 | 用户规模 + 产品化速度 | 安全 + MCP 标准 |
与 tier1/2 的印证
- [多源印证] Gemini App 团队 "Apps & Agent" 组已在开发 agent mode [来源:tier2 DM App访谈260302]
- [多源印证] Tool Use Platform 在建设 MCP 接入 [来源:tier2 DM App访谈260302]
待验证假设
- AlphaStar 式 RL 方法在开放世界 agent 场景中的可迁移性有多大?
- Project Astra 能否从研究原型成功转化为产品?
- Agentic AI 的安全挑战(autonomous decision-making)DeepMind 准备好了吗?
🔗 相关节点
- Google DeepMind entity
- Gemini entity