Agentic AI 战略概念

定义

DeepMind 将 Agentic AI 视为 LLM 向 AGI 演进的关键中间形态——从"回答问题"到"自主执行任务"。核心路径从 AlphaStar 到 Gemini Agent 一脉相承。

核心论述

Vinyals 的"数字身体"隐喻

LLM = "电子大脑"，Agentic AI = 给大脑一个"数字身体" [来源：podcast，当事人视角]
真正的 Agent 能：上网研究 → 下载软件学习 → 写代码验证 → 几周后汇报结果 [来源：podcast，当事人视角]
"不是遥远的未来"——Vinyals 认为这很快就能实现 [来源：podcast，当事人视角]

Agent 的定义（区别于 Tool Calling）

不只是调用工具——需要自主规划、多步执行、从失败中学习 [来源：podcast，Vinyals 视角]
AlphaStar 的多 agent RL 经验正在回流到 Gemini agent 设计 [来源：podcast，当事人视角]

Project Astra 作为 Agent 原型

多模态实时助手：视觉+语音+记忆+搜索工具调用 [来源：podcast，Wayne 视角]
Agent 层在 Gemini 之上：接收传感器输入 → 决定调用哪些工具（Search/Lens/Maps）→ 管理记忆 [来源：podcast，当事人视角]
灵感来自 Tomasello 的共享注意力理论——两个智能体共处一个环境、共同指向注意力、推断意图并协作 [来源：podcast，当事人视角]

产品化进展

Gemini App Automation 300-400人团队（刚 reorg）[多源印证：tier2 DM App访谈260302]
Tool Use Platform（MCP 接入）
Apps & Agent（agent mode 开发）
Automation Front-end（不同 surface 的 agent 入口）
Gemini 2.0 agent 能力：多轮工具调用、代码执行、web browsing [来源：podcast，当事人视角]

与竞争对手对比

维度	DeepMind	OpenAI	Anthropic
Agent 路线	RL/AlphaStar 传统 + LLM	LLM-first + tool use	Claude Artifacts/MCP
多模态	原生多模态（视觉+音频）	GPT-4V	文本为主
产品形态	Project Astra / Gemini Agent Mode	ChatGPT Actions / o3	Claude Computer Use
差异化	RL 经验 + 多模态	用户规模 + 产品化速度	安全 + MCP 标准

与 tier1/2 的印证

[多源印证] Gemini App 团队 "Apps & Agent" 组已在开发 agent mode [来源：tier2 DM App访谈260302]
[多源印证] Tool Use Platform 在建设 MCP 接入 [来源：tier2 DM App访谈260302]

待验证假设

AlphaStar 式 RL 方法在开放世界 agent 场景中的可迁移性有多大？
Project Astra 能否从研究原型成功转化为产品？
Agentic AI 的安全挑战（autonomous decision-making）DeepMind 准备好了吗？

🔗 相关节点

Google DeepMind entity
Gemini entity