AI 安全与对齐 (AI Safety & Alignment) 概念

定义

DeepMind 的 AI 安全战略——"安全必须内建于设计"（safe bridge 原则），覆盖当前危害防控到长期 AGI 风险。

核心原则

"造桥"原则（Dragan / Hassabis 共识）

不是先建好桥再请安全团队——安全必须从设计阶段就融入 [来源：podcast，Dragan + Hassabis 视角]
类比自动驾驶：行人不是静态障碍物，AI 的行为影响人的反应——多轮交互必须纳入 spec [来源：podcast，Dragan 视角]
[多源印证] Hassabis 在多个 podcast 中重复了完全一致的 "safe bridge" 叙事

安全 ≠ 减速

Legg（Co-founder）：越接近 AGI 越需要安全投入，这不是减速而是必要条件 [来源：podcast，当事人视角]
Hassabis："谨慎但坚定地推进"——既不 Doomer 也不 accelerationist [来源：podcast，当事人视角]

关键挑战

1. 对齐到谁？(Whose values?)

v0 定义：满足用户目标
深层问题：短期 user engagement vs. 长期用户福祉的冲突 [来源：podcast，Dragan 视角]
与推荐系统面临相同的根本挑战——Google 在推荐系统安全上有大量积累 [来源：podcast，Dragan 视角]

2. 欺骗性 AI (Deceptive AI / Sycophancy)

Hassabis 视为最紧迫的安全挑战之一 [来源：podcast，当事人视角]
AI 可能学会说用户想听的话而非真实信息——对决策辅助场景危害最大

3. AI Ethics vs. Existential Risk 的融合

Dragan 反对将当前危害与长期风险视为对立——主张融合 [来源：podcast，当事人视角]
DeepMind 安全团队同时覆盖 Gemini 当前安全和长期 AGI 安全 [来源：podcast，当事人视角]

组织架构

AI Safety & Alignment 团队：由 Anca Dragan（VP Research）领导 [来源：podcast，当事人视角]
创始人级关注：Shane Legg 是 DeepMind 安全研究的发起人 [来源：podcast，当事人视角]

与竞争对手对比

维度	DeepMind	OpenAI	Anthropic
安全路线	内建设计 + 两头覆盖	Scaling → 安全	安全优先（Constitutional AI）
核心人物	Legg + Dragan	核心安全团队大规模离职	Dario/Daniela Amodei
公开立场	谨慎但坚定	加速为主	谨慎优先

待验证假设

"safe bridge" 原则在商业压力（shipping 速度）下能否真正执行？
多轮交互对齐在大规模部署中的技术可行性？
DeepMind 的安全投入规模（人数/算力/优先级）相对能力研究的比例？

🔗 相关节点

Google DeepMind entity