可信 AI 代理落地实战——Anthropic《Trustworthy agents in practice》解读

Fri, 10 Apr 2026 18:00:00 +0800

可信 AI 代理落地实战——Anthropic《Trustworthy agents in practice》解读，4层安全体系保障业务场景安全

"AI agents 已从简单问答工具进化为能自主执行代码、管理文件、跨应用完成任务的系统。" ——Anthropic 官方博客

AI 代理（Agent）已不再是单纯的聊天机器人，而是 模型 + Harness + Tool + Environment 四层体系的有机组合【原文】：

这四层缺一不可，才能在真实业务场景中保证 可控性 与 安全性。

传统方式下，用户需要对每一步操作都进行确认，导致 频繁中断、低效。 Plan Mode 则让代理 提前展示完整执行计划，用户可一次性审阅、编辑并批准，随后自动执行。

"用户可预先查看并批准整个执行计划而非逐个确认。"【原文】

这种 计划‑先‑批准‑后执行 的模式，显著提升生产力，同时保留了人类的最终决策权。

Anthropic 在模型训练阶段强化了"先停下来再行动"的本能，使其在面对不确定时优先 暂停询问，而非自行猜测。

• 错误示例："我不确定这个文件是什么，但先删除试试。" • 正确示例："我不确定这个文件是否重要，删除前请确认：可以删除吗？"

"模型在面对不确定性时的正确行为是暂停询问，而非擅自行动。"【原文】

这正是 Human‑in‑the‑Loop 的关键一步，防止了误删、误改等安全事故。

Prompt Injection 是通过隐藏在内容中的恶意指令劫持模型的主要威胁。Anthropic 采取 纵深防御（defense‑in‑depth） 策略，分层防护：