Security

可信 AI 代理落地实战——Anthropic《Trustworthy agents in practice》解读，4层安全体系保障业务场景安全 "AI agents 已从简单问答工具进化为能自主执行代码、管理文件、跨应用完成任务的系统。" ——Anthropic 官方博客 1️⃣ 什么是"可信 AI 代理" AI 代理（Agent）已不再是单纯的聊天机器人，而是模型 + Harness + Tool + Environment 四层体系的有机组合【原文】：组件作用模型提供推理与决策能力 Harness（指令护栏）安全约束、行为边界 Tool 代码编辑、文件管理、API 调用等外部能力 Environment 工作空间、运行时隔离、资源限制这四层缺一不可，才能在真实业务场景中保证可控性与安全性。 2️⃣ Plan Mode：从"逐步确认"到"一键批准" 传统方式下，用户需要对每一步操作都进行确认，导致频繁中断、低效。 Plan Mode 则让代理提前展示完整执行计划，用户可一次性审阅、编辑并批准，随后自动执行。 "用户可预先查看并批准整个执行计划而非逐个确认。"【原文】这种计划‑先‑批准‑后执行的模式，显著提升生产力，同时保留了人类的最终决策权。 3️⃣ 不确定性处理：Pause‑Ask（暂停询问） Anthropic 在模型训练阶段强化了"先停下来再行动"的本能，使其在面对不确定时优先暂停询问，而非自行猜测。 • 错误示例："我不确定这个文件是什么，但先删除试试。" • 正确示例："我不确定这个文件是否重要，删除前请确认：可以删除吗？" "模型在面对不确定性时的正确行为是暂停询问，而非擅自行动。"【原文】这正是 Human‑in‑the‑Loop 的关键一步，防止了误删、误改等安全事故。 4️⃣ 多层防线：Prompt Injection 防御 Prompt Injection 是通过隐藏在内容中的恶意指令劫持模型的主要威胁。Anthropic 采取纵深防御（defense‑in‑depth）策略，分层防护： ...