<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>Trustworthy on MakeMoney</title>
    <link>https://funkygod.vip/tags/trustworthy/</link>
    <description>Recent content in Trustworthy on MakeMoney</description>
    <image>
      <title>MakeMoney</title>
      <url>https://funkygod.vip/%3Clink%20or%20path%20of%20image%20for%20opengraph,%20twitter-cards%3E</url>
      <link>https://funkygod.vip/%3Clink%20or%20path%20of%20image%20for%20opengraph,%20twitter-cards%3E</link>
    </image>
    <generator>Hugo -- 0.147.7</generator>
    <language>en</language>
    <lastBuildDate>Fri, 10 Apr 2026 18:00:00 +0800</lastBuildDate>
    <atom:link href="https://funkygod.vip/tags/trustworthy/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>可信 AI 代理落地实战——Anthropic《Trustworthy agents in practice》解读</title>
      <link>https://funkygod.vip/posts/ai/trustworthy-agents-2026/</link>
      <pubDate>Fri, 10 Apr 2026 18:00:00 +0800</pubDate>
      <guid>https://funkygod.vip/posts/ai/trustworthy-agents-2026/</guid>
      <description>&lt;h1 id=&#34;可信-ai-代理落地实战anthropictrustworthy-agents-in-practice解读4层安全体系保障业务场景安全&#34;&gt;可信 AI 代理落地实战——Anthropic《Trustworthy agents in practice》解读，4层安全体系保障业务场景安全&lt;/h1&gt;
&lt;blockquote&gt;
&lt;p&gt;&amp;quot;AI agents 已从简单问答工具进化为能自主执行代码、管理文件、跨应用完成任务的系统。&amp;quot; ——Anthropic 官方博客&lt;/p&gt;&lt;/blockquote&gt;
&lt;h2 id=&#34;1-什么是可信-ai-代理&#34;&gt;1️⃣ 什么是&amp;quot;可信 AI 代理&amp;quot;&lt;/h2&gt;
&lt;p&gt;AI 代理（Agent）已不再是单纯的聊天机器人，而是 &lt;strong&gt;模型 + Harness + Tool + Environment&lt;/strong&gt; 四层体系的有机组合【原文】：&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;组件&lt;/th&gt;
          &lt;th&gt;作用&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;模型&lt;/td&gt;
          &lt;td&gt;提供推理与决策能力&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Harness（指令护栏）&lt;/td&gt;
          &lt;td&gt;安全约束、行为边界&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Tool&lt;/td&gt;
          &lt;td&gt;代码编辑、文件管理、API 调用等外部能力&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Environment&lt;/td&gt;
          &lt;td&gt;工作空间、运行时隔离、资源限制&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;这四层缺一不可，才能在真实业务场景中保证 &lt;strong&gt;可控性&lt;/strong&gt; 与 &lt;strong&gt;安全性&lt;/strong&gt;。&lt;/p&gt;
&lt;h2 id=&#34;2-plan-mode从逐步确认到一键批准&#34;&gt;2️⃣ Plan Mode：从&amp;quot;逐步确认&amp;quot;到&amp;quot;一键批准&amp;quot;&lt;/h2&gt;
&lt;p&gt;传统方式下，用户需要对每一步操作都进行确认，导致 &lt;strong&gt;频繁中断、低效&lt;/strong&gt;。
Plan Mode 则让代理 &lt;strong&gt;提前展示完整执行计划&lt;/strong&gt;，用户可一次性审阅、编辑并批准，随后自动执行。&lt;/p&gt;
&lt;p&gt;&amp;quot;用户可预先查看并批准整个执行计划而非逐个确认。&amp;quot;【原文】&lt;/p&gt;
&lt;p&gt;这种 &lt;strong&gt;计划‑先‑批准‑后执行&lt;/strong&gt; 的模式，显著提升生产力，同时保留了人类的最终决策权。&lt;/p&gt;
&lt;h2 id=&#34;3-不确定性处理pauseask暂停询问&#34;&gt;3️⃣ 不确定性处理：Pause‑Ask（暂停询问）&lt;/h2&gt;
&lt;p&gt;Anthropic 在模型训练阶段强化了&amp;quot;先停下来再行动&amp;quot;的本能，使其在面对不确定时优先 &lt;strong&gt;暂停询问&lt;/strong&gt;，而非自行猜测。&lt;/p&gt;
&lt;p&gt;• 错误示例：&amp;quot;我不确定这个文件是什么，但先删除试试。&amp;quot;
• 正确示例：&amp;quot;我不确定这个文件是否重要，删除前请确认：可以删除吗？&amp;quot;&lt;/p&gt;
&lt;p&gt;&amp;quot;模型在面对不确定性时的正确行为是暂停询问，而非擅自行动。&amp;quot;【原文】&lt;/p&gt;
&lt;p&gt;这正是 &lt;strong&gt;Human‑in‑the‑Loop&lt;/strong&gt; 的关键一步，防止了误删、误改等安全事故。&lt;/p&gt;
&lt;h2 id=&#34;4-多层防线prompt-injection-防御&#34;&gt;4️⃣ 多层防线：Prompt Injection 防御&lt;/h2&gt;
&lt;p&gt;Prompt Injection 是通过隐藏在内容中的恶意指令劫持模型的主要威胁。Anthropic 采取 &lt;strong&gt;纵深防御（defense‑in‑depth）&lt;/strong&gt; 策略，分层防护：&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
