字数 1764，阅读大约需 9 分钟

博客阅读：针对人工智能代理的有效上下文工程

上下文工程是提示工程的自然进化。提示工程侧重于如何编写有效的提示，而上下文工程则关注在LLM推理期间策划和维护最优的token集合（信息），包括系统指令、工具、外部数据、消息历史等所有可能出现的信息

• 提示工程 = 告诉AI"做什么"
• 上下文工程 = 决定给AI"看什么资源"

文章来源：anthropic 针对人工智能代理的有效上下文工程^[1]

使用语言模型进行构建，不再那么侧重于为提示词找到恰当的词语和短语，而更多是要回答一个更宽泛的问题：“什么样的上下文配置最有可能让我们的模型产生期望的行为？”
有效地驾驭LLM往往需要结合上下文思考，换句话说：要考虑LLM在任何特定时间所能获取的整体信息，以及该信息可能产生的潜在行为。假设自己是出题老师，而LLM是答题考生，作为老师，要保证出题的准确性、背景性、和科学性，这有在这种前提环境下，考生才有可能有效作答。

大型语言模型和人类一样，注意力是有限的——给它们的信息越多，它们就越难保持专注并准确回忆细节。这种被称为“上下文衰减”的现象意味着，仅仅增加上下文窗口并不能保证更好的性能。且上下文窗口是稀缺资源，长时间运行大模型，很容易达到上下文上限。API调用费用通常按token数计费：冗余的历史消息、重复的工具定义、未清理的数据都在烧钱，长对话的累积成本可能非常高。

Context engineering vs. prompt engineering

提示词工程指的是为获得最佳结果而编写和组织大语言模型指令的方法；
上下文工程指的是在大语言模型推理过程中，筛选和维护最佳令牌（信息）集的一系列策略，包括可能出现在提示词之外的所有其他信息；

构建更强大的智能体——这些智能体能够进行多轮推理并在更长的时间范围内运行，我们需要相应的策略来管理整个上下文状态（系统指令、工具、模型上下文协议（MCP）、外部数据、消息历史等）。从不断演变的海量潜在信息中筛选出适合放入有限语境窗口的内容。

为什么语境工程对构建高性能智能体很重要

上下文是AI智能体的关键但有限的资源。随着智能体在多轮推理和更长时间范围内运行，会产生越来越多可能与下一轮推理相关的数据，这些信息必须被循环地精炼

“上下文衰减”概念：随着上下文窗口中标记数量的增加，模型从该上下文中准确回忆信息的能力会下降。上下文必须被视为一种边际收益递减的有限资源。模型在更长的上下文中仍然保持较强的能力，但与在较短上下文中的表现相比，在信息检索和长距离推理方面的精度可能会有所下降。

有效的上下文因素

系统提示

系统提示应该极其清晰，使用简单直接的语言，在正确的"高度"呈现想法,2种错误的极端：过于精确或过于模糊的错误

• 一种极端情况是，工程师在提示词中硬编码复杂、脆弱的逻辑，以获取精确的智能体行为。这种方法会导致脆弱性，并随着时间的推移增加维护复杂度。
• 另一种极端情况是，工程师有时会提供模糊、高层级的指导，无法为大语言模型提供关于期望输出的具体信号，或者错误地假设存在共享语境。

无论你决定如何构建系统提示词，都应努力用最少的信息全面概述你期望的行为。保证上下文的内容丰富和简洁性。

即时检索(动态上下文检索)

智能体从静态的预加载数据（传统RAG）转向自主的动态上下文管理。智能体使用工具（如文件路径、查询、API）在推理所需的确切时刻仅检索最相关的数据。这种方法大幅提高了内存效率和灵活性，类似于人类使用外部组织系统（如文件系统和书签）,将即时动态检索与预加载的静态数据相结合，以实现最佳速度和多功能性`

长期任务

3种方式提高长任务的质量：压缩（compaction）、结构化笔记（structured note-taking）和多智能体架构: A Guide for Effective Context Engineering for AI Agents - MarkTechPost^[2]

压缩（蒸馏器）：

当上下文缓冲区已满时，保留对话流程和关键细节。
总结旧消息历史并重启上下文，通常会丢弃冗余数据，如旧的原始工具结果。

结构化笔记（外部记忆）：

提供具有最小上下文开销的持久内存。
智能体自主编写持久化的外部笔记（例如，写入NOTES.md文件或专用的记忆工具），以跟踪进度、依赖关系和战略计划。

子智能体架构（专业团队）：

处理复杂、深度的探索任务，且不会占用主智能体的工作记忆。专门的子智能体利用独立的上下文窗口执行深度工作，然后仅向主协调智能体返回精简的、提炼后的摘要。

工具调用

1. 保持工具简洁且区分明确
2. 使用描述性参数
3. 追求token效率
4. 每个工具都必须证明其在上下文窗口中的价值
确保模型调用工具的质量和正确是：工具充当智能体与环境交互的接口，很重要，在高效智能体里，小型、独特和高效的tool!
Model Context Protocol (MCP) | Cursor Docs^[3]
Agents | Cursor Learn^[4]

历史消息、知识和记忆

积极修剪消息历史，只保留高信号的必要信息。找到最小的高信号tokens集合，以最大化实现期望结果的可能性,为智能体提供连续性以及对过往行为的认知。

1. 短期记忆：推理步骤、聊天历史
2. 长期记忆：公司数据、用户偏好、已习得事实
3. 知识：输入特定领域的信息——API、工作流、数据模型等

引用链接

[1] anthropic 针对人工智能代理的有效上下文工程: https://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents
[2] A Guide for Effective Context Engineering for AI Agents - MarkTechPost: https://www.marktechpost.com/2025/10/20/a-guide-for-effective-context-engineering-for-ai-agents/
[3] Model Context Protocol (MCP) | Cursor Docs: https://cursor.com/cn/docs/context/mcp
[4] Agents | Cursor Learn: https://cursor.com/cn/learn/agents

目录CONTENT

博客阅读：针对人工智能代理的有效上下文工程

博客阅读：针对人工智能代理的有效上下文工程

Context engineering vs. prompt engineering

为什么语境工程对构建高性能智能体很重要

有效的上下文因素

系统提示

即时检索(动态上下文检索)

长期任务

压缩（蒸馏器）：

结构化笔记（外部记忆）：

子智能体架构（专业团队）：

工具调用

历史消息、知识和记忆

引用链接

评论区