Cursor 双周综述|Auto-review:当 agent 自主性成为一个可调节的刻度盘
本期亮点: Cursor 发布 Auto-review,用一个专用分类 agent 在执行前审查高风险操作,7% 的对话会触发中断,而非此前企业客户常见的 40% 阻断率。这个方向值得深入聊一聊。 背景:自主性与安全性的永恒矛盾 做 AI 编程工具的企业都在推动 agent 越来越自主——不需要频繁停下来问"我可以这样做吗",开发体验才会流畅。但越自主,风险越大。尤其是本地 agent,手握文件系统的读写权限、环境的凭证、可能还有生产系统的访问通道。 行业的惯用解法是"批准提示"(approval prompt):每次执行敏感操作前弹出对话框问用户。Cursor 自己在 v1/v2 时代也走过这条路。但 Cursor 团队在 Auto-review 文章里指出了这个解法的根本缺陷: 当同类型的批准提示重复出现足够多次,用户会停止仔细阅读,批准流变得毫无意义。 这不是用户体验问题,这是安全模型失效的标志。 Auto-review 的核心思路:分类器即守门员 Auto-review 的设计哲学是把"是否批准"从二元判断变成一个连续谱。Agent 在低风险场景下自由行动;在动作跨越某个有意义的边界时,自动降速。 实现方式是一个专用的小型分类器 agent,它运行在 tool call 执行路径之前。它的职责不是替代用户做决定,而是判断当前 action 是否在"用户意图允许的范围内"。关键在于上下文感知——rm -rf node_modules/ 和 rm -rf / 命令本身看起来类似,但前者可能是用户正常请求,后者显然不是。 技术实现上有几个值得注意的点: 1. 模型选择反直觉 团队发现低推理能力的模型不一定更快。当模型本身对 policy 或 tool call 的理解不够充分时,它会用更多 token 和时间"搜索"出一个最终更差的答案。最终的结论是:一个小模型 + 足够推理能力的组合,反而优于纯粹追求低延迟的方案。 这和业界"越便宜越好"的朴素想法相悖,但逻辑上成立:分类质量差 → 误判率高 → 反馈回路失效 → 整体系统不可靠。在安全关键路径上,宁可多花 50ms 用对模型,也不要快 50ms 给错结论。 ...