🚀 核心发布信息

  • 模型名称:Claude Opus 4.7
  • 定位:Opus 4.6 的直接升级版,但能力不及最强模型 Claude Mythos Preview
  • 定价:与 Opus 4.6 相同(输入 $5/M tokens,输出 $25/M tokens)
  • 可用渠道:Claude 全系产品、API、Amazon Bedrock、Google Vertex AI、Microsoft Foundry

📈 主要技术升级

1️⃣ 编程能力大幅提升

在 Anthropic 内部 93 项编码基准测试中:

指标Opus 4.6Opus 4.7提升
综合解决率58%70%+12%
复杂任务部分失败解决 4 个新任务首次突破
工具错误率基准减少 1/3大幅提升
执行连续性易中断贯穿工具故障显著改善

用户反馈(来自早期测试):

  • Devin:长时间自主工作数小时,攻克此前无法解决的难题
  • Cursor:CursorBench 从 58% → 70%
  • Factory Droids:任务成功率提升 10-15%,更少工具错误
  • CodeRabbit:代码审查召回率提升 10%+

2️⃣ 多模态视觉增强

参数Opus 4.6Opus 4.7
最大长边分辨率~800px2,576px(约 3.75MP)
提升倍数3×+

应用场景

  • 计算机使用代理读取密集截图
  • 从复杂技术图表提取数据
  • 需要像素级精度的参考工作
  • 生命科学专利工作流程(化学结构识别)

3️⃣ 指令遵循与自我纠错

  • 更严格的指令遵循:Opus 4.7 会严格执行指令,不再像早期模型那样"偷懒"或跳过部分内容
  • 规划阶段自我捕错:在动手之前就能发现逻辑漏洞
  • 更诚实的边界意识:清楚报告数据缺失,而不是给出"看似合理但错误"的回退答案
  • 抗拒"附和陷阱":即使 Opus 4.6 也会掉入的悖论数据陷阱,Opus 4.7 能正确识别

4️⃣ 文件系统记忆能力

  • 在长时间、多会话工作中能记住重要笔记
  • 利用这些记忆推进新任务,减少前置上下文需求
  • 对需要跨会话持续工作的 Agent 特别有价值

🔐 安全与对齐

网络安全防护

  • Opus 4.7 是第一个部署实时网络安全防护的模型
  • 自动检测并阻止指示禁止或高风险网络安全用途的请求
  • 为合法网络安全研究(漏洞研究、渗透测试、红队演练)提供 Cyber Verification Program

对齐评估

  • 整体安全表现与 Opus 4.6 相似
  • 在诚实性和抵抗恶意"提示注入"攻击方面有所改进
  • 但在某些方面(如对管制物质的过度详细危害减少建议)略弱于 Opus 4.6
  • Mythos Preview 仍是对齐度最高的模型

🆕 新增功能

1️⃣ xhigh effort 级别

  • 介于 highmax 之间的新 effort 级别
  • 为困难问题提供更精细的推理/延迟权衡
  • Claude Code 已将默认 effort 提升至 xhigh

2️⃣ 任务预算(Task Budgets)

  • 在 Claude Platform API 中以公开 Beta 形式推出
  • 让开发者引导 Claude 的 token 消耗,在长任务中优先分配工作

3️⃣ Claude Code 新功能

  • /ultrareview 命令:专用审查会话,读取变更并标记 bug 和设计问题
  • Auto Mode 扩展至 Max 用户:新权限选项,Claude 代表你做决策,减少中断

📊 基准测试表现

基准测试Opus 4.6Opus 4.7备注
SWE-Bench Verified基准+13%93 项编码任务
CursorBench58%70%编程能力
Terminal Bench 2.0基准显著提升终端任务
Finance Agent Eval基准0.715(并列第一)六模块总分
General Finance0.7670.813最大模块
GDPval-AA-SOTA经济价值知识工作
CyberGym73.8%提升网络安全

⚠️ 迁移注意事项

Token 使用变化

  1. 新 Tokenizer:处理文本的方式改进,但相同输入可能映射为更多 token
    • 估算增加 1.0-1.35×(取决于内容类型)
  2. 更高 effort 输出:在 agentic 设置的后序轮次中思考更多
    • 输出 token 数量会增加

控制方法

  • 使用 effort 参数调整推理级别
  • 调整 task budgets 控制 token 消耗
  • 优化 prompt 让模型更简洁

Prompt 调优建议

  • Opus 4.7 更严格遵循指令,为早期模型编写的 prompt 可能产生意外结果
  • 建议重新调整 prompt 和 harnesses

🎯 适用场景

场景推荐度原因
复杂编码任务⭐⭐⭐⭐⭐长期痛点,现在可放心交出
多步骤 Agent 工作流⭐⭐⭐⭐⭐自主性、一致性、错误恢复均提升
金融/法律分析⭐⭐⭐⭐GDPval-AA SOTA,90.9% BigLaw Bench
计算机使用/截图理解⭐⭐⭐⭐⭐2576px 高分辨率支持
文档生成/幻灯片⭐⭐⭐⭐更有品味和创意,质量更高
网络安全研究⭐⭐⭐需加入 Cyber Verification Program

📝 总结

Claude Opus 4.7 是 Anthropic 在 编程能力、多模态理解、长时间自主工作 三个维度的重大突破。对于需要高度可靠性的企业工程团队、需要像素级精确度的计算机使用代理、以及追求最高代码质量的开发者来说,这是一个直接升级的版本。

关键数字

  • 编码基准 +13%
  • 分辨率提升 3×+
  • 工具错误减少 1/3
  • 网络安全防护 首次部署

迁移提示:虽然定价不变,但请注意 token 使用量的潜在增加,并重新调优你的 prompt 以充分利用 Opus 4.7 更严格的指令遵循能力。


参考链接