🚀 核心发布信息
- 模型名称:Claude Opus 4.7
- 定位:Opus 4.6 的直接升级版,但能力不及最强模型 Claude Mythos Preview
- 定价:与 Opus 4.6 相同(输入 $5/M tokens,输出 $25/M tokens)
- 可用渠道:Claude 全系产品、API、Amazon Bedrock、Google Vertex AI、Microsoft Foundry
📈 主要技术升级
1️⃣ 编程能力大幅提升
在 Anthropic 内部 93 项编码基准测试中:
| 指标 | Opus 4.6 | Opus 4.7 | 提升 |
|---|---|---|---|
| 综合解决率 | 58% | 70% | +12% |
| 复杂任务 | 部分失败 | 解决 4 个新任务 | 首次突破 |
| 工具错误率 | 基准 | 减少 1/3 | 大幅提升 |
| 执行连续性 | 易中断 | 贯穿工具故障 | 显著改善 |
用户反馈(来自早期测试):
- Devin:长时间自主工作数小时,攻克此前无法解决的难题
- Cursor:CursorBench 从 58% → 70%
- Factory Droids:任务成功率提升 10-15%,更少工具错误
- CodeRabbit:代码审查召回率提升 10%+
2️⃣ 多模态视觉增强
| 参数 | Opus 4.6 | Opus 4.7 |
|---|---|---|
| 最大长边分辨率 | ~800px | 2,576px(约 3.75MP) |
| 提升倍数 | 1× | 3×+ |
应用场景:
- 计算机使用代理读取密集截图
- 从复杂技术图表提取数据
- 需要像素级精度的参考工作
- 生命科学专利工作流程(化学结构识别)
3️⃣ 指令遵循与自我纠错
- 更严格的指令遵循:Opus 4.7 会严格执行指令,不再像早期模型那样"偷懒"或跳过部分内容
- 规划阶段自我捕错:在动手之前就能发现逻辑漏洞
- 更诚实的边界意识:清楚报告数据缺失,而不是给出"看似合理但错误"的回退答案
- 抗拒"附和陷阱":即使 Opus 4.6 也会掉入的悖论数据陷阱,Opus 4.7 能正确识别
4️⃣ 文件系统记忆能力
- 在长时间、多会话工作中能记住重要笔记
- 利用这些记忆推进新任务,减少前置上下文需求
- 对需要跨会话持续工作的 Agent 特别有价值
🔐 安全与对齐
网络安全防护
- Opus 4.7 是第一个部署实时网络安全防护的模型
- 自动检测并阻止指示禁止或高风险网络安全用途的请求
- 为合法网络安全研究(漏洞研究、渗透测试、红队演练)提供 Cyber Verification Program
对齐评估
- 整体安全表现与 Opus 4.6 相似
- 在诚实性和抵抗恶意"提示注入"攻击方面有所改进
- 但在某些方面(如对管制物质的过度详细危害减少建议)略弱于 Opus 4.6
- Mythos Preview 仍是对齐度最高的模型
🆕 新增功能
1️⃣ xhigh effort 级别
- 介于 high 和 max 之间的新 effort 级别
- 为困难问题提供更精细的推理/延迟权衡
- Claude Code 已将默认 effort 提升至 xhigh
2️⃣ 任务预算(Task Budgets)
- 在 Claude Platform API 中以公开 Beta 形式推出
- 让开发者引导 Claude 的 token 消耗,在长任务中优先分配工作
3️⃣ Claude Code 新功能
/ultrareview命令:专用审查会话,读取变更并标记 bug 和设计问题- Auto Mode 扩展至 Max 用户:新权限选项,Claude 代表你做决策,减少中断
📊 基准测试表现
| 基准测试 | Opus 4.6 | Opus 4.7 | 备注 |
|---|---|---|---|
| SWE-Bench Verified | 基准 | +13% | 93 项编码任务 |
| CursorBench | 58% | 70% | 编程能力 |
| Terminal Bench 2.0 | 基准 | 显著提升 | 终端任务 |
| Finance Agent Eval | 基准 | 0.715(并列第一) | 六模块总分 |
| General Finance | 0.767 | 0.813 | 最大模块 |
| GDPval-AA | - | SOTA | 经济价值知识工作 |
| CyberGym | 73.8% | 提升 | 网络安全 |
⚠️ 迁移注意事项
Token 使用变化
- 新 Tokenizer:处理文本的方式改进,但相同输入可能映射为更多 token
- 估算增加 1.0-1.35×(取决于内容类型)
- 更高 effort 输出:在 agentic 设置的后序轮次中思考更多
- 输出 token 数量会增加
控制方法
- 使用 effort 参数调整推理级别
- 调整 task budgets 控制 token 消耗
- 优化 prompt 让模型更简洁
Prompt 调优建议
- Opus 4.7 更严格遵循指令,为早期模型编写的 prompt 可能产生意外结果
- 建议重新调整 prompt 和 harnesses
🎯 适用场景
| 场景 | 推荐度 | 原因 |
|---|---|---|
| 复杂编码任务 | ⭐⭐⭐⭐⭐ | 长期痛点,现在可放心交出 |
| 多步骤 Agent 工作流 | ⭐⭐⭐⭐⭐ | 自主性、一致性、错误恢复均提升 |
| 金融/法律分析 | ⭐⭐⭐⭐ | GDPval-AA SOTA,90.9% BigLaw Bench |
| 计算机使用/截图理解 | ⭐⭐⭐⭐⭐ | 2576px 高分辨率支持 |
| 文档生成/幻灯片 | ⭐⭐⭐⭐ | 更有品味和创意,质量更高 |
| 网络安全研究 | ⭐⭐⭐ | 需加入 Cyber Verification Program |
📝 总结
Claude Opus 4.7 是 Anthropic 在 编程能力、多模态理解、长时间自主工作 三个维度的重大突破。对于需要高度可靠性的企业工程团队、需要像素级精确度的计算机使用代理、以及追求最高代码质量的开发者来说,这是一个直接升级的版本。
关键数字:
- 编码基准 +13%
- 分辨率提升 3×+
- 工具错误减少 1/3
- 网络安全防护 首次部署
迁移提示:虽然定价不变,但请注意 token 使用量的潜在增加,并重新调优你的 prompt 以充分利用 Opus 4.7 更严格的指令遵循能力。
参考链接: