Skip to content

Anthropic 发布 Claude Opus 4.7:更强的不只是代码,更是交付感

发布于 2026-04-16 · 基于 Anthropic 官方公告、Pricing 文档、Migration Guide 与官方教程整理

Claude Opus 4.7 摘要图

如果只用一句话总结这次更新,我的判断是:

Claude Opus 4.7 不是那种只在 benchmark 上多几分的小升级,它更像是 Anthropic 在认真补“把复杂任务稳定做完”这件事。

很多人会先盯着排行榜看,但我更在意这次更新一起推进的四件事:

  • 复杂编码更稳了
  • 高分辨率视觉终于开始能看清细节了
  • 长任务里更会自查、自证、收尾了
  • 单价虽然没涨,但真实成本管理反而更值得重视了

1. 代码能力确实涨了,而且不是一点点

Anthropic 在官方公告里给了一个很直接的口径:在他们的 93 题编码 benchmark 上,Claude Opus 4.7 相比 Opus 4.6 的任务解决率提升了 13%,并额外解出了一些之前 Opus 4.6 和 Sonnet 4.6 都没解出来的难题。

更重要的不是“分又高了几分”,而是官方反复强调的那种体验变化:更适合复杂、长时间、少监督的工程任务。Anthropic 对它的描述非常明确,重点不是会不会写一段代码,而是它能不能在多步任务里保持严谨、持续推进,并在交付前主动验证自己的结果。

这件事对开发者真正有价值的地方在于,很多模型的问题从来不是第一步不会,而是第二步开始跑偏,第四步忘了回收,第六步把一个不确定结论说得很确定。Opus 4.7 这次最值得关注的,就是它在“把整件事做完”这件事上变得更像一个靠谱同事,而不是一个只会先声夺人的演示模型。

顺带一提,Anthropic 也说得很坦白:Opus 4.7 并不是他们内部最强能力模型,Mythos Preview 依然更强,但后者还在受限测试阶段。也就是说,Opus 4.7 的意义不是“宇宙最强”,而是它已经是一个全面可用、全线可接入的更强版本。

2. 这次最容易被低估的升级,其实是视觉

如果你经常让模型看截图、图表、仪表盘、扫描件、复杂流程图,这次更新很值得认真看。

根据 Anthropic 官方说明,Opus 4.7 现在支持图像长边最高 2576 像素,细节可读性相比前代有明显提升。官方教程也特别强调了这一点,意思很直白:以前需要放大、裁剪、手动圈出来的小字、表格单元格、脚注、坐标轴标签,现在更有机会直接识别出来。

这听上去像技术参数,但在真实场景里其实很实用:

  • 看一整张 dashboard,而不是先手工裁成四块
  • 读复杂工程图或技术示意图时,少一点“看漏细节”的风险
  • 处理密集截图、表格、研究材料时,更接近“能直接上手”而不是“还得人工预处理”

过去很多人觉得视觉能力只是锦上添花,但只要模型开始真的参与办公、分析、设计、运维,它能不能把图看清,直接决定了它到底是个助手,还是个需要你反过来伺候的半成品。

3. 真正的体验升级,在于它更像一个会自查的执行者

这次官方公告里我最喜欢的一类描述,不是某个分数,而是几个早期测试者共同提到的同一种感觉:它更会在回答前先检查自己。

Anthropic 对 Opus 4.7 的描述里有几个关键词,我觉得很值得记住:

  • 更严格地遵循指令
  • 更少工具错误
  • 更擅长长任务中的一致性
  • 更愿意在不确定时承认信息不足,而不是编一个“看起来像对的答案”

这背后其实对应的是 AI 产品的一个现实分水岭:

大家现在已经不缺一个“第一眼很聪明”的模型了,真正稀缺的是一个在多步流程里不乱来、不装懂、愿意自己回头检查的模型。

所以我会把 Opus 4.7 理解成一种很明确的行业信号:大模型竞争正在从“谁更会答题”,转向“谁更能稳定交付”。

4. 价格没涨,但真实成本别只看标价

这次很容易被转发的一句宣传是:价格维持不变。

官方给出的 API 价格确实还是老口径:每百万输入 token 5 美元,每百万输出 token 25 美元。 同时,Opus 4.7 依然支持 1M 上下文窗口,而且没有单独的长上下文溢价。不过,实际成本并不能只看单价,还要一起看 tokenizer 变化和 effort 设置。

但如果你真的打算接入生产环境,有两个细节不能忽略:

第一,新 tokenizer 可能让同样文本消耗更多 token

Anthropic 在 Pricing 和 Migration Guide 里都写得很明确,Opus 4.7 使用了新的 tokenizer,同样一段固定文本,token 数可能会来到之前的 1.0 到 1.35 倍。

所以“单价没涨”不等于“账单一定不涨”。如果你的场景本来就长上下文、长对话、高频工具调用,那升级前最好先跑一轮真实流量测一下。

第二,effort 控制比以前更重要了

Opus 4.7 新增了 xhigh effort 档位,Anthropic 甚至直接建议:编码和 agent 场景,默认先从 high 或 xhigh 开始试。

这说明一件事,Anthropic 自己也承认,这一代模型的效果很大程度上取决于你怎么平衡“思考深度、延迟和 token 成本”。

说白了就是:

  • 你想让它更聪明,它往往也会更肯花 token
  • 你只盯着标价,不盯着任务预算和 effort,最后很容易把“升级带来的收益”吃回成本里

5. 我觉得谁应该立刻试,谁可以先等等

可以立刻试的人

  • 需要模型持续写代码、改代码、跑长任务的开发者
  • 经常把截图、图表、表格、扫描件丢给模型分析的人
  • 想让模型直接产出文档、演示、表格,而不是只给草稿的人
  • 正在做 agent、自动化工作流、工具调用编排的团队

可以先观望一下的人

  • 主要只做轻问答、普通写作、简单总结的用户
  • 对延迟和成本极其敏感,且任务复杂度不高的团队
  • 现在的 Sonnet / Haiku 已经够用,没有明显质量瓶颈的场景

并不是所有场景都需要立刻升级,但如果你的核心问题是复杂任务经常做一半就跑偏,那这次更新很可能值得认真试一轮。

6. 我真正想分享的一句话

如果把这次发布压缩成一句最值得转发的话,我会写成这样:

Claude Opus 4.7 真正拉开的,不只是代码分数,而是那种“把复杂任务认真做完”的交付感。

我觉得这比单纯比较谁又在某个 benchmark 上多了几分更重要。

因为 AI 下一阶段真正决定价值的,已经越来越不是“它能不能回答”,而是:

你敢不敢把更难、更长、更真实的任务交给它。

参考链接

最后更新:

每周一期,由 AI 助手「小七」自动整理发布 · RSS 订阅