首页 · 深度文章 · Claude Opus 4.7 实测体验：凌晨发布的「最强打工人」

AI 工具模型发布Claude

Claude Opus 4.7 实测体验：凌晨发布的「最强打工人」

叁笙 2026-04-17 31 分钟阅读公众号原文 ↗

🎵 本文主题曲 · 无声的伙伴

0:00

Claude Opus 4.7 实测体验：凌晨发布的「最强打工人」

一、旧金山早上八点发版的 Opus 4.7

4 月 16 日晚上 11 点，北京的深夜；旧金山那头，时钟刚刚拨到早上 8 点整。

Anthropic 没有搞 Keynote，也没有倒计时预告，一则博文、一条 API 更新，Claude Opus 4.7 就这么上线了。时间点倒挺有意思——加州的工程师们刚刷完牙喝上第一杯咖啡，版就发出来了☕。太平洋对岸的我们，则是顶着黑眼圈守着更新日志刷到后半夜。

（调侃一句：这家公司每次大版本都是旧金山早高峰刚结束就发。我怀疑不是巧合，是”趁老板还没进会议室”的产品节奏学🤫。）

这次的升级口径，官方一句话概括得很克制：

“Opus 4.7 是对 Opus 4.6 在高级软件工程能力上的显著改进。“（Anthropic 官网）

翻译成人话就是——你之前不敢扔给它的硬活，现在可以扔了。

但别只看这句话。读完系统卡和合作伙伴反馈后你会发现，这次升级的”水下冰山”远比 Anthropic 自己说的大——自我验证（self-verification）、视觉分辨率翻三倍、多步 Agent 成功率 +14%，每一条拿出来都够写一篇文章。

二、价钱没涨，但账单可能会涨

很多人第一反应是看钱包：

模型	输入	输出
Opus 4.7（新）	$5 / 百万 tokens	$25 / 百万 tokens
Opus 4.6	$5 / 百万 tokens	$25 / 百万 tokens
Sonnet 4.6	$3 / 百万 tokens	$15 / 百万 tokens
Haiku 4.5	$1 / 百万 tokens	$5 / 百万 tokens

官方单价一分未涨，仍然是 Opus 4.6 的档位；Sonnet 和 Haiku 也没动。看似皆大欢喜，但这里有一个很容易被忽略的坑——

👇 这是我在 Claude Code 里切换模型时看到的提示：

Opus 4.7 · Most capable for complex work · ~2× usage vs Sonnet

“2× usage vs Sonnet”，是官方自己承认的事实：Opus 4.7 更换了新的分词器（tokenizer），对同一段文字的切分更细，token 数最高会多出约 35%，叠加 Opus 本身就比 Sonnet 贵，算下来同一项任务的账单大约是 Sonnet 的两倍。

Anthropic 官方原文写得很坦诚：

“同样的输入在新分词器下可能映射为更多的 token——大约是 1.0× 到 1.35×，取决于内容类型。”

换句话说，单价没涨，但 Opus 4.7 在”数 token”这件事上变得更”贪”了。所以 Anthropic 这次给 Pro/Max 订阅用户的动作反而有意思：默认推荐仍是 Sonnet 4.6，Opus 4.7 只在”复杂任务”时提醒你用，并且在切换界面明晃晃地把”2×“标出来，相当于把成本控制的选择权重新交回给用户。

Hacker News 上有开发者吐槽：“现在跑一个 Agent loop，token 像水龙头一样哗哗流。” 但也有人反驳：“4.7 一次做对的事情，4.6 要反复改三四轮，算总账其实更便宜。“——这笔帐值得你在自己项目里实测一下（我感觉说的挺好）。

三、这次到底升级了什么

我把官网、VentureBeat、CNBC、The Next Web 几家的长文都啃了一遍，再对齐 Anthropic 官方系统卡，能被同时多家复述、可交叉验证的升级，大致是下面五件事：

1. 编码能力：SWE-bench 再跳一档

这是最硬的部分，也是 Anthropic 这次着重宣传的方向：

SWE-bench Verified：80.8% → 87.6%
SWE-bench Pro：53.4% → 64.3%（同场 GPT-5.4 是 57.7%，Gemini 3.1 Pro 是 54.2%）
Terminal-bench 2.0：65.4% → 69.4%
CursorBench：58% → 70%（这是 Cursor 编辑器内的实战测试，非实验室环境）

Rakuten 内部用自家的 Rakuten-SWE-Bench 测出来的结论更夸张——Opus 4.7 能解决的生产级任务是 Opus 4.6 的 3 倍，代码质量和测试质量都有双位数提升。

还有一条容易被忽略的：GPQA Diamond（研究生级别推理）从 91.3% 涨到 94.2%，这已经逼近人类专家上限了。

2. 自我验证：会自己写测试，自己打脸

这是我觉得最值得写进公众号开头的一条，但官方把它藏在系统卡中段。

“Opus 4.7 会主动想办法验证自己的输出再交卷。”

Anthropic 举的例子是：让模型从零写一个 Rust 的文本转语音（TTS）引擎，它写完之后自己把生成的音频喂给另一个语音识别模型做回译比对，确认输出没问题才说”做完了”。

在我自己的实测（后面第五节展开）里，这个行为非常明显：它不再是”写完就拍屁股走人”，而是会自觉跑一遍 verify，跑不过就回头改。

3. 代理能力：多步工作流 +14%，工具错误只剩 1/3

这条对用 Agent / Claude Code / 自建工作流的人最实在：

在复杂的多步工作流里，综合成功率相对 Opus 4.6 提升 14%；
同一批任务里，工具调用错误率只有原来的 1/3；
第一次通过 Anthropic 内部所谓的”隐式需求测试”——也就是不告诉它该用哪个工具，它自己推断。

合作伙伴的反馈更直观：

Notion 的 AI 负责人 Sarah Sachs 说：“可靠性的跃升让 Notion Agent 感觉像个真正的队友。”
Factory 反馈 Opus 4.7 在多步任务中成功率提升 10%~15%，工具错误更少，验证步骤执行更稳。
Devin 甚至直接抛出一句**“能连续工作好几个小时，把难题啃下去，不会中途放弃”**。
CodeRabbit 的代码审查评测显示，4.7 能发现更深层的 bug，给出的修改建议更连贯、更可操作。

4. 视觉能力：图像分辨率翻三倍

图片长边上限：1568px → 2576px（约 3.75 MP），Claude 史上第一次支持真·高分辨率图。
Charts Reasoning（图表推理）：69.1% → 82.1%，一次性涨 13 个点。
arXiv 学术图表推理（带工具使用）：84.7% → 91.0%。

实际意义就是，你现在丢一张真实的 Figma 设计稿、真实的 PPT 截图、甚至一张 A4 扫描件进去，它能读清楚边角的小字了。之前你得先裁切放大再喂给它的操作，现在可以省了。

5. 新推理档位 xhigh + Task Budgets

在原先的 low / medium / high / max 之间，官方新增了一档 xhigh（extra high），并建议——“编码和 Agent 类任务直接从 xhigh 起步”。在 Claude Code 中，所有方案的默认档位已经提升到 xhigh。
task_budgets（公测中）：给整个 Agent 循环（思考 + 工具调用 + 工具结果 + 最终输出）一个总 token 预算，避免它”聊着聊着烧穿你账户”。

这俩新功能加在一起，某种程度上把 Opus 4.7 从”模型”推向了”Agent 基础设施”——Anthropic 不再只卖你一个 LLM，而是卖你一整套带预算、带效率档位的调度系统。

还有个小惊喜：Claude Code 新增了 /ultrareview 斜杠命令——专门开一个审查会话，通读你所有改动，像一个资深 reviewer 那样逐条挑 bug 和设计问题。Pro/Max 用户赠送 3 次免费额度。

四、一张雷达图看懂官方的七个维度

官方博文里那组切换标签的柱状图（办公任务 / 想象 / 文件推理 / 长语境推理 / 生物学 / 长期一致性 / 编码），在公众号里一张一张切图太散，我把七张图的数据汇拢成一张雷达图，只比较 Opus 4.7 vs Opus 4.6——两条线清清楚楚，哪里进步大、哪里几乎持平，一眼就能看出来。

为什么只放两条线？ GPT-5.4 和 Gemini 3.1 Pro 在好几个维度官方没给数据（想象、长语境推理、生物学、长期一致性、编码这五个维度均无可比数据），硬塞进去会造成误导。所以雷达图保持纯净的”自家迭代对比”，GPT/Gemini 的已知数据放在下方独立表格里。

雷达图原始数据（各维度代表指标 + 原始值）

维度	测试基准	Opus 4.7	Opus 4.6	提升
办公任务	GDPVal-AA（Elo）	1753	1619	+8.3%
想象	ScreenSpot-Pro（无工具，低分辨率，%）	69.0	57.7	+19.6%
文件推理	OfficeQA Pro（%）	80.6	57.1	+41.1% ⬆️
长语境推理	GraphWalks Parents 1M（%）	75.1	71.1	+5.6%
生物学	Structural Biology（%）	74.0	30.9	+139.5% 🚀
长期一致性	Vending-Bench 2（金钱均衡，$）	$10,937	$8,018	+36.4%
编码	SWE-bench Multilingual（%）	80.5	77.8	+3.5%

Opus 4.7 vs 4.6 七维度雷达对比

关于”想象”这一维的特别说明： Opus 4.7 新增了高分辨率支持，同一个 ScreenSpot-Pro 测试，4.7 高分辨率无工具拿到 79.5%（带工具 87.6%），而雷达图用的是低分辨率数据与 4.6 公平对比（57.7% → 69.0%）——高分辨率那条柱是 4.7 独有的，已没有对手的 baseline。

📊 GPT-5.4 / Gemini 3.1 Pro 官方对比数据

下面这张表是 Anthropic 官网直接给出的竞品数据——仅”文件推理”和”办公任务”两个维度有可直接对比的数字。其余五个维度，GPT-5.4 和 Gemini 3.1 Pro 均未公布同口径成绩，无法列入：

维度	测试基准	Opus 4.7	GPT-5.4	Gemini 3.1 Pro
文件推理	OfficeQA Pro（%）	80.6	51.1	42.9
办公任务	GDPVal-AA（Elo）	1753	1674	1314

四大模型硬核横评

一眼结论：

文件推理是 Opus 4.7 本次最碾压的维度——80.6% vs GPT-5.4 的 51.1%（领先近 30 个百分点）、vs Gemini 3.1 Pro 的 42.9%（领先近 38 个百分点）。这意味着你扔一份复杂的 PDF 合同或一堆 Excel 报表进去，4.7 几乎是碾压级的理解力。
办公任务上 Opus 4.7 依然领先，但差距没那么夸张——1753 vs GPT-5.4 的 1674（仅差 4.7%），Gemini 3.1 Pro 则明显掉队。

💡 延伸参考： 在编码赛道上的另一个重要横评——SWE-bench Pro（专业级真实代码修复），Opus 4.7 拿到 64.3%，GPT-5.4 是 57.7%，Gemini 3.1 Pro 是 54.2%。虽然不在上面那组”七维度”里，但它可能是开发者最关心的单一指标。

💡 GUI 视觉操控： 在 ScreenSpot-Pro（专业桌面软件 GUI 定位）排行榜上，GPT-5.4 以 85.4% 暂时领先，Gemini 3.1 Pro 紧随其后 84.4%。这是 GPT-5.4 目前为数不多明确领先的领域之一。 Opus 4.6 在该榜单为 83.1%（Opus 4.7 数据尚在更新中）。

Anthropic 这次没有放出数字虐杀对手，反倒老老实实把每一项打到小数点后一位，甚至把自家预览版 “Mythos Preview” 的数据也放上来——SWE-bench Verified 93.9% 就是它。意思是：“4.7 已经不错，但我们自己内部还有更狠的。”

顺带一提，Anthropic 解释了为什么 Mythos Preview 不全面放开：它是目前安全对齐做得最好的模型，但网络安全能力也最强——Anthropic 选择先在 Opus 4.7 上测试新的安全护栏（Project Glasswing），积累经验后再逐步放开 Mythos 级别模型。简单说：不是它不能给你用，是它太强了，Anthropic 自己还没想好怎么安全地给你用。

五、实测：我让它复核自己兄弟写过的 Skill

光看榜单都是数字，没有体感。 我挑了自己手头最熟的一件事：让 Opus 4.7 来复核我的 sandy-write Skill 这套发布流水线——这活儿之前是 Opus 4.6 写的。

实测场景一：发现了 4.6 留下的断链

![实测场景一：Opus 4.7 复核 write skill](/article-assets/AIT-02/截图/实测复核write skill.png)

结论让我挺意外。Opus 4.7 在一次扫描里就标出了三类问题：

断链：多处 SKILL.md 引用了 references/music.md、scripts/generate_article_tags.py 等已不存在的文件；
配置分层错位：品牌 / 栏目 id / 主题色等耦合在 SKILL.md 里，没有单独拆到 brand.yaml 和 EXTEND.md；
“遗漏/反复/手动介入”的根因：根本问题是没有一个 checklist 用 DSL 自动断言，每次都是靠模型”记着办”——这当然会漏。

它没有直接改代码，而是给了我 A/B/C 三套改造方案，并按”代价 vs 收益”排了序。

实测场景二：真动手时，它会自己跑一遍看对不对

![实测场景二：Claude 对 write skill 复核修改](/article-assets/AIT-02/截图/Claude 对我write skill复核修改.png)

确认方案后，Opus 4.7 新增了 pipeline.py（418 行），把 init / status / next / verify / done 五个命令拉通成一条流水线；同时修了 SKILL.md 里的”恢复协议”段，排版顺序错误也顺手改了。

最让我有感觉的细节是——它改完之后主动说”我跑一遍 verify init 确认能跑通再交卷”，然后真的跑了，跑失败一次，自己查日志，改完再跑。这个”自我验证”动作，以前在 Opus 4.6 上我得显式写进 prompt 才能稳定触发，现在它默认会做。

实测场景三：和 Antigravity 吵架时的”认错”

![实测场景三：Antigravity 和 Claude 吵起来了](/article-assets/AIT-02/截图/antigravity 和 Claude 吵起来了.png)

我在 Claude Code 和 Antigravity 两边同时作业，两边 Agent 对同一套 Skill 的理解出现了分歧。有意思的是，Opus 4.7 在被打脸时不再硬撑：

“断链问题我确实漏了，重新核实后列出——不对，我之前的’纠正’也是错的，再重新核实一次。”

这种”连续自我修正 + 主动承认之前答错”的交互，在 4.6 上是偶尔会出现；到 4.7 变成几乎每次被挑战都会主动重新核对一遍事实，而不是给你一段”您说得对”的场面话。

Anthropic 官方在安全对齐评估中也印证了这一点——Opus 4.7 在抵抗奉承（sycophancy）和诚实度方面，比 4.6 有改善。它会纠正你，而不是顺着你说。我觉得Gemini 3.1pro这点比较明显，每次和他对话，他总会先表扬我一顿。

实测小结（体感，非严谨）

维度	4.6 体感	4.7 体感
扔硬活敢不敢睡觉	不敢，得盯着	敢（它会自己验证）
指令执行精确度	偶尔”善意跳过”	逐字执行，不自作主张
被打脸的反应	顺着说”您说得对”	重新核事实、承认错
长链 Agent 任务	容易中途卡壳	能连跑一两小时
Token 成本	基准	明显更贵（35% 起）

开发者社区的一些零散体感补充（来自 Hacker News / Reddit / 各技术博客，发布后 24 小时内）：

“在 Cursor 里用 4.7 重构一个跨文件的 TypeScript 项目，一次跑通的概率明显变高了。以前同样的任务要 Continue 三四次。”

“指令遵循变严了，我以前写得比较模糊的 prompt 现在反而出问题——4.6 会帮你脑补，4.7 直接按字面执行。老 prompt 可能要重新调一下。”

“有时候感觉它’过度严谨’了，会卡在一个验证步骤反复跑，token 刷刷地烧。”

“Memory 能力确实有感：跨 session 的任务接续比以前顺，不需要每次都重新给一遍上下文。“

六、国内用户的几个现实问题

这部分我不打算回避，因为评论区一定会问：

1. 官方定价没涨，但 Token 账单会涨 30%~100%

老项目迁移前先在测试环境跑一遍再决定是否切。Anthropic 自己也建议”在真实流量上实测差异”。

2. 身份验证更严

Anthropic 这次顺手收紧了地区合规和实名制，国内订阅 / API 使用确实在经历一波”断供”风波（LINUX DO 和爱范儿都有详细报道），走第三方代理的朋友要留意风控。这次 Opus 4.7 也是首个搭载 Project Glasswing 安全护栏的模型——会自动检测和屏蔽高风险网络安全请求。正经做安全研究的需要申请 Cyber Verification Program。

3. 国产替代的位置

单看 SWE-bench Pro 这一项，GLM-5.1（58.4%）已经超过了 Opus 4.6（53.4%）甚至 GPT-5.4（57.7%），千问 3.6-Plus 也拿到 49.5%。但基准分数和综合体感是两回事——我自己同时用过这几家，在长链 Agent 任务的稳定性、指令遵循的精确度、以及”出了错会不会自己发现”这些维度上，国产模型和 Opus 4.7 之间的差距比跑分显示的要大。单项不代表全面，对”能不能一次做对、能不能自己验证”这件事极端敏感的场景，Opus 4.7 仍然是我手上最稳的那张牌。

4. 用还是不用的决策树

日常对话 / 简单文本生成 → Sonnet 4.6 甚至 Haiku，别浪费钱
跨文件代码重构 / 复杂 Agent 任务 → Opus 4.7 + xhigh 档位
高分辨率图表解读 / PDF 分析 → Opus 4.7（视觉提升最明显的场景）
预算紧张但需要 Opus 级能力 → 试试模型路由：简单步骤走 Sonnet，关键步骤走 Opus

七、写在最后：它不再像工具，而更像一个会自证的同事

用了一晚上，我最直观的感受是：

Opus 4.6 交付的是”代码”，Opus 4.7 交付的是”已经自己验证过的代码”。

这中间的差别，看起来只差一个 verify 步骤，但对我这种”把 Claude 当队友用”的工作流来说，节省的是我反复回头检查的那部分心智——我不用再时刻盯着它有没有耍滑头、有没有”善意地”跳过某行指令，它会自己跑一圈证明给我看。

Anthropic 官方说得好：“用户可以把以前不敢放手的硬活，现在安心交给 Opus 4.7。” 我实测下来的结论是——他们没有夸大。

价格没变、分词器更贵、限流更严——这些都是小账。 大账是：这次升级把”AI 辅助编程”往”AI 独立承担编程”的方向又推了半步。

🎩 送走老板的一句话：“这次 Anthropic 没给你新魔法，它给你的是一个愿意自证清白的员工。”

如果这个员工能值每百万 token 25 刀的出货价，那真的，香。

Opus 4.7 核心升级盘点

Opus 4.7 开发者决策树

📎 信息来源

Introducing Claude Opus 4.7 — Anthropic
What’s new in Claude Opus 4.7 — Claude API Docs
Claude Opus 4.7 is generally available — GitHub Changelog
VentureBeat：Anthropic 窄幅夺回”最强公开 LLM”
The Next Web：SWE-bench 与 Agent 推理领先
CNBC：Opus 4.7 发布（对比 Mythos）
Vellum AI：Opus 4.7 Benchmarks Explained
CodeRabbit：4.7 对 AI Code Review 意味着什么
36 氪：Claude Code 一夜重构，7×24 替你打工
爱范儿：Opus 4.7 将上线，但 Anthropic 要查你证件
ABMedia 动区：Opus 4.7 完整评测