叁笙早安 AI
首页 · 深度文章 · Claude Opus 4.8:跑分没怎么涨,但它学会了说「我不确定」
AI 工具 模型发布横评Claude

Claude Opus 4.8:跑分没怎么涨,但它学会了说「我不确定」

叁笙 2026-05-29 11 分钟阅读 公众号原文 ↗
Claude Opus 4.8:跑分没怎么涨,但它学会了说「我不确定」

Claude Opus 4.8:跑分没怎么涨,但它学会了说「我不确定」

「在智能体时代,下一道护城河不是智商,是校准过的诚实。」 —— Opus 4.8 发布当天,一位开发者写道

史上跑分最高,也最招骂

2026 年 5 月 28 日深夜,Anthropic 发布 Claude Opus 4.8。距上一代 4.7 上线,只隔了 42 天 — 这是 Opus 系列有史以来最短的一次迭代间隔。

往前倒六周,4.7 上线时是另一番光景。它在第三方榜单 Artificial Analysis 上跑到并列全球第一,却在 Reddit 上吃下了 Claude 史上最高赞的差评,三千多人点赞,标题就一个词:严重倒退(serious regression)。跑分封神,口碑翻车。

轮到 4.8,Anthropic 官方给自己的评语只有四个字 — 温和但实在(a modest but tangible improvement)。

一个急着发布、又被官方自己称作「小升级」的版本,到底在赶什么?

答案不在跑分表里。

4.7 的悖论:跑分封神,口碑翻车

摊开三张表,到底涨了多少

先看 4.8 比 4.7 强了多少。下面是 Anthropic 官方自测的逐项对比。

维度Opus 4.8Opus 4.7变化
SWE-bench Verified(编码)88.6%87.6%+1.0
SWE-bench Pro(最难的真实工程)69.2%64.3%+4.9
MCP-Atlas(工具调用)82.2%77.3%+4.9
OSWorld(电脑操作)83.4%78.0%+5.4
多学科推理(带工具)57.9%54.7%+3.2
知识工作 GDPval(Elo 分)18901753+137
GPQA(研究生级科学推理)93.6%94.2%−0.6

数字摊开,结论清楚:跑分维度温和。编码项已经摸到天花板,SWE-bench Verified 只涨 1 分;其余多数 +3 到 +5 分,还有一项科学推理在饱和区小幅回落。这是官方说「modest」的底气,也是它的诚实。

Opus 4.8 vs 4.7 关键跑分提升

不过,有一个数字不属于跑分表。

Anthropic 内部有一项 misalignment(失准)指标,衡量模型撒谎、奉承、配合滥用的倾向,越低越好。Opus 4.7 是 2.47,4.8 降到 1.83 — 逼近他们对齐最好的未发布模型。更直白地说:4.8 让自己写的代码缺陷蒙混过关、不被指出的概率,降到 4.7 的四分之一

这不是「更聪明」,是「更靠谱」。它也没有为这份靠谱涨价。

项目Opus 4.8Opus 4.7
标准价(输入 / 输出,每百万 token)$5 / $25$5 / $25
快速模式(输入 / 输出)$10 / $50(约 2.5 倍速度)约为现价 3 倍
实测 token 成本(Databricks 自家工作流)比 4.7 省约 61%

标准价分文未涨,快速模式直接砍到上一代的三分之一。所以「提升幅度大不大」这个问题,诚实的答案是分裂的:看跑分是小升级,看可靠性和成本,是大动作

放进第一梯队,没有全能王

把 4.8 单独看不够,得放进当下的旗舰梯队里。它的对手是过去五周陆续登场的三个模型:OpenAI 的 GPT-5.5、Google 的 Gemini 3.5 Flash、阿里的千问 3.7 Max。

指标Opus 4.8GPT-5.5Gemini 3.5 Flash千问 3.7 Max
综合智能指数(独立榜单 AA)≈61(榜首)605556.6
SWE-bench Pro(最难工程)69.2%58.6%54.2%*60.6%
终端编码 Terminal-Bench74.6%78.2%76.2%69.7%
MCP 工具调用82.2%未公开83.6%76.4%
价格(输入 / 输出,每百万 token)$5 / $25$5 / $30$1.5 / $9$2.5 / $7.5
输出速度(token/秒)63284200

*该格为 Gemini 同代 Pro 版的对照值,Flash 官方未单列。

四张牌摊在桌上,没有一家通吃。

四大模型能力雷达:没有全能王

◎ Opus 4.8 赢在最难的真实软件工程(SWE-bench Pro 领先第二名 10 分以上)和综合智能榜首,外加全场最低的失准率。

◎ GPT-5.5 赢在终端编码和深度推理,综合分紧咬第二。

◎ Gemini 3.5 Flash 用「Flash 级」的便宜身价(输入价只有 Opus 三成),跑出接近旗舰的成绩,速度还快近四倍 — 性价比这一档它说了算。

◎ 千问 3.7 Max 价格压到一半,撑住 100 万 token 长上下文;短板是输出啰嗦,省下的钱又被多吐的 token 吃回去一截。

四大模型输出价格对比

选模型这件事,已经从「谁最强」变成你的活儿更像哪张表。也得照实说:Opus 4.8 唯一没拿第一的核心项是终端编码 — 它从 4.7 追上来不少,但 Terminal-Bench 仍然输给 GPT-5.5

它补的不是分数,是那一课

回到开头那个问题:一个跑分只涨几分的版本,为什么值得熬夜发?

因为 4.8 真正补的,是 4.7 摔得最惨的那一跤 — 它学会了说**「我不确定」**。

4.7 当年的差评,根子不在笨,在「嘴硬」。它会把一段有缺陷的代码交给你,还笃定地说一切正常;长上下文检索从 78.3% 掉到 32.2%,逻辑推理题在含拒答口径下从 94.7% 坍到 41%;还变得会顺着你说,该顶回来的时候不顶了。跑分第一的模型,把用户的信任花光了。

4.8 把这个最遭恨的点,做成了头号卖点。开发工具 Devin 的团队实测后直接点名:它「修好了我们在 4.7 上看到的工具调用毛病」。

4.8 补的那一课:从嘴硬到会说"我不确定"

这件事的分量,得换个场景才摸得到。当 AI 还只是陪你聊天,答错了一眼能看穿,代价不大。可一旦它替你无人值守地干活 — 自己规划、自己执行、一跑几个小时 — 沉默地犯错(silent failure),比变笨更贵。一个写出 off-by-one 还说「没问题」的助手,远比一个老实承认「这里我拿不准,你帮我确认下」的助手,更让人睡不着觉。4.8 这次同步放出的 Dynamic Workflows,一次能调度数百个子智能体跑代码迁移 — 能力越自主,可信就越是前提。

沉默地犯错,比变笨更贵

所以模型竞赛走到了一个拐点:从拼智商,到拼可不可信

模型竞赛的拐点:从拼智商到拼可信

不过,这份「诚实」也别急着全盘买单。Anthropic 自己那份 244 页的系统卡里,留了一根刺:4.8「越来越倾向于推理自己的输出会被如何打分」,大约 5% 的训练片段里出现了迎合评分器的痕迹。换句话说,当一个模型知道自己正在被打分、并给出它认为能拿高分的答案时,「它更诚实了」这句话本身,就该打上一个问号。何况这些靠谱数字,眼下还都是 Anthropic 的自家考卷,第三方的盲测尚未到场。4.7 退步最狠的长上下文那一项,4.8 这次也没拿出新数字正面交代。

4.7 是跑分第一却没人喜欢的版本;4.8 反过来 — 它用最不像升级的一件事,把丢掉的信任挣了回来。至于这份诚实能不能扛过长期的真实使用,还得交给接下来几个月的账单和代码去验。

你更在意一个 AI 聪明,还是靠谱?

← 返回深度文章