叁笙早安 AI
首页 · 深度文章 · Claude Fable 5 上岗第一天,挖出了前任埋的雷
AI 工具

Claude Fable 5 上岗第一天,挖出了前任埋的雷

叁笙 2026-06-10 21 分钟阅读 公众号原文 ↗
Claude Fable 5 上岗第一天,挖出了前任埋的雷

这两天被一只蝴蝶刷屏了。

6 月 10 日凌晨,Anthropic 发布新模型 Claude Fable 5,官网首页是几十只蝴蝶拼成的一个数字 5。

Anthropic 官网发布页

中文科技媒体的反应快得像约好了:48 小时里出来 17 篇报道,14 篇是同一个模子 — 屠榜,最强,价格翻倍。剩下三篇,一篇拿”旋转弹球”的编程题考它,一篇分析定价,一篇是知乎讨论串。

我一篇也没转。不是清高,是心虚:12 天前 Opus 4.8 发布,我连夜写横评,四张表格铺得整整齐齐。文章是篇好文章,可写完我就有点嘀咕 — 跑分是 Anthropic 自己测的,表格是我从官网抄的,这件事里真正属于我的,只有排版。

这回我换了个做法:不出题,不抄表,直接给它发工牌 — 让它当一天我的员工,上岗干我手上的活。

蝴蝶的来历不复杂。Fable 5 就是 Anthropic 四月亮相、只向少数安全合作机构开放的那个 Mythos 级模型,戴上安全分类器之后的公开版,官方给它的定位是”Opus 之上的新档位”;API 价格每百万 token 10 美元进、50 美元出,恰好是 Opus 4.8 的两倍;6 月 22 日之前,Pro 和 Max 这些订阅档可以直接用,不另收钱。Claude Code 里它的自我介绍就两句:为复杂、长时间运行的工作而来;6 月 22 日前包含在你的订阅额度里。

Claude Code 里的 Fable 5 上线提示

官方成绩单里,真正有信息量的是三行。

官网评分表:Fable 5 vs Opus 4.8 vs GPT-5.5

SWE-Bench Pro,最接近真实软件工程的那项测试,Fable 5 拿 80.3%,Opus 4.8 是 69.2%,GPT-5.5 是 58.6% — 在各家普遍一次只涨一两个点的饱和区,一口气拉开 11 个点。FrontierCode Diamond,题库里最难的 50 道编程题,29.3% 对 13.4%,翻倍还多。两行放在一起读:这一代升级没把劲花在”聊天更聪明”上,全花在”最难的活更扛揍”上。

FrontierCode 成本-准确率曲线

第三行是张曲线:同样花 10 美元跑一道难题,Fable 5 的得分差不多是 Opus 4.8 的两倍。单价贵一倍,单位智力反而更便宜 — 这笔账,后面还要再算一次。

成绩单只能回答它强不强,回答不了它对我有没有用。后一个问题,得让它干一天我自己的活。

正好,我手里有两个憋了很久的活。

上岗第一天:不出题,发工牌

第一案:它把我的写作系统拆了

早上 7 点 56 分,我把第一个活派给它。

派活的话是语音转的文字,原话有点糙:“AI 写出来的文章很多会让人觉得文字跟句子没有问题,但是让人读起来生涩,且没有读下去的这种意愿……就不像人跟人的这种自然对话。”

说的是我那套公众号写作系统 — 一个自建的 skill,名字就叫 sandy-write。skill 可以理解成给 AI 准备的整套岗位手册加工具箱,选题、写稿、排版、发布的全部规矩和脚本都打包在里面,公众号的文章就从这条流水线上下来。过去两个月,我和上一代 Claude 一起,往这本手册里攒了两三百条写作规则:禁用词表,句式黑名单,字数配额,连”此外”这种连接词都限制了使用次数。规则越攒越多,文章越写越顺 — 顺是顺了,味道没了。我说不清问题在哪,只能把感觉原样交给它:“因为现在你的模型升级了,我想用你现在升级后的模型,再重新分析一下。”

它接活的方式跟我想的不一样。没有”好的我来优化”,它先派了九个分身进去查账 — 分身就是它雇的临时工,行话叫 agent,九个临时工同时翻那套系统的每一份文件。十八分钟,烧掉一百六十万 token(AI 的计费单位,粗暴换算,相当于一百万汉字的阅读加写作量),翻完了。

这十八分钟里它干的第一件事,其实是修自己:派工的脚本少写了一个词,跑不起来,它十秒钟内发现、改掉、重跑。新员工上岗第一小时,先把自己工位的螺丝拧紧,再去拆别人的。

八点二十四分,它交上来一份报告:五条病根,十二条改法,七条”明确不做”,六个要我拍板的分歧,合计三十条结论。底下还垫着一层证据 — 它把我上一篇文章逐段读了一遍,标出 28 处”读着卡”的位置,一处一处对着规则库找凶手。

凶手不是哪条规则写错了。凶手是这套系统的来历。

它挑出来的雷,几乎每颗都带着年份。磨稿检查清单里有两条规则,正文 6 月 7 日就废了,清单上忘了删 — 每次磨稿打钩,被废掉的旧规矩就借尸还魂一回。公司明明废了制度,墙上的考核表没摘,新员工照着墙干活。还有一处,5 月 27 日的架构评审白纸黑字建议改掉一行代码,建议归了档,代码一个字没动 — 前任自己提过的正确意见,前任自己没执行。最绝的是声纹机制:系统里建了个”攒够 30 段作者亲笔语料就启动”的功能,而语料计数器从建成那天起就停在 0。阈值 30,计数 0,这个功能建了个壳,从来没通过电。

连规则跟规则都在打架。一条规则把”此外""另外”这类连接词的配额压到近乎为零,理由是 AI 爱用;同一份文件往下翻,它自己引用的吴晓波语料里,每个所谓”AI 连接词”合法出现 150 次以上。自己的证据反对自己的规则,这份文件挂了一个多月,没人吭声。

看到这里我没觉得它厉害,我觉得后背有点凉。这些雷没有一颗是 Fable 5 时代埋的 — 它 6 月 10 日才上班。每一颗,都是上一代 Claude 和我,你一锹我一锹亲手埋的。

它的总诊断只有一句:上一轮改造方向是对的,但停在了文档层,没进执行层。翻译成人话:新规章写进了员工手册,可车间师傅干活看的是工位卡,工位卡没换。

方向对了,手却停在半路

十二条改法里最让我意外的是配比:只有一条是新增规则,其余十一条全是删、降、合并。挑五条有代表性的:

  • 删掉”温度词汇池” — 原规则每次写作硬塞 107 个”有温度的词”让它往文里撒,这次整池端走;
  • 废除问句式收尾 — 我前三篇文章篇篇拿提问结尾,不是巧合,是规则规定的;
  • 给连接词松绑 — “此外""另外”从近乎禁用降回正常词,判罪标准从”用没用”改成”用得密不密”;
  • 唯一的新增:八类”导游腔”句式 — “我们不妨来看”这种招呼读者、替读者回头看的报幕腔 — 交给机器拦截,不再占模型的注意力;
  • 范文配比反转 — 以前是三百条规则配零篇范文,现在每次动笔自动塞进一整篇真人好文,范文的字数不少于规则的字数。

Fable 5 开出的 12 条改造方案

报告里有句话我原样抄在这里 — “AI 腔是预训练分布偏置,规则压不动,范文压得动。“大白话就是:给它定三百条家规,不如塞一整篇真人写的好文章给它看。一个背着三百条家规说话的人,每句都合规,连起来就是不像人。

我看完报告,回了九个字:“好,有没必要分批,是否可一次性修改。”

它当场把自己方案里”分批验证”的部分也推翻了 — 分批的唯一价值是出问题能归因,这事用提交记录的粒度就能替代。然后一口气干到九点零九分:十二条全部落地,每条单独存档,改动 25 个文件,178 项自动测试全数通过。

第一案,从派活到结案,73 分钟。

第二案:它调查了自己为什么没上头条

第二个活是八点零九分派的,跟第一案并行。

我有一份全自动的 AI 晨报,背后同样是个自建 skill,叫 sandy-morning-cards:每天凌晨五点,系统自己抓全球新闻,自己挑,自己写,自己发,跑了一个多月。我的不满也攒了一个多月:“经常发现有一些重大新闻,其实里面是没有的,并不能让人感觉早上一起来就好像把全球所有的当天发生的 AI 的重大消息给搜罗过来了。”

派活的时候我没意识到,当天早上的晨报就是现成的案发现场。6 月 10 日这期,头条给了 Gemini 的一个翻译功能;Fable 5 — 那个凌晨刷屏全网的发布 — 缩在速递区第三条,内容还是从一个第三方博主的转述里抓来的。

也就是说,我派 Fable 5 查的第一桩悬案,受害者是它自己。

我的预判是信源不够,得加。它查了 41 分钟 — 又是十个分身,又是一百五十万 token — 回来第一句话就把我的预判掀了:不是信源不够,系统里挂着 94 个信源;是自家算法层有两个死代码级 bug,外加三个结构性偏置。它回查了一个月的漏报记录,十一条该报没报的大新闻里,四分之三是”抓到了,但没选上”。

货进了仓库,是分拣线把它扔了。

Fable 5 的晨报四痛点复核结论

分拣线怎么扔的,它拆出一条完整的死亡链。第一环:Anthropic 官方博客这个信源,静默死亡 38 天 — 不报错,就是抓不到东西,而监控只防”报错”,不防”沉默”。门卫只管有没有人闹事,不管这家店是不是早就关门了。第二环:官方账号那条”Introducing Claude Fable 5”的发布推文,被系统打了 0.001 分 — 先被当成转发垃圾扣 3 分,格式又在中转时弄花再扣 2 分。第三环最荒诞:新闻池里其实躺着 42 条 Fable 5 相关报道,但系统有条”防霸屏”规则,同一件事报道越多,每条扣得越狠 — 42 条互相残杀,全军覆没,头条让给了只有 3 个信源在谈的翻译功能。事件越大,单条分越低。这条规则把”全网都在说”当成了噪音,而它本来是重要性本身。

真正让我坐直了的,是第四环。

系统里有个”旗舰发布优先”机制,专门保证大模型发布必上头条。这机制哪来的?5 月 29 日,上一代 Claude 为了修复”Opus 4.8 发布漏报”事故,亲手建的。它把旗舰模型的名字写成一条匹配规则:opus、sonnet、haiku、gpt、gemini……

它只写了自己那一代的名字。12 天后 Fable 5 发布,这条规则不认识 fable,也不认识 mythos。为修上一次发布漏报建的机制,精确地漏报了下一次发布

一条大新闻的死亡链

配套的还有一对雷。跨日去重 — 防止同一条新闻连报三天的那个功能 — 写的时候读错了字段名,从上线第一天起就 100% 失效;而测试它的样例数据,错得跟代码一模一样,于是测试天天全绿。答案抄错了,对答案用的标准答案是从同一个地方抄来的。一个多月里,某媒体的招聘帖在我的晨报里露了四次脸,没有任何环节吭一声。

它复核完,还纠正了我两个判断。我说要加信源,它说补源不如先救活死源;我看同行的晨报头条比我准,有点焦虑,它查完说,人家头条是人工挑的,上午十点半才发,“我们的五点全自动是差异化优势,不必自卑”。

一个上班第一天的员工,劝老板不必自卑。

后面还有个余震,得如实记下:修去重规则的时候,新规则差点把 Fable 5 的发布第二次踢出晨报 — 6 月 8 日有过 Mythos 的偷跑爆料,新去重把 6 月 10 日的正式发布当成了旧闻。测试自己暴露的,当场补上。

照着这份报告,晨报系统当天大修一轮,版本号直接跳到 v2.0。改动落到地上是这样几条:去重窗口从 3 天拉长到 7 天;“防霸屏”倒挂改成”同一事件聚成一簇,信源越多越靠前”;财经新闻上了配额,每期最多两条;官方账号进了白名单,不再被当垃圾转发;监控补上”连续零条也要报警”,死了 38 天没人知道的事,不会再有第二回。

两案看到这里,我对这套系统的判断也变了:它不是烂,它是每一代修补都只看得见自己那个时代的 bug。

账单来得比惊喜快

两个案子并行跑到上午,我截了张额度图,配的话原样贴在这里:

“这个消耗很快,基本上你看我做了一个 write skill 和晨报 skill 的复核,晨报的修正还没完成,5小时的额度就消耗了60%多。这是我之前用20x从来没有出现过的。”

上午 9 点 17 分的额度面板

面板上的数字比我说得还难看一点:9 点 17 分,5 小时窗口已经烧掉 63%,距离重置还有三个半小时。用 Opus 4.8 的那一个多月,这个条几乎没让我抬过头 — 20x 档的额度,以前的体感是用不完的。

额度这件事,官方没藏着。claude.ai 里选中 Fable 5,界面直接弹一行小字:用量约为 Opus 的 2 倍。API 价格也是明牌,10 美元对 5 美元,50 对 25,刀刀两倍。我跑到一半还专门另开窗口问了句”Fable 跟 Opus 4.8 的额度差几倍”,它列了张表确认是两倍,又补了句安慰:实际消耗未必正好翻倍,它干同样的活,用的步数更少。

它自己解释额度差异

把这两件事叠一块,我的体感是:Fable 5 烧得比 Opus 4.8 快不少 — 这里头也有 Claude Code 新出的 workflow 的份,多个 agent 同时开工,本来就比单线干活烧得快。

安慰归安慰,九点十六分,我还是把模型切回了 Opus 4.8。

这个动作得交代清楚,因为它是这一天里最像职场的一幕:Fable 5 的第一班岗,从 7 点 57 分到 9 点 09 分,73 分钟,交完报告、落完改造,然后被老板换下场 — 不是干得不好,是太贵了。写作系统那一案,它从头干到尾;晨报案,它干完了全部侦查,后半场改代码的体力活,是便宜一半的前任 Opus 4.8 照着它的报告接力干完的。

换下场之后我才咂摸出味道:这可能才是两倍价钱的正确花法。贵的当侦探,便宜的当施工队。在一百多份文件里看出”测试和代码错得一模一样”,从 42 条报道的集体阵亡里倒推出一条死亡链,这是智力活,值两倍;照着十二条方案改文件是体力活,上一代干得动。

两倍价钱,正确的花法

该交代的还有一句:到我写这篇稿子时,晨报那一案的修复还压在工作区没上线,服务器上四个死掉的信源也还躺着。第一天,它没把所有事做完,它只是把所有事查清了。

贵一倍的员工,该怎么用

两案合卷,我得到的不是”Fable 5 比 Opus 4.8 强百分之几”,而是一份自家系统的体检单:写作案 30 条结论,晨报案 36 个细分问题。这些问题昨天就在,上个月就在 — 上一代模型看不见,或者看见了将就着跑。新模型第一天没让我的产线提速,先让整条产线报了警。

至于”比 Opus 4.8 到底强在哪”,干完这一天,我给得出三条体感,都不在跑分表上:

  • 看得更深。“测试和代码错得一模一样”这种雷,上一代陪着我改了一个多月没看见,它 41 分钟挖了出来;
  • 更敢说不。三十条结论里有七条是”明确不做”,九条激进方案是它自己毙掉的;我的两个预判错了,它当面纠正,不顺着老板说话;
  • 干得更完整。一句拍板,它自己拆解、实施、测试、存档,73 分钟交全套。同一套系统,上一代改了一轮又一轮,方向是对的,手停在半路。

它比上一代强的,主要不是文笔,是判断。判断这种东西跑分表测不出来,得给它真活。

回头看,警报才是这一天最值钱的产出。你用 AI 搭过的每一个流程 — 一段提示词,一条自动化,一套筛选规则 — 都是某一代模型智力水平的化石。模型换代,化石不会自己升级,只会继续埋在原地,等一个更聪明的家伙来挖。所以新模型发布那天,与其追着问”它能帮我干什么新活”,不如先让它把存量的旧账翻一遍。这件事眼下还是字面意义上的免费:6 月 22 日之前,Pro、Max 这些订阅档都能直接用它,官方说容量够的话窗口还会延长,之后就得另买用量积分。这两周想试的,拿自己的活试,别拿脑筋急转弯。

最后报一笔利益账。

给我的系统做体检的是 Fable 5,写这篇体检报道初稿的,也是 Fable 5。运动员兼裁判,这是这篇文章天生的毛病,我治不了,只能摊开:两案的每个数字都对得上提交记录和会话原文;30 条结论里,12 条落了地,7 条是它自己反对执行的,6 条还压在我这儿没拍板;晨报案那些更激进的方案里,有 9 条是被它自己派去唱反调的分身审查毙掉的。一个急着讨好老板的员工,不会把”明确不做”写得比”我能做”还认真。

还有个细节,算这场自指游戏的封口。它上午给写作系统立的新规矩里,有一条是废除问句式收尾 — 我过去三篇文章,篇篇拿提问结尾,它认定这是套路。所以这篇文章,从头到尾运行在它定的新规矩之下,包括眼下这个不许提问的结尾。

模型换代,现在是按周排班的:Opus 4.7 到 4.8,隔了 42 天;4.8 到 Fable 5,只隔了 12 天。每一代都比上一代聪明,每一代也都在埋自己看不见的雷。所以这两周的免费窗口,我的建议具体到动作:别光拿它聊天,把你最熟的那摊活交给它看一眼 — 一段天天在用的提示词,一条跑了很久的自动化,让它当一回侦探。它交回来的那份体检单,比任何跑分表都更接近”它对你有没有用”的答案。

至于 Fable 5 自己,今天多半也埋下了几颗雷。现在谁都看不见;看得见的时候,挖雷的就该是下一只蝴蝶了。

← 返回深度文章