叁笙早安 AI
首页 · 深度文章 · 速递--GPT5.5发布及横向对比
AI 工具 模型发布GPT横评

速递--GPT5.5发布及横向对比

叁笙 2026-04-24 31 分钟阅读 公众号原文 ↗
速递--GPT5.5发布及横向对比
数字罗盘
🎵 本文主题曲 · 数字罗盘
0:00
0:00

速递—GPT5.5发布及横向对比

导读: 2026 年 4 月 23 日,OpenAI 正式发布 GPT-5.5(代号 Spud),一次性拿下 14 项 benchmark SOTA。与此同时,MiniMax M2.7、Claude Opus 4.7、Kimi K2.6、GLM-5.1、Gemini 3.1 Pro 也在最近 12 天里集中交卷。这篇文章我不讲情绪,只把核心参数、跑分、柱状图、雷达图、一线用户反馈、普通人决策建议——全部摊开给你看。

这两周 AI 圈子有点挤。

Anthropic 先起的头,4 月 17 日扔出 Claude Opus 4.7,两份最被盯着看的公开榜单一起登顶。三天后,Moonshot 那边 Kimi K2.6 开源放出,直接把自己架在 Claude Opus 4.7 旁边比划。同一周里,GLM-5.1 把火山方舟的 Coding Plan 填满了,MiniMax M2.7 以 $0.53 每百万 token 的 blended 价把国产阵营的性价比推到了一个之前没有过的位置。四家厂商,四把刀,彼此不客气。

然后 4 月 23 日,OpenAI 收尾。

GPT-5.5 正式发布,代号 Spud,土豆。Greg Brockman 在发布会上用他一贯不太激动的语气说,这是”两年研究成果”,是”我们思考模型开发方式的根本性转变”。总裁亲自下场定调的时候,你知道这事不小。

这篇文章不打算讲情绪。一周之内六个旗舰同时交卷,每家都在说自己赢了——我觉得对普通人来说,最有用的一件事是把对比表摆在你面前,让你自己看清楚每家到底赢在了哪、贵在了哪、适合谁。

所以接下来我会先讲时间轴和阵型,再用一张表把参数和价格摆出来,再用一张表把跑分摆出来,再把这两天一线用户的真实反馈整理一下,最后给你一个”如果你是 XX 人,就选 XX”的清单。

一周六个旗舰的阵型

先把这一周摆一下。这很重要,因为 GPT-5.5 不是一个人发布的——它是在一个所有人都刚交卷的考场里走进来的。

4 月 12 日,MiniMax M2.7。 开源,自进化 Agent 模型,主打低价。SWE-Pro 56.22,Terminal-Bench 2.0 57.0。blended 价做到 $0.53/M,是全场最便宜的旗舰。

4 月 17 日,Claude Opus 4.7。 Artificial Analysis 综合智能指数 57 分,和 GPT-5.4、Gemini 3.1 Pro 并列第一。Arena.ai 的 Code Arena 榜单单独登顶,HTML 和 React 两个子榜也拿第一。Anthropic 自己披露的数据说,在他们内部 93 项编码基准上,Opus 4.7 比 Opus 4.6 的任务解决率提升了 13%。这是一次稳扎稳打的迭代,不惊艳,但把企业客户要的每一个指标都往前推了一档。

4 月 20 日,Kimi K2.6。 开源,MoE 架构,总参数 1T,激活 32B,256K 上下文。月之暗面这次的路线写得很直——不跟闭源拼中文写作,不跟 GPT 拼聊天体验,直接打”开源编码 SOTA”。官方案例里 Kimi K2.6 在一台 Mac 上连续执行 12 小时以上、发起超过 4000 次工具调用、重构一个运营 8 年的金融撮合引擎,最终把中位吞吐量提升了 185%。你可以不信这个案例,但你不能不承认,开源模型第一次敢用这种工作量写官方博客。

同一周,GLM-5.1 把订阅制 Coding Plan 铺到了火山方舟,长程任务可以持续工作 8 小时。作为中文场景里最稳的那一档开源模型,它不出风头,但一直在干活。

再加上此前已经在场的 Gemini 3.1 Pro。 ARC-AGI-1 跑到 98%、1M 上下文、126 tok/s 的速度依然是全场最快。谷歌不发新模型,靠着之前那一版继续守住长文档和多模态的那一块市场。

4 月 23 日,GPT-5.5。 14 项 benchmark 拿 SOTA,Artificial Analysis 综合智能指数第一次把 OpenAI 单独推回到第一名。

这就是 GPT-5.5 登场时的全场阵型。

我这么铺垫,是想让你先有一个感觉——GPT-5.5 的跑分漂亮,不是因为它一枝独秀,而是因为它在一个所有人都已经站好位置的考场里,把卷子交得更干净一点。

这两件事,意义不一样。

核心参数与价格

先看硬参数。这张表里的每一列,都直接关系到你要不要掏钱、掏多少。

模型发布上下文API $/M开源
GPT-5.504-231M5 / 30闭源
GPT-5.5 Pro04-231M30 / 180闭源
GPT-5.403-061.1M2.5 / 15闭源
Claude Opus 4.704-171M15 / 75闭源
Gemini 3.1 Pro在售1M4.5(blended)闭源
Kimi K2.604-20256K≈Opus 19%开源
GLM-5.1在售203K2.15(blended)开源 MIT
MiniMax M2.704-12205K0.53(blended)开源

(数据来源:各家官方文档 + Artificial Analysis 2026-04 价格快照)

三件事值得你注意。

第一件,GPT-5.5 的 API 价格是 GPT-5.4 的两倍。 上一代 $2.50/$15,这一代 $5/$30。OpenAI 自己的解释是——GPT-5.5 在 Codex 里比 GPT-5.4 少用约 40% 的输出 token,所以真实账单涨幅大概在 20% 上下,而不是翻倍。这个算法对不对得看你自己的工作负载,但至少在发布日这一天,定价层面 OpenAI 是明确抬了身价的。

第二件,Claude Opus 4.7 的价格依然很硬。 $15/$75,比 GPT-5.5 高一倍。Anthropic 的策略始终是”企业级定价”,不跟消费市场打价格战。要订 Claude Max 才有性价比。

第三件,国产三家把价格带拉得非常开。 GLM-5.1 $2.15、MiniMax M2.7 $0.53、Kimi K2.6 按套餐订阅。这个价格带意味着,你现在做一个每天几万次调用的中文内容生成流水线,API 月度成本可以压到 $200 以内——这个数字在一年前想都不敢想。

上下文窗口这一栏,国产三家(Kimi 256K / GLM 203K / MiniMax 205K)明显比国外三家(都是 1M)短。对普通人影响不大,但做长文档处理、代码库级别分析的话,这是一道分水岭。

谁在哪里赢了

参数是账本,跑分是实测。先用一张柱状图把这一周最关键的那条基准摆出来——编程长任务(Terminal-Bench 2.0),这是 GPT-5.5 这次最刺眼的赢面。

Terminal-Bench 2.0 对比柱状图

差距一目了然。GPT-5.5 在编程长任务这条线上,比过去一年一直占据主场的 Claude Opus 4.7 多出 13.3 个百分点。

再把国际四强(GPT-5.5 / GPT-5.4 / Opus 4.7 / Gemini 3.1 Pro)在 11 条主流基准上的分数并排摆出来——

基准(越高越好)GPT-5.5GPT-5.4Opus 4.7Gemini 3.1
Terminal-Bench 2.082.775.169.468.5
SWE-Bench Pro58.657.764.354.2
FrontierMath Tier 435.427.122.916.7
GPQA Diamond93.692.894.294.3
ARC-AGI-285.073.375.877.1
ARC-AGI-195.093.793.598.0
OSWorld-Verified78.775.078.0
BrowseComp84.482.779.385.9
MCP Atlas75.379.178.2
HLE 有工具52.252.154.751.4
AA 综合智能指数6056.857.357.2

(粗体 = 该行第一;”—” 表示官方未公布)

数字看着分散,我把四家的核心能力打在雷达图上——五个维度(编程长任务 / Agent 电脑使用 / 前沿数学 / 学术推理 / 网页检索),一眼就能看清每家守在哪一格。

四旗舰能力雷达图

GPT-5.5 的轮廓外扩在右半圈(编程 / Agent / 数学),Opus 4.7 和 Gemini 3.1 Pro 在左半圈(学术 / 检索)更饱满。这不是”谁强谁弱”,是”各占一角”。

国产三家的跑分数据分散在几个主流基准上,我把和 GPT-5.5 直接可比的行单独摆成一张小表——

基准GPT-5.5Kimi K2.6GLM-5.1M2.7
Terminal-Bench 2.082.766.763.557.0
SWE-Bench Pro58.658.658.456.2
GPQA Diamond93.687.686.287.0
HLE 有工具52.251.852.3
MCP Atlas75.371.848.8
AA 综合智能指数6051.449.6

Kimi K2.6 在 SWE-Bench Pro 上和 GPT-5.5 打成平手(都是 58.6);GLM-5.1 的 HLE 有工具 52.3 甚至微微领先 GPT-5.5 的 52.2。这是开源阵营第一次在单项上贴脸顶级闭源。

(数据来源:OpenAI GPT-5.5 System Card、Anthropic Opus 4.7 文档、Artificial Analysis Intelligence Index 2026-04、Unsloth GLM-5.1 文档、MarkTechPost M2.7 开源报告、月之暗面 Kimi K2.6 官方博客)

三张表合起来帮你挑三条线。

第一条,GPT-5.5 的强项非常集中——长任务编程、电脑使用、前沿数学。 Terminal-Bench 2.0 比 Claude Opus 4.7 多出整整 13.3 个百分点,这是这一版最刺眼的赢面。FrontierMath Tier 4 上 GPT-5.5 把 Gemini 3.1 Pro 甩了 18.7 个百分点。ARC-AGI-2 领先 Opus 4.7 9.2 分。这三条合起来讲了一件事:GPT-5.5 把自己更紧地钉在了”开发者 Agent + 高难度推理”这个位置上。

第二条,Claude Opus 4.7 没有被盖过去。 SWE-Bench Pro 上它守着 64.3% 对 58.6%,MCP Atlas 79.1% 对 75.3%,HLE 有工具 54.7% 对 52.2%。简单说,“真实 GitHub 项目修复 + 工具链重度使用 + 综合考试”这三条线,Opus 4.7 还是第一。这也是为什么 Cursor、Windsurf 这些编程工具里,Claude 的用户没有因为 GPT-5.5 发布就集体切过去。

第三条,Gemini 3.1 Pro 是”学术 + 信息检索”的守门员。 GPQA Diamond 94.3 第一,ARC-AGI-1 98 第一,BrowseComp 85.9 第一。它不在 Terminal-Bench 2.0 上追赶,也不在 FrontierMath 上硬拼,但只要你问它”帮我研究一个东西”,它依然是最快、最准的那个。126 tok/s 的吐字速度全场最快,这点没有对手。

第四条,国产三家在单项上贴得很紧。 上面那张国产对照表已经告诉你结论——Kimi K2.6 追平 SWE-Bench Pro、GLM-5.1 在 HLE 上反超、M2.7 以最低价格做到榜上第二梯队。这一周的真正故事不是”GPT-5.5 赢了所有人”,是”每家都守住了自己的那一格”。

开发者与普通人的两种感受

跑分是官方实验室跑的,benchmark 和生活是两回事。我把这两天一线用户的真实反馈整理在这里——全部是公开发言,我逐条标了出处。

Jake Handy(Substack “Model Drop” 作者) 拿到了发布前 alpha 权限,他的原话是:

“GPT-5.5 takes OpenAI back to the clear number one in AI. 他们的综合智能指数第一次单独领先 3 分,打破了和 Anthropic、Google 三方并列的格局。但在很多个具体 benchmark 上,GPT-5.4 Pro 依然跑赢默认的 GPT-5.5——所以这不是一次 across-the-board 的压制,而是一次权重重分配。”

Michael Truell(Cursor CEO) 在发布日的推荐词写得很克制:

“The biggest thing we saw is that it stays on task for significantly longer without stopping early. 对 Codex 和 Cursor 用户来说,这是实打实的升级。但如果你只在 IDE 里做短任务,感知会没那么强。”

CodeRabbit(代码审查 Agent 平台) 在发布日跑了自己的评测基准,他们的结论是——GPT-5.5 在代码审查上的 expected-issue-found rate 从 55% 涨到了 65%,precision 从 11.6% 涨到 13.2%,发出的 comment 数量从 558 涨到 722。响应变快、变短、更偏向”做小修改不做大重写”。

孟健(Hermes 作者,国产模型一线使用者) 在腾讯云开发者社区发了他把 Kimi K2.6 接入 23 个 Agent 跑了一整天的实测报告:

“K2.6 目前是我用过的国产编程模型里最强的,思考和执行都比 GLM 5.1 更稳定、质量更高。但推理速度慢,单次请求的 first token 延迟比 GLM 5.1 慢一个量级。额度消耗也比预想快。”

Hacker News 上的社区反馈 集中在一条——GPT-5.5 和 GPT-5.4 的 tokens-per-second 基本一样,但同样的智能指数用的 token 更少。Reddit 一个高赞回复说得很直白:“GPT 5.4 in Codex is good enough now. Try it.”——意思是,GPT-5.4 在 Codex 里已经足够好用,GPT-5.5 的升级是锦上添花,不是必须。

把这几条合起来你会发现一件事——GPT-5.5 的升级更多是”开发者向”的

长任务不早停、Codex 里省 token、数学和抽象推理的跳变、电脑使用追平 Anthropic——这些都是开发者和 Agent 使用者会在第一天感知到的。但如果你是一个普通的 ChatGPT Plus 用户,日常用法是问答、翻译、写稿、查资料——GPT-5.5 在你手里的体感差距,没有跑分那么大。

这不是 GPT-5.5 不行,是它这一版的用力方向没在你那一侧。

普通人到底该怎么选

讲了这么多参数和跑分,回到你最关心的问题——你今天晚上、明天、这一周,要不要动作?

我按”你是什么人”把它拆成三种——

第一种,你只是用 ChatGPT 聊天、写文案、查资料、做翻译。

不用升级 Pro。GPT-5.5 Thinking 已经在 Plus 档($20/月)里可用,日常对话你用不出 Pro 档的差异。Pro 档每月 $200,差的那 $180 你可以用来同时订 Claude Max 或 Gemini Advanced——任何一家的第二档订阅都比 ChatGPT Pro 性价比高。

如果你本来就没订,可以先不动。GPT-5.5 的 API 还没开放,等这一两周社区的第一批深度测评出来,再决定要不要掏钱也不迟。

第二种,你用 AI 写代码,或者在跑 Agent。

Codex 默认切 GPT-5.5 是成立的,长任务体感比 5.4 明显好一档。Cursor、Windsurf 等第三方工具会在 API 开放后第一时间接上。

但 Claude Opus 4.7 不要轻易卸载——SWE-Bench Pro 和 MCP Atlas 这两条线它还守着,在”修真实 GitHub issue + 多步工具链”这种场景下,Opus 4.7 的一次性通过率依然更稳。

更务实的做法是——两家都留,按任务类型切换。长任务 / 数学 / 电脑使用 → GPT-5.5;真实项目修复 / 重度工具链 / 长文写作 → Claude Opus 4.7;快速查资料 / 长文档阅读 → Gemini 3.1 Pro。

第三种,你是做中文内容的——营销、写作、知识付费、效率流水线。

国产三家的性价比已经到了”没理由不用”的程度。

GLM-5.1 的中文质感、Kimi K2.6 的代码能力、MiniMax M2.7 的低价 API,这三家拼起来能覆盖 90% 的日常中文场景,而且总成本只有订一家 ChatGPT Pro 的几分之一。

很多人不用是因为”国产 = 差”的印象还没扭过来。但 2026 年 4 月这一周发生的事情,已经不是”国产追赶国外”了——开源阵营的前十个模型里,中国占了六席。Kimi K2.6 在 SWE-Bench Pro 上直接和 GPT-5.5 打平,GLM-5.1 在中文任务里比任何国外模型都顺。这个格局过去一年只会继续加深。


讲到这里我想收个尾。

OpenAI 发布 GPT-5.5 的那天,首席科学家 Jakub Pachocki 在发布会上说了一句话——“过去两年的模型进展令人惊讶地缓慢”。

我第一眼看到这句话是笑了一下。过去两年 AI 进展还叫缓慢,那以前叫什么。但想一想他说的也不是没道理。从 GPT-4 到 GPT-5.4,模型确实一直在”变聪明”,但那种聪明是”知道得更多、算得更快、考得更高”。跑分的表格一年比一年好看,但每一版升级对普通人的体感差距,却一年比一年小。

这一周六个旗舰同时交卷,反而让我看清楚一件事——

AI 旗舰的竞争,已经从”谁更聪明”,变成了”谁更适合什么人”。

开发者去用 GPT-5.5,写代码去用 Claude Opus 4.7,查资料去用 Gemini 3.1 Pro,做中文内容去用 GLM-5.1 或 Kimi K2.6,跑大批量生成去用 MiniMax M2.7。

一个模型打天下的时代,大概就在这一周里结束了。

你呢——这一周你是打算动,还是打算先等等?


📎 信息来源
  • OpenAI 官方博客 Introducing GPT-5.5(2026-04-23)
  • Anthropic 官方 Claude Opus 4.7 发布文档(2026-04-17)
  • 主流科技媒体:TechCrunch、The Verge、CNBC、New York Times、VentureBeat、The Decoder、CNET(2026-04-23)
  • 深度拆解:Jake Handy《Model Drop: GPT 5.5》(handyai.substack.com)、CodeRabbit GPT-5.5 Benchmark Report、Hacker News 社区反馈
  • 对比数据:Artificial Analysis Intelligence Index(2026-04)、Unsloth GLM-5.1 文档、MarkTechPost MiniMax M2.7 开源报告、月之暗面 Kimi K2.6 官方博客
  • 中文一线反馈:孟健 Hermes 接入 Kimi K2.6 实测(腾讯云开发者社区)、新智元、36氪
← 返回深度文章