首页 · 深度文章 · 奥特曼直播发布 ChatGPT Images 2.0，但这不是这个月最重要的事

观察模型发布行业趋势

奥特曼直播发布 ChatGPT Images 2.0，但这不是这个月最重要的事

叁笙 2026-04-22 23 分钟阅读公众号原文 ↗

🎵 本文主题曲 · 未见之声

0:00

奥特曼直播发布 ChatGPT Images 2.0，但这不是这个月最重要的事

导读图

一粒米上的”封神”，和它背后的影子

昨晚（2026-04-21），OpenAI 直播发布 ChatGPT Images 2.0。

奥特曼坐在镜头前，身旁是图像团队负责人 Gabriel Goh。屏幕上，一碗白米饭，其中独独一粒米上刻着四个字母——GPT image 2。

网友瞬间炸了。“封神”、“从 GPT-3 一下跃升到 GPT-5”。LM Arena 最新文生图榜单，Images 2.0 领先谷歌 Nano Banana Pro 242 分，七个文生图类别全部第一。

这条新闻今天早上挂满了科技圈。

但我想先跟你说一句——

这不是 OpenAI 这两周最重要的事。

ChatGPT Images 2.0 发布直播

先看一张时间线

过去三周（4 月 3 日 → 4 月 22 日），OpenAI 一家公司做了 6 件事：

3 月 5 日 · GPT-5.4 / GPT-5.4 Thinking 发布
3 月 17 日 · GPT-5.4 mini / nano 发布
3 月 22 日 · OpenAI 官方发布 Designing Delightful Frontends with GPT-5.4 开发者指南
4 月 19 日前后 · GPT-5.4 Pro 静默提速（网友实测速度翻 4 倍）
4 月 21 日 · ChatGPT Images 2.0 发布
未定期 · 代号 Spud（土豆）的 GPT-5.5 已完成预训练，奥特曼亲口确认”距离发布只有几周时间”

同一个窗口里，国内这头也没闲着：

4 月 8 日 · 智谱 GLM-5.1 发布，港股当日一度涨近 19%
4 月 20 日晚 · Kimi K2.6 发布并开源
阿里、字节、百度、华为的更新没停过

两周，十件事。

两周 AI 行业密集发布时间线

你看到的热搜只有一件——那个会在米粒上刻字的图像模型。

但真正的地震，发生在热搜没报的地方。

四个数字，没有一个是”更聪明”

我把这两周所有发布的关键指标摆在一起，发现一件怪事。

没有一个是关于”我比你聪明多少分”的。

全是别的东西。

先看这四个数字

8 小时 —— GLM-5.1 能在一次任务中独立工作 8 小时，全自动从零构建一个 Linux 桌面系统。
13 小时 —— Kimi K2.6 可以不间断编码 13 小时，写或改 4000 多行代码，一次性重构一个 8 年历史的金融撮合引擎。
70% —— GPT-5.4 在计算机使用（CUA）任务中，相比前代 token 消耗降低约 70%，速度提升约 3 倍。
242 分 —— Images 2.0 在 LM Arena 文生图榜单上，领先第二名谷歌 Nano Banana Pro 的 ELO 分差。

你注意到了什么？

Kimi K2.6 与 GPT-5.4、Opus 4.6、Gemini 3.1 Pro 基准对比

没有一个是 GDPval、GPQA、MMLU 这些”智力跑分”。

全是”能干多久、干多省、干多稳”。

智力基准已经咬成一团

拿几个最常被引用的数字对一下——

OpenAI 官方给 GPT-5.4 的 GDPval 分数是 83%（从 GPT-5.2 的 70.9% 提上来的）。

Google Gemini 3.1 Pro 在 ARC-AGI-2 上是 77.1%，比 GPT-5.4 的 60% 高了十几分。

Anthropic Claude Opus 4.6 在 SWE-bench 上是 80.8%，比 GPT-5.4 的 74% 又高出几个百分点。

头部模型在智力基准上已经咬成一团。

这是什么概念？

翻译成人话：对 99% 的日常场景，“最聪明的”和”第二聪明的”，你已经感觉不出差别了。

就像手机跑分。2014 年你还能吹 iPhone 6 的 A8 芯片”吊打”三星 S5，但到了 2024 年——iPhone 15 跑分比 Galaxy S24 高 10%，对你看小红书、点外卖，有一毛钱影响吗？

没影响。

这时候大家开始比什么？

续航。拍照。生态。

AI 行业，也刚刚进入这个阶段。

划重点

头部大模型的智力基准分已经饱和，差别对普通用户不可感。

新战场三条：长程任务时长、token 效率、价格对齐能力。

就像 iPhone 和 S24 跑分差 10%——“谁更聪明”已经不值得再吵了。

刻度尺换了：为什么偏偏是这两周

这是这篇文章的”核”。

AI 行业的衡量刻度，正在从”智力测验”换成”耐力测验”。

你如果只看到一个、两个产品发布，很难看出这件事。但把两周里的十件事放在一起看，换档的声音就很响了。

新刻度长什么样

过去两年，公司炫耀的是 IQ 题跑分。

现在，公司晒的是任务时长、工具调用次数、Agent 协作步数。

看这几个关键词——

METR 榜单。 衡量”模型能独立工作多久”。GLM-5.1 是除 Claude Opus 4.6 外，全球第二个达到”8 小时级”的模型。以前没有这个榜。

工具调用次数。 K2.6 在 13 小时的代码任务里，调用工具 1000+ 次，迭代 12 套优化策略，把一个金融撮合引擎的中位吞吐从 0.43 MT/s 飙到 1.24 MT/s。以前没人这么报。

Agent 集群规模。 K2.6 支持 300 个子 Agent 并行、4000 步协作、5 天持续自治。两年前大家讨论”一个 AI 能不能写完一个函数”。

价格对齐。 这是最关键的一条。

GLM-5.1 4 月 8 日发布当天，智谱顺手把价格提了 10%。调价后，GLM-5.1 在 coding 场景的 token 价格，已经追平 Claude Sonnet 4.6。

GLM-5.1 代码能力评测：SWE-bench Pro 超越 GPT-5.4 和 Opus 4.6

这不只是一个公司的定价策略。

这是国产大模型第一次不靠便宜竞争。

过去一年，几乎每家国产模型都在”降费 90%“抢份额。有些 API 便宜到什么程度？一个月跑 10 亿 token 才花几百块。

现在，智谱第一个说——“我不便宜了，因为我值这个价。”

SWE-bench Pro 测试，GLM-5.1 拿到 58.4 分，超过了 GPT-5.4 的 57.7 分，超过了 Claude Opus 4.6 的 57.3 分，全球第一。

国产开源模型第一次在一个真实软件工程基准上超过海外头部闭源模型。

新刻度的本质

你可以这样理解——

过去你问 AI “答案是什么”。

现在你让 AI “你能不能替我完整做完”。

这不是一个功能升级。

这是工作方式的根本切换。

一个能干 8 小时的员工，和一个能答题的百科全书，这是两种东西。

为什么偏偏是这两周

你可能以为这是巧合。

不是。

每一家头部公司，都被自己的时间窗口和外部压力，推到了同一个动作上——放弃比 IQ，改比耐力。

OpenAI 这边。 DALL·E 2 和 DALL·E 3 的官方停用日期是 5 月 12 日。这个日期卡死了——他们必须在这之前拿出 Images 2.0 接班，不然开发者转头就跑到 Midjourney 和 Flux。3 月 24 日 Sora 1 关闭又释放了一批 GPU 算力，正好喂给 Images 2.0。

智谱这边。 它押注港股市值。4 月 8 日发布 GLM-5.1 当天，股价盘中一度涨 19%。这家公司必须讲一个”价值对齐”的新故事，才能支撑下一轮估值。

月之暗面这边。 处境最尴尬。2 月 K2.5 在 OpenRouter 冲到全球第二，3 月开始被小米 MiMo-V2-Pro 抢走大量开发者流量。K2.6 是一场必须打的翻身仗，定价策略也很耐人寻味——比小米只贵一点点。贴身肉搏，不是降维打击。

谷歌这边。 Gemini 3.1 Flash Image（Nano Banana 2）前脚刚在 Arena 登顶，Images 2.0 就把它拽下来。下一动作不会太久。

每一家都在踩自己的油门。

但所有油门，踩的都是同一个方向。

回头看 Images 2.0

如果你只看产品本身，Images 2.0 确实惊艳——米粒刻字、一次生成 8 张风格连贯图、思考模式能联网搜索、中日韩文字渲染质变。

但把它放到”新刻度”框架里呢？

它不是一个”更会画画的模型”。

它是一套能一次性交付整套视觉素材的工作流。

OpenAI 图像负责人 Gabriel Goh 在直播里有一句话——

“Images 2.0 不再只是一个’你说我画’的渲染器，而是一个视觉思考伙伴。”

翻译过来——

它也在从”答题”切换到”干活”。

只不过 OpenAI 给这件事加了一层好莱坞式的包装：米粒、360° 全景图、奥特曼直播出镜——让它看起来像一场”产品发布会”，而不是”刻度换挡”。

划重点

新刻度四条：长程任务时长、工具调用深度、Agent 集群规模、敢于价格对齐。

本质是工作方式的切换：AI 从”答题”变成”交付”。

两周密度不是巧合——每家公司都被各自的外部压力推到了同一方向。

谁是赢家，谁还在挣扎

明面上的三个赢家

OpenAI 赢在栈深度。

Codex × Images 2.0 × GPT-5.4 × API 一体化。

你如果是一个做 Web 应用的开发者，可以用 GPT-5.4 写后端、用 Codex 迭代前端、用 Images 2.0 生成全套 UI 素材——全部在 ChatGPT 一个界面里完成。

这是 Anthropic 给不了的。它没有生图，没有图生代码，没有统一工作流。

智谱赢在”价值对齐”的首张票。

GLM-5.1 SWE-bench Pro 58.4 分——国产开源模型第一次在硬核工程基准上超过 Opus 4.6。更关键的是，它第一次敢把价格定到跟海外头部差不多。

这张票值多少钱？

看港股。

月之暗面赢在 Agent 集群的入场券。

Kimi K2.6 发布

K2.6 的 13 小时连续编码 + 300 Agent 并行，是它从通用大模型转向”Agent 原生”的信号。过去一年，月之暗面被批”通用能力有余、Agent 能力不足”——OpenRouter 上调用量大起大落，做不出长期统治力。

K2.6 的卖点很明确——我就是 Agent 的 OS。

能不能翻身，看未来三个月的调用量。

更大的赢家：你

这是这篇文章最想跟你说的一句——

价格战结束了，但能力不降反升。

你今天拿到的工具，比半年前强出一个量级。

半年前，你让 GPT 写一个 400 行的 Python 项目，它会在第 200 行开始”忘记前文”。现在 GLM-5.1 能从零搭 Linux 桌面、1200 步全自动，你连看都不需要看。

半年前，Nano Banana 2 生成一张图 4-6 秒，你觉得”已经很快”。现在 Images 2.0 思考模式一口气给你 8 张风格连贯的图——你以前要 20 分钟的工作，现在 2 分钟。

用 2024 年的方式用 AI，像用 MP3 听 CD 音质——不是不能听，是浪费。

仍在挣扎的三类人

中等体量的模型公司。

智商差异化不出来。耐力上又拿不出”8 小时级”硬指标。预算和 GPU 都够不着头部。

纯应用层公司。

你的护城河是什么？工作流？底下的模型每两周变一次，你的工作流设计还能活多久？

三类被替代岗位。

UI 设计：GPT-5.4 截图克隆前端，一致性 95%。
外包开发：K2.6 自主重构 4000 行代码，13 小时一次交付。
初级内容运营：Images 2.0 一句话出 Twitter / Instagram Stories / Feed / LinkedIn 四种尺寸。

划重点

OpenAI 赢在工作流栈深度，智谱赢在”敢贵”，月之暗面拿到 Agent 集群首张票。

最大的赢家是使用者——价格战结束，但能力继续涨，工具能力已经不是半年前那个刻度。

UI 设计、外包开发、初级运营这三类岗位，正在加速被替代。

你的八小时，和它的八小时

这里有一个你可能没想过的问题——

你每天上班八小时。

GLM-5.1 每个任务工作八小时。

差别，在哪里？

把两种八小时放一起

你的八小时里，可能有两小时在开会，一小时在回消息，一小时在不同应用和文档之间切换，一小时喝咖啡刷手机——真正专注在一件事上的时间，也许就三四个小时。

GLM-5.1 的八小时里，它执行 1200 步操作，调用工具上千次，中间没有注意力切换、没有疲劳、没有情绪波动。

然后它交付一个完整的 Linux 桌面。

两周前，你可能还在想——“AI 要多久才能替代我”。

两周后，你也许要开始想另一个问题——

当 AI 的工作时长开始用”小时”和”天”计的时候，你的八小时，和它的八小时，差别在哪？

三条落地建议

给同样在琢磨这件事的你，我写下三条。

第一，把 AI 当员工用，不要当工具用。

给一个完整任务，留足时间，不要每 5 分钟看一次。

以前你问”帮我写一段代码”，现在你要说——“帮我从零搭一个 XX 系统，8 小时内你自己决定怎么做，完成后把日志给我看。”

第二，选模型时先问”能连续干几小时”。

IQ 跑分已经饱和，你选哪家的差别不大。但长程任务能力差异依然巨大——GLM-5.1 和 K2.6 能 8-13 小时稳定输出，多数开源模型第 3 小时就开始漂移。

第三，接受一件事——国产不便宜了，是好消息。

它说明这批国产模型，敢赌自己的性能值这个钱了。

最后一句话

米粒上那行 “GPT image 2”，很酷。

但如果你只看见米粒，没看见刻度尺的偷偷换挡——你就错过了这个月真正发生的事。

奥特曼直播发布 ChatGPT Images 2.0，是这个月最好的表演。

但不是这个月最重要的事。

今晚你打算把哪件具体的事，交给一个能连续工作 8 小时的 AI？

评论区聊聊。

AI 行业换刻度尺：从智力到耐力

📎 信息来源
OpenAI 官博 · 智谱官博 · 月之暗面官博 · 36 氪 · 新智元 · 新浪科技 · LM Arena · Artificial Analysis
数据截至 2026-04-22