叁笙早安 AI
首页 · 深度文章 · Kimi 2.6 放下笔,拿起键盘:国产开源第一次贴着 Opus 打
AI 工具 模型发布国产模型

Kimi 2.6 放下笔,拿起键盘:国产开源第一次贴着 Opus 打

叁笙 2026-04-21 26 分钟阅读 公众号原文 ↗
Kimi 2.6 放下笔,拿起键盘:国产开源第一次贴着 Opus 打
无字之书
🎵 本文主题曲 · 无字之书
0:00
0:00

Kimi 2.6 放下笔,拿起键盘:国产开源第一次贴着 Opus 打

导读: 2026 年 4 月 21 日凌晨,月之暗面悄悄开源了 Kimi K2.6。整个发布页面里,“写作”两个字一次都没出现。那个曾经靠 200 万字长文档出圈的 Kimi,在这一版里主动砍掉了自己最拿手的那条腿——换来的,是在 SWE-Bench Pro 上压过 Claude Opus 4.6 的 5.2 分。

2026 年 4 月 21 日凌晨,北京的天还没亮。

月之暗面在 Hugging Face 上丢出了一个模型:Kimi K2.6。没有发布会,没有预热视频,甚至连一张炫酷海报都没有。只有一条 Twitter,和一张密密麻麻的 benchmark 对比表。

表的左边一列是 Kimi K2.6,右边三列依次是 GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro。

这是国产开源模型,第一次把自己的名字,端端正正地摆在这三家海外顶级闭源模型旁边。

但更反常的是另一件事。

翻遍整个发布页面,“写作""创作""中文”——这些过去三年让 Kimi 出圈的关键词,一个都没出现。

那个最会写的 AI,这次决定不写了。


一个会写的 AI,为什么决定不写了

要回答这个问题,得先回到 Kimi 过去三年的那张”脸”。

2023 年 10 月,Kimi Chat 上线的第一天,月之暗面打的是一张很清晰的牌:长上下文。那时候 GPT-4 的上下文是 32K token,Claude 是 100K,Kimi 直接给到 20 万字,后来一路拉到 200 万字。

在中文互联网的一段时间里,“Kimi 能读 PDF”变成了一种集体记忆。律师用它读合同,学生用它读论文,产品经理用它读需求文档。 Kimi 的卖点在大众心里简化成了三个字:读、长、准。

到了 2025 年,Kimi 的能力标签进一步扩张——视觉驱动编程、智能体集群、高级办公指令处理。2026 年 1 月发布的 K2.5 还在强调”深度集成 Word、Excel、PPT”,让用户”一句话生成完整演示文稿”。那时候 Kimi 在向”会写、会读、会做办公”的综合助手上走。

然后就到了 2026 年 4 月 21 日的这个凌晨。

Moonshot 官方的 K2.6 发布材料里,核心关键词只有四组:

  • Long-Horizon Coding(长程编码)
  • Agent Swarm(智能体集群,300 子 agent × 4000 步)
  • Coding-Driven Design(编程驱动的设计)
  • Tool Use(工具调用)

四组关键词全都围着一件事转:让 AI 独立完成几个小时、几千步的真实工程任务。

而”写作”、“创作”、“长文档”、“办公自动化”——K2.5 时代的半边江山——在 K2.6 的发布材料里一字未提

版本K2.5(2026-01)K2.6(2026-04)
长文档阅读✓ 核心卖点✗ 不提
写作 / 中文创作✓ 隐性标签✗ 不提
办公三件套✓ 重点强调✗ 不提
视觉驱动编程✓ 新增✓ 升级为 Coding-Driven Design
智能体集群✓ 最多 100 agent✓ 扩大到 300 agent × 4000 步
长程编码✓ 核心卖点(12 小时 + 4000 工具调用)

这是一次明显的”减法”。

一家公司,在它的产品发布页上,主动删掉自己过去三年积累的最强认知——这在国内 AI 圈,并不多见。大多数厂商选择的是”加法”:功能加加加,场景堆堆堆,生怕漏掉任何一个用户群。

Kimi 反着来了。

划重点

  • Kimi K2.6 的官方关键词里,只剩编程、Agent、工具调用——和 K2.5 相比,写作/办公/长文档完全消失
  • 这不是 Kimi 的又一次迭代,是一次主动的”人设减法”
  • 一家公司敢砍掉自己最拿手的一边,往往意味着它在更深的地方想清楚了什么

Kimi K2.6 五项核心升级一览


贴着 Opus 打,但打的不是 4.7

Kimi 敢这么减,是因为它手里有牌。

我们先看月之暗面官方公布的 benchmark。这里先做一个必须讲清的声明——

月之暗面选的对标对象,是 Claude Opus 4.6,不是刚刚发布的 4.7。

Anthropic 在 4 月中旬刚刚推出 Opus 4.7,完整 benchmark 还没有公开披露;月之暗面的测试和对比数据,锁定在 4.7 出现之前。所以接下来的分项对比,主要是 K2.6 vs Opus 4.6——这个前提不讲清,后面所有数字都会让懂行的读者皱眉。

好,声明说完,看数据。

K2.6 vs K2.5 vs Claude Opus 4.6 六维横评雷达图

雷达图是全文六维横评的总览:编码与长程执行,K2.6 已经把 K2.5 甩开;推理维度 K2.6 与 Opus 4.6 接近,略微落后最顶尖的 GPT/Gemini;成本效率一档,断崖式领先。

编码:K2.6 在”最难那一档”上压过了 Opus

SWE-Bench Pro 是目前最贴近真实工程的编码基准——它测的不是单文件改 bug,是多文件、多步、涉及完整 repo 的 bug 修复,接近一个初级工程师的典型任务。

SWE-Bench Pro 四模型横向对比

K2.6 领先 Opus 4.6 整整 5.2 分,领先 GPT-5.4 0.9 分。

这不是误差带内的持平,是真实的领先。而且 K2.6 比自己的上一代 K2.5 提升了 7.9 分——一个模型在 3 个月里能把最难的编码基准推高近 8 分,这个加速度本身就说明公司把资源押到了哪。

但另一头,SWE-Bench Verified(单文件 bug 修复)上,四家模型挤在一个 0.6 分的带子里:Opus 4.6 80.8、Gemini 80.6、K2.6 80.2——基本上是平手。

一句话解读:越复杂的工程场景,K2.6 的优势越大;越简单的编码任务,大家打平。 这个差异,和月之暗面”长程编码”的叙事完全对得上。

Agent:K2.6 的主场

Agent 维度是 K2.6 表现最锋利的一面。

Agent 维度四项关键基准

HLE、DeepSearch、Toolathlon 这三项,K2.6 全部小胜。

最锋利的一刀落在 BrowseComp Swarm 上。

K2.6 86.3,GPT-5.4 78.4,差 7.9 分。Opus 4.6 和 Gemini 3.1 Pro 这一格直接空缺——不是因为分数低,是因为它们没有原生的 Swarm 能力。K2.6 可以一次调度最多 300 个子 agent 并行,每个走 4000 步;Claude 和 Gemini 目前没有等价的机制。

这不是分数差异,这是结构性差异

推理:K2.6 还是追赶者

但 K2.6 并不是全线碾压。

基准K2.6Opus 4.6GPT-5.4Gemini 3.1 Pro
AIME 202696.496.799.298.3
GPQA-Diamond90.591.392.894.3

纯推理——数学竞赛、研究生级科学题——K2.6 仍然是追赶位。AIME 比 GPT-5.4 少 2.8 分,GPQA 比 Gemini 少 3.8 分。差距不大,但没摸到头部。

这个诚实必须讲。

写作呢?官方没数据,用户有说法

发布材料里没有 WritingBench、中文写作对比、公文写作这类基准。

但掘金和 Reddit 的实测帖里,用户的反馈相当一致——“思维链有 Opus 的风格”、“开源模型里最接近 Sonnet 的水平”、“指令遵循稳,输出结构不崩”。

推理一下:Kimi 的写作能力大概率没退,但 Moonshot 已经不再把它当卖点。写作变成了副产品,不是产品本身。

关于 Opus 4.7 的那段”错位补充”

最后回到开头那个声明——Opus 4.7 的完整 benchmark 还没公开。

Anthropic 官方的说法是:新旗舰、同价($5 / $25)、仅支持 adaptive thinking、新 tokenizer 可能让同请求略贵。 第三方测试还在陆续披露中。

我的预判是:即便 4.7 比 4.6 多涨 2-3 分,K2.6 在 SWE-Bench Pro 和 Swarm 上的领先仍然成立;但推理维度 4.7 很可能会进一步拉开差距。

这是国产开源模型第一次,贴着 Claude 打。不是碾压,不是反超,就是贴着——在对方熟悉的赛道上,用自己的定义,站到同一条起跑线上。

划重点

  • 所有 benchmark 都有测试条件限制:K2.6/K2.5 开 thinking、Opus max effort、GPT-5.4 xhigh、Gemini high thinking——跨厂商的”max”不是同一个东西
  • K2.6 在 SWE-Bench Pro(+5.2 vs Opus 4.6)和 BrowseComp Swarm(+7.9 vs GPT-5.4)上优势明显
  • 纯推理 K2.6 仍是追赶者,AIME 差 GPT-5.4 2.8 分
  • 月之暗面的对比对象是 Opus 4.6,不是 4.7——这个错位必须知道

十二小时的工程代理

光看分数,其实不够。

真正让我重新理解 Kimi K2.6 的,是月之暗面在发布页里放的两个案例。

案例 A:一段 Zig 代码,12 小时

任务:优化 Qwen3.5-0.8B 在 Mac M3 Max 上用 Zig 写的推理代码。

K2.6 接到这个任务之后,开始独立工作。

连续运行 12 小时以上,发起超过 4000 次工具调用,最后跑出来的推理速度,超过了 LM Studio。

4000 次工具调用意味着什么?意味着平均每 10 秒 K2.6 就要做一次”下一步怎么办”的判断——该读哪段代码、该跑什么 profile、该改哪个函数、该用什么编译选项。每一次都不能偏航,每一次错误都要能自己回滚。

这个过程里,没有人坐在旁边给它提示。

案例 B:一个 8 年老代码,改线程拓扑

第二个案例更有意思。

K2.6 被交给了一份叫 exchange-core 的代码。这是一个 8 年历史的开源金融撮合引擎,用于高频交易场景。Moonshot 让 K2.6 独立去优化它。

13 小时后,K2.6 交出的是这样一份成绩单:

  • 完成 12 轮不同方向的优化 pass
  • 发起超过 1000 次工具调用
  • 修改了 4000+ 行代码
  • 中位吞吐量从 0.43 MT/s 提到 1.24 MT/s,+185%
  • 峰值吞吐量从 1.23 MT/s 提到 2.86 MT/s,+133%

最关键的动作在中间某一轮——K2.6 读了 CPU flame graph 和 allocation flame graph,判断出线程拓扑配置有问题,自己把原来的 4ME+2RE(4 个匹配引擎 + 2 个风险引擎)线程结构,改成了 2ME+1RE

这不是在”写代码”。这是在做架构决策

为什么这两个案例重要

在过去的语言模型叙事里,“写代码”和”写文章”是对称的——都是在生成 token。

但 K2.6 的这两个案例里,“写”这个动作可能只占 5% 不到。剩下 95% 是什么?

读代码、跑基准、分析 flame graph、判断瓶颈、决定下一步、发起工具调用、检查结果、回滚错误、再试一次

Kimi 不再是一个语言模型,它选择成为一个工程代理。

这个判断说出来简单,落下来是月之暗面过去一年多的整个战略重心。


那条更难走的路

K2.6 这次转身,不是一次工程师情绪发作,是一家公司在一年之前就开始想清楚的事。

把时间拨回到 2025 年春节。

那一年的农历新年前后,DeepSeek 突然火遍全网。一家原来搞量化的公司,用一个不到 600 人的团队,把模型效率推到让硅谷抬头看的水平。

月之暗面那个时候在干什么?那一年,它花在营销投放上的钱——接近 9 亿元人民币。街头地铁站的 Kimi 广告,朋友圈里的 Kimi 刷屏,大 V 带货式的 Kimi 推荐——都是这 9 亿换来的。

DeepSeek 这一下,让月之暗面内部经历了一次”深刻乃至痛苦的反思”(这是来自公司内部信的原话)。

反思之后的动作,非常决绝:

  • 2025 年初,停掉全部市场营销和买量投放
  • 解散买量团队
  • 把所有资源,压到基座模型和 Agent 能力上

月之暗面总裁张予彤后来讲过一句话,我觉得是今天理解 K2.6 最好的注脚:

“与资源更多的大公司竞争时,我们会刻意控制业务边界——不做生活娱乐、不做多模态生成业务。专注大模型层、逻辑层、Agent 层,以及深入研究、PPT、数据分析、网站开发这类偏生产力、偏复杂任务的链路。”

从 2025 年初这一刻起,Kimi 就已经决定了不再”讨好所有人”

生活娱乐不做,多模态生成不做,新闻播报不做,短视频脚本不做——这些在中文 AI 市场里本来都是高 DAU 高话题的方向,Kimi 一个没碰。剩下的,只有那条最窄、最难、最慢的路——偏生产力、偏复杂任务

K2.6 的长程编码和 300-agent Swarm,就是这条路走到 2026 年 4 月的那个答案。

一家公司在 2026 年的春天,主动在产品页上砍掉”写作”——这件事放在 2024 年的月之暗面身上,是不可想象的。那时候的 Kimi,恨不得让每个用户都觉得”这就是你要的 AI 助手”。

一家公司最大的勇气,从来不是把功能加到极致,而是把自己的人设主动砍掉一半。

划重点

  • Kimi 2.6 的”放下笔”不是一次意外,是月之暗面在 2025 年春节 DeepSeek 出圈后做出的战略选择
  • 停掉 9 亿营销,解散买量团队,把资源全部压到基座模型和 Agent 能力
  • 张予彤原话:不做生活娱乐、不做多模态生成,只做偏生产力、偏复杂任务的链路
  • K2.6 是这条路走到 2026 年春天的一个阶段性答卷

这场变局,还没结束

写到这里,我想讲三件 K2.6 没那么美好的事。

第一,推理速度慢。 掘金上有个实测用户讲,K2.6 的首 token 延迟比 GLM 5.1 慢一个量级。MoE 1T 参数 + 激活 32B,调度开销本身就大;再加上 K2.6 刚发布,推理优化还没到位。跑重度 Agent 任务时,等待时间会明显感觉到。

第二,Kimi Code 的会员额度是按周刷新,不是按月。 重度 Agent 开发者一天就能把一周的额度用掉四分之一。这不是坑,是 Kimi 定的机制——但第一次订的人容易踩。

第三,纯推理 K2.6 还是追赶者。 AIME、GPQA 上被 GPT-5.4 和 Gemini 拉开 2-4 分。数学竞赛和研究生级科学题,Kimi 没摸到头部。

我之所以要把这三件事讲出来,是因为K2.6 现在不是”已经超过了 Opus”——它是”在自己选择的那条赛道上,第一次可以抬头和 Opus 对视”。这个区别很重要。

但即便这样,这次发布对国产模型的意义,还是不能小看。

回头看 2026 年 Q1 到 Q2 这几个月,国产开源组发的模型名字排在一起——DeepSeek V4、GLM 5.1、MiniMax M2.7、Kimi K2.6——每一家都在自己选的维度上,贴住了闭源顶尖。

这不是哪一家单独的胜利,是一个赛道集体到了分化临界点。

  • Kimi 走向 Agent + 长程编码
  • DeepSeek 守住基础研究 + 极致性价比
  • MiniMax 押注多模态 + 全球化
  • 智谱 GLM 在商业化 + 工具链上加码
  • 字节豆包吃中文日常场景
  • 阿里通义往企业级长文本走

没人再幻想”通用大模型一把抓”。 每一家都在学会说”我不做什么”。

2026 Q2 国产大模型分化地图

在更远的一层,Anthropic 的 $5/$25 现在是全球定价的天花板。K2.6 用 $0.6/$4 拉出了一条独立曲线——输入价格是 Opus 的 1/8,输出是 1/6。国信证券的报告里讲得更直接:国产模型的综合价格是 Claude/GPT 的 1/5 到 1/30。

同水位十分之一价格

这意味着未来一两年 B 端企业选模型的逻辑,会被重写——不再是”哪家最强”,是”哪家最适合我的这个具体任务 × 预算”。

至于 Kimi 自己,这条路还很长。

长程编码、300 agent Swarm、12 小时连续执行——这些能力放在 demo 里很漂亮,放在真实企业场景里还要被时间和成本反复锤打。K2.6 也许下一次迭代会碰到瓶颈,也许会被 Opus 4.8、GPT-5.5 重新拉开。没人能替它做这个承诺。

但有一件事是确定的:

那个最会写的 AI,决定不写了。它选择了一条更孤独、也更难走的路——不再讨好所有用户,只服务那些愿意把 12 小时任务交给它的工程师。

在 2026 年的春天,国产模型里,有人第一次敢这样做选择。


你最近是继续在用 Kimi,还是已经切到别家了?在评论里聊聊你的选择。

← 返回深度文章