🔴 新基准专测智能体反思与进化
评测范式该升级了
BenchTrace 用 1821 个标注实例、6 类任务,把"会不会反思"和"反思得对不对"拆成两道考题。过去只看任务得分的榜单,掩盖了 Agent 真实的纠错能力。对要落地长程 Agent 的团队,这是一把更接近生产环境的尺子。
同日发 **Opus 4.8**,以 **9650 亿美元**估值募得 **650 亿**。年化营收 **47 亿**反超 OpenAI 的 25 亿。**这意味着** AI 王座首次易主。
5 月 28 日深夜,Anthropic 先发 Opus 4.8;次日宣布以 9650 亿美元估值募得 650 亿美元 H 轮,Altimeter、红杉领投,三星入股。年化营收 47 亿对比 OpenAI 的 25 亿。这是其 IPO 前的最后一轮私募。
首次反超 OpenAI,一年前还差一个量级。对手靠消费级 ChatGPT 走规模,Anthropic 用 Claude Code 吃企业高客单。47 亿对 25 亿的 ARR 印证付费意愿倒向"可控"模型。若年内 IPO,估值或冲万亿。
行业冲击:资本首次把"安全优先"摆到"规模优先"之上,倒逼各家补齐可靠性叙事。读者动作:盯紧两条曲线--① Claude 企业渗透速度,② Opus 4.8 的留存。谁先把"诚实度"做成卖点,谁就在下轮招标里领跑。