2026 年 AI 代理评测：把真实信号从营销里分出来

2026 年 2 月，OpenAI 发了一篇标题很不寻常的文章：《为什么 SWE-bench Verified 已经无法衡量前沿编程能力》。不寻常，是因为 SWE-bench Verified 正是 OpenAI 自己的评测基准（benchmark）：这家公司在 2024 年和原作者一起做了它，本来就是为了修补原版 SWE-bench 的缺陷。十八个月后，OpenAI 公开把它退役了，并解释说：六个月里，分数只从 74.9% 爬到 80.9%；对 138 个长期失败任务做人工复核后，发现 59.4% 存在实质缺陷（35.5% 的测试过于严格，18.8% 的测试检查了 issue 从未提到的行为）；而最关键的一点是，他们测试的每一个前沿模型，都能逐字复现这个评测的标准答案补丁。这些任务已经进了训练数据。

与此同时，Anthropic 最新旗舰发布 Claude Opus 4.8（2026 年 5 月）仍然把 SWE-bench Verified 放在头条位置。

所以到了 2026 年中，你最可能在两者之间选择的这两家实验室，已经不再报告同一个主要编程评测基准。一家因为数据污染放弃了行业标准；另一家继续使用。可你在 X 上看到的每张排行榜截图，还是会把这些不可比的数字硬拼在一起。本文要讲的是：事情为什么会走到这一步，评测衰减到底有哪些机制，以及怎样读任何 benchmark 数字，才不至于被营销牵着走。

评测也是软件，也会带着 bug 发版

原版 SWE-bench（Princeton，2023 年 10 月）最初是个非常好的想法：从 12 个流行 Python 仓库里抽取 2,294 个真实 GitHub issue，让模型修 bug，并通过仓库自己的测试。不是玩具题。它刚发布时，当时最强的模型只能解出 1.96%。这个数字本身就是意义所在：终于有了一个还有上升空间的 benchmark。

但真实世界的任务，也会把真实世界的混乱一起带进来。OpenAI 在 2024 年 8 月构建 SWE-bench Verified时，付费请了 93 名职业开发者，对原版中抽样的 1,699 个任务做标注，每个任务由三名标注者评审。这次审计发现，38.3% 的任务被标为问题描述不充分，61.1% 的任务被标为测试可能不公平地拒绝有效解法。过滤之后，样本里 68.3% 的任务被丢弃，剩下 500 个任务组成 Verified 集合；在这套集合上，GPT-4o 的分数立刻从 16% 翻到 33.2%，而模型本身没有任何变化。

这个事实值得停一下：同一个模型、同一套评测脚手架（scaffold/harness），只是测试修好了，分数就翻倍了。 原版 benchmark 测到的东西，有一半是评测自身的 bug，不是能力。这不是丑闻，这是正常生命周期。真正的问题是：这个领域已经对着同一套题训练了两年，大家却还把任何 benchmark 当成固定不变的真理标准。

一个 benchmark 的三种死法

1. 数据污染（contamination）——模型见过答案。 SWE-bench 的任务来自公开 GitHub 历史，修复补丁也是公开的。2025 年 Microsoft 有篇标题精准的论文——The SWE-Bench Illusion——测了这意味着什么：在 SWE-bench 的仓库上，SOTA 模型只看 issue 文本、不访问仓库，也能在 76% 的情况下说出有 bug 的文件；换到 benchmark 之外的可比仓库，这个数字掉到 53%。5-gram 分析显示，SWE-bench Verified 解法的逐字重合度大约是其他 benchmark 的两倍（35% vs 18%）。到 2026 年，OpenAI 的退役文章把那句大家心里知道的话说出来了：前沿模型可以直接吐出标准答案补丁。走到这一步，分数上涨测的是记忆，不是工程能力。

2. 饱和（saturation）——天花板变成地板。 HumanEval 是 2021 年开启代码评测潮流的 164 题集合（最初的 Codex 得分 28.8%），也是最好的反面教材。前沿模型把它推到接近满分后，它就不再能区分任何东西了——无论 GPT-5.5 还是 Claude Opus 4.8 的发布公告，甚至都不再提它。一个 benchmark 不必错，照样会变得没用；它只要无法区分你正在选择的那些模型就够了。OpenAI 放弃 SWE-bench Verified 的公开理由里也正有这一点：六个月的前沿进展，只把分数推高了六个点。

3. 脚手架分叉（scaffold divergence）——同一个 benchmark，跑成了不同游戏。 你看到的数字从来不只是模型；它是模型 + 评测工具链 + prompt + retry 预算。只要读脚注，就会看到这一点：

Anthropic 的 Claude Opus 4.5 SWE-bench 分数带着脚注：它是“使用并行测试时计算得到的，这种方法会聚合模型的多次 ‘try’，并从中选择结果”。
Anthropic 的 Opus 4.8 公告用同一个公开 harness（Terminus-2）报告所有模型的 Terminal-Bench 分数，同时脚注说明：“GPT-5.5 使用 Codex CLI harness 报告的分数是 83.4%”。也就是说，在同一个 benchmark、同一个模型上，OpenAI 自己的 harness 会给出一个有实质差异的数字。
OpenAI 的 GPT-5.5 公告也给自己的头条 SWE-bench Pro 分数加了脚注：实验室已经发现这个 eval 存在记忆化证据；它还说明，自己的 τ²-bench 数字使用 raw prompts 运行，刻意不采纳其他实验室 prompt-tuned 的结果。

这些都不算作弊——每条脚注都写出来了。但它意味着，把两家厂商自报数字做成精确到一位小数的对比图，本质上是穿着白大褂的噪声。光是 harness 差异（同一个模型的 83.4 vs Terminus-2 数字），就已经大过很多所谓模型之间的提升幅度。

截至 2026 年中，两家实验室到底站在哪

旗舰发布中报告的项目	OpenAI — GPT-5.5（2026 年 4 月）	Anthropic — Claude Opus 4.8（2026 年 5 月）
SWE-bench Verified	已放弃——2026 年 2 月正式退役	仍作为头条指标
SWE-bench Pro	是——58.6%（公开集合），并带有记忆化警告脚注	是
Terminal-Bench	是——v2.0，82.7%	是——v2.1，通过 Terminus-2 公开 harness
自家 eval	Expert-SWE（内部，~20 小时任务）	CursorBench、Vending-Bench、τ²-bench、Online-Mind2Web

还能重叠的，只剩 Terminal-Bench 和 SWE-bench Pro；就算在这里，上面的 harness 脚注也说明数字不能直接对比。如果你只记住这张表的一句话，就是这句：没有披露 harness 的跨厂商 benchmark 图，就是营销，句号。

还有哪些东西有信号

2026 年值得看的 benchmark，通常都有一些能抵抗三种衰减模式的设计属性：

按节奏更新的新题。 LiveBench（Abacus.AI + NYU，作者中包括 Yann LeCun）大约每月发布一批新题，题目来自近期论文和竞赛，并采用客观 ground truth 评分。论文称它是 “contamination-limited”，这其实也是能做到的诚实上限：训练时还不存在的东西，模型没法提前背下来。

有版本、有审计、足够难。 Terminal-Bench（Stanford × Laude Institute）做的是不光鲜但重要的事：v2.0 发版时包含 89 个精选端到端终端任务——编译、调试、搭服务器——每个任务经过约 3 小时评审者审计，并校准到让前沿模型得分低于 65%。版本化很重要：一旦数据污染或饱和开始侵蚀，修复应该作为 v3 发出去，而不是让旧集合悄悄腐烂。

测循环，而不是测片段的任务形式。 Aider 的 polyglot benchmark 选了 225 道来自 Exercism、横跨六门语言的最难练习，允许两次尝试——模型能看到自己的测试失败，并且必须自我修正。这比单次生成补丁更接近你的 agent 一整天真正做的事。

完全不同的能力轴。 METR 的 time-horizon 工作绕开了“固定集合上拿多少分”的问题，改问：模型能以 50% 可靠性完成多长的人类任务？ 他们 2025 年 3 月的结果——六年来，时间跨度大约每 7 个月翻倍——成了这十年被引用最多的能力图之一。2026 年 1 月更新（228 个任务，重建基础设施）发现，2024 年后的模型翻倍更快——大约每 89 天翻倍——目前测到的最强模型达到 320 分钟（~5 小时）的 horizon。相比通过率，time horizon 饱和得慢得多，因为任务阶梯还能继续往上延伸。

区分信号和营销的五个问题

下次发布文章、排行榜，或者某个 reply-guy 截图塞给你一个数字时，先用下面五个问题过一遍：

谁跑的 harness？ 是厂商自报，还是第三方用公开 harness 跑的？harness 名字有没有写出来？
图里每个模型用的是同一套脚手架吗？ 如果某一列用了并行 test-time compute 或自定义 CLI，另一列没有，那这张图就是虚构。一个模型上已经披露的 83.4-vs-Terminus-2 差距，就是你校准这件事重要性的基准。
任务会不会已经在训练数据里？ 任务创建时间和模型 cutoff 之间是什么关系？有没有人发表过类似 SWE-Bench Illusion 的数据污染探针？
测试本身被审计过吗？ SWE-bench Verified 之所以存在，就是因为原版抽样任务里 61% 的测试可能拒绝正确答案。如果没人审计过这个 benchmark，就默认它的一部分上升空间其实是 bug。
它还在区分前沿模型吗？ 如果前五个模型都挤在几个点以内，或者都接近 100%，那这个 benchmark 已经把自己退役了，不管营销怎么说。

能挺过这五个问题的数字，才算信号。发布串里的大多数数字，一个问题都挺不过去。

延伸阅读

2026 年 5 月，用 Claude 还是 ChatGPT 写代码——我们第一次在实战中撞上“厂商不再报告同一个 benchmark”的墙，最后改用 agent 使用体验做选择。
AI 编程代理现状——2026 年 5 月——每月记录真正发布了什么。
每一种流行 Claude Code 工作流，最后都是同样五步——为什么在自己的工作流里加验证门，比相信任何人的排行榜都可靠。

来源：OpenAI, “Why SWE-bench Verified no longer measures frontier coding capabilities”（2026 年 2 月 23 日）；OpenAI, “Introducing SWE-bench Verified”（2024 年 8 月 13 日）；Jimenez et al., SWE-bench（ICLR 2024）；Liang, Garg & Zilouchian Moghaddam, “The SWE-Bench Illusion”（Microsoft，2025）；Anthropic, Claude Opus 4.5 和 Claude Opus 4.8 发布公告；OpenAI, GPT-5.5 announcement（2026 年 4 月）；LiveBench；Aider polyglot benchmark；Terminal-Bench（paper）；METR 和 Time Horizon 1.1。GPT-5.5 脚注措辞转述自非英文页面；实质内容已核实。