← 返回全部文章
分析 · 2026年6月3日 · 10 分钟阅读

2026 年 AI 代理评测:把真实信号从营销里分出来

2026 年 2 月,OpenAI 发了一篇标题很不寻常的文章:《为什么 SWE-bench Verified 已经无法衡量前沿编程能力》。不寻常,是因为 SWE-bench Verified 正是 OpenAI 自己的评测基准(benchmark):这家公司在 2024 年和原作者一起做了它,本来就是为了修补原版 SWE-bench 的缺陷。十八个月后,OpenAI 公开把它退役了,并解释说:六个月里,分数只从 74.9% 爬到 80.9%;对 138 个长期失败任务做人工复核后,发现 59.4% 存在实质缺陷(35.5% 的测试过于严格,18.8% 的测试检查了 issue 从未提到的行为);而最关键的一点是,他们测试的每一个前沿模型,都能逐字复现这个评测的标准答案补丁。这些任务已经进了训练数据。

与此同时,Anthropic 最新旗舰发布 Claude Opus 4.8(2026 年 5 月)仍然把 SWE-bench Verified 放在头条位置。

所以到了 2026 年中,你最可能在两者之间选择的这两家实验室,已经不再报告同一个主要编程评测基准。一家因为数据污染放弃了行业标准;另一家继续使用。可你在 X 上看到的每张排行榜截图,还是会把这些不可比的数字硬拼在一起。本文要讲的是:事情为什么会走到这一步,评测衰减到底有哪些机制,以及怎样读任何 benchmark 数字,才不至于被营销牵着走。

评测也是软件,也会带着 bug 发版

原版 SWE-bench(Princeton,2023 年 10 月)最初是个非常好的想法:从 12 个流行 Python 仓库里抽取 2,294 个真实 GitHub issue,让模型修 bug,并通过仓库自己的测试。不是玩具题。它刚发布时,当时最强的模型只能解出 1.96%。这个数字本身就是意义所在:终于有了一个还有上升空间的 benchmark。

但真实世界的任务,也会把真实世界的混乱一起带进来。OpenAI 在 2024 年 8 月构建 SWE-bench Verified时,付费请了 93 名职业开发者,对原版中抽样的 1,699 个任务做标注,每个任务由三名标注者评审。这次审计发现,38.3% 的任务被标为问题描述不充分61.1% 的任务被标为测试可能不公平地拒绝有效解法。过滤之后,样本里 68.3% 的任务被丢弃,剩下 500 个任务组成 Verified 集合;在这套集合上,GPT-4o 的分数立刻从 16% 翻到 33.2%,而模型本身没有任何变化。

这个事实值得停一下:同一个模型、同一套评测脚手架(scaffold/harness),只是测试修好了,分数就翻倍了。 原版 benchmark 测到的东西,有一半是评测自身的 bug,不是能力。这不是丑闻,这是正常生命周期。真正的问题是:这个领域已经对着同一套题训练了两年,大家却还把任何 benchmark 当成固定不变的真理标准。

一个 benchmark 的三种死法

1. 数据污染(contamination)——模型见过答案。 SWE-bench 的任务来自公开 GitHub 历史,修复补丁也是公开的。2025 年 Microsoft 有篇标题精准的论文——The SWE-Bench Illusion——测了这意味着什么:在 SWE-bench 的仓库上,SOTA 模型只看 issue 文本、不访问仓库,也能在 76% 的情况下说出有 bug 的文件;换到 benchmark 之外的可比仓库,这个数字掉到 53%。5-gram 分析显示,SWE-bench Verified 解法的逐字重合度大约是其他 benchmark 的两倍(35% vs 18%)。到 2026 年,OpenAI 的退役文章把那句大家心里知道的话说出来了:前沿模型可以直接吐出标准答案补丁。走到这一步,分数上涨测的是记忆,不是工程能力

2. 饱和(saturation)——天花板变成地板。 HumanEval 是 2021 年开启代码评测潮流的 164 题集合(最初的 Codex 得分 28.8%),也是最好的反面教材。前沿模型把它推到接近满分后,它就不再能区分任何东西了——无论 GPT-5.5 还是 Claude Opus 4.8 的发布公告,甚至都不再提它。一个 benchmark 不必错,照样会变得没用;它只要无法区分你正在选择的那些模型就够了。OpenAI 放弃 SWE-bench Verified 的公开理由里也正有这一点:六个月的前沿进展,只把分数推高了六个点。

3. 脚手架分叉(scaffold divergence)——同一个 benchmark,跑成了不同游戏。 你看到的数字从来不只是模型;它是模型 + 评测工具链 + prompt + retry 预算。只要读脚注,就会看到这一点:

这些都不算作弊——每条脚注都写出来了。但它意味着,把两家厂商自报数字做成精确到一位小数的对比图,本质上是穿着白大褂的噪声。光是 harness 差异(同一个模型的 83.4 vs Terminus-2 数字),就已经大过很多所谓模型之间的提升幅度。

截至 2026 年中,两家实验室到底站在哪

旗舰发布中报告的项目OpenAI — GPT-5.5(2026 年 4 月)Anthropic — Claude Opus 4.8(2026 年 5 月)
SWE-bench Verified已放弃——2026 年 2 月正式退役仍作为头条指标
SWE-bench Pro是——58.6%(公开集合),并带有记忆化警告脚注
Terminal-Bench是——v2.0,82.7%是——v2.1,通过 Terminus-2 公开 harness
自家 evalExpert-SWE(内部,~20 小时任务)CursorBench、Vending-Bench、τ²-bench、Online-Mind2Web

还能重叠的,只剩 Terminal-BenchSWE-bench Pro;就算在这里,上面的 harness 脚注也说明数字不能直接对比。如果你只记住这张表的一句话,就是这句:没有披露 harness 的跨厂商 benchmark 图,就是营销,句号。

还有哪些东西有信号

2026 年值得看的 benchmark,通常都有一些能抵抗三种衰减模式的设计属性:

按节奏更新的新题。 LiveBench(Abacus.AI + NYU,作者中包括 Yann LeCun)大约每月发布一批新题,题目来自近期论文和竞赛,并采用客观 ground truth 评分。论文称它是 “contamination-limited”,这其实也是能做到的诚实上限:训练时还不存在的东西,模型没法提前背下来。

有版本、有审计、足够难。 Terminal-Bench(Stanford × Laude Institute)做的是不光鲜但重要的事:v2.0 发版时包含 89 个精选端到端终端任务——编译、调试、搭服务器——每个任务经过约 3 小时评审者审计,并校准到让前沿模型得分低于 65%。版本化很重要:一旦数据污染或饱和开始侵蚀,修复应该作为 v3 发出去,而不是让旧集合悄悄腐烂。

测循环,而不是测片段的任务形式。 Aider 的 polyglot benchmark 选了 225 道来自 Exercism、横跨六门语言的最难练习,允许两次尝试——模型能看到自己的测试失败,并且必须自我修正。这比单次生成补丁更接近你的 agent 一整天真正做的事。

完全不同的能力轴。 METR 的 time-horizon 工作绕开了“固定集合上拿多少分”的问题,改问:模型能以 50% 可靠性完成多长的人类任务? 他们 2025 年 3 月的结果——六年来,时间跨度大约每 7 个月翻倍——成了这十年被引用最多的能力图之一。2026 年 1 月更新(228 个任务,重建基础设施)发现,2024 年后的模型翻倍更快——大约每 89 天翻倍——目前测到的最强模型达到 320 分钟(~5 小时)的 horizon。相比通过率,time horizon 饱和得慢得多,因为任务阶梯还能继续往上延伸。

区分信号和营销的五个问题

下次发布文章、排行榜,或者某个 reply-guy 截图塞给你一个数字时,先用下面五个问题过一遍:

  1. 谁跑的 harness? 是厂商自报,还是第三方用公开 harness 跑的?harness 名字有没有写出来?
  2. 图里每个模型用的是同一套脚手架吗? 如果某一列用了并行 test-time compute 或自定义 CLI,另一列没有,那这张图就是虚构。一个模型上已经披露的 83.4-vs-Terminus-2 差距,就是你校准这件事重要性的基准。
  3. 任务会不会已经在训练数据里? 任务创建时间和模型 cutoff 之间是什么关系?有没有人发表过类似 SWE-Bench Illusion 的数据污染探针?
  4. 测试本身被审计过吗? SWE-bench Verified 之所以存在,就是因为原版抽样任务里 61% 的测试可能拒绝正确答案。如果没人审计过这个 benchmark,就默认它的一部分上升空间其实是 bug。
  5. 它还在区分前沿模型吗? 如果前五个模型都挤在几个点以内,或者都接近 100%,那这个 benchmark 已经把自己退役了,不管营销怎么说。

能挺过这五个问题的数字,才算信号。发布串里的大多数数字,一个问题都挺不过去。

延伸阅读

来源:OpenAI, “Why SWE-bench Verified no longer measures frontier coding capabilities”(2026 年 2 月 23 日);OpenAI, “Introducing SWE-bench Verified(2024 年 8 月 13 日);Jimenez et al., SWE-bench(ICLR 2024);Liang, Garg & Zilouchian Moghaddam, “The SWE-Bench Illusion(Microsoft,2025);Anthropic, Claude Opus 4.5Claude Opus 4.8 发布公告;OpenAI, GPT-5.5 announcement(2026 年 4 月);LiveBenchAider polyglot benchmarkTerminal-Benchpaper);METRTime Horizon 1.1。GPT-5.5 脚注措辞转述自非英文页面;实质内容已核实。

相关阅读


文章独立产出 · 编辑政策

继续阅读 →