截至 2026 年 5 月,单论写代码、把代码跑起来这件事,Claude 和 ChatGPT 的原始能力已经接近到“不该再拿模型本身做选择依据”的程度。真正改变你每天体验的,是套在模型外面的那个编程 agent:Claude Code 对 Codex,再加上套餐定价和你本来就习惯的工作流。这恰恰是那些“某某拿了 88.7%”的清单文最容易搞错的地方:两家厂商已经不再公布同一个 benchmark 了,所以网上流传的单一数字排行榜,多半是把不可比的跑分硬拼在一起的。
我们来做一版真正能核对的。
benchmark 的真实情况,说实话
有一点没人愿意直说:截至 2026 年 5 月底,Anthropic 和 OpenAI 已经不再主推同一个编程 benchmark,所以很难拿出一个干净的“正面对比数字”——除非强行拼接不可比的数据。
- 最后一组直接可比的 SWE-bench Verified 数据,是 Anthropic 的 Claude Opus 4.6 拿 80.84%,OpenAI 的 GPT-5.2 Thinking 约 80% —— 差距落在噪声范围内。
- 之后球门就被挪走了。OpenAI 的 GPT-5.5 发布主打的是 Terminal-Bench 2.0 82.7% 和 SWE-bench Pro 58.6%,不是 SWE-bench Verified。Anthropic 的 Claude Opus 4.8(2026 年 5 月 28 日发布)主打的是 agentic 任务和工具调用结果,同样不是 SWE-bench Verified。
所以,当某篇博客告诉你“Claude 87.6% 对 GPT 88.7%”时,先问三个问题:哪个 benchmark?哪一天?谁跑的?当前旗舰模型的官方页面,并没有把这两个数字放在同一套口径下比较。站得住脚的说法反而很无聊:在写代码这件事上,这两家整年都在以零点几个百分点的差距互相反超。 如果你是按这个月小数点后那一位来选技术栈,那你优化的是个错的变量。
真正值得知道的是:两家实验室现在都在为长链路 agentic 编程(多步任务、工具使用、终端操作)做优化,而不是单次打补丁的准确率。Opus 4.8 带来 1M token 上下文窗口和会“按任务复杂度自动调节思考量”的 adaptive thinking;GPT-5.5 则针对终端和多文件 agent 循环做了重度调优。两个都是前沿水平。在你的工作流里,它们谁都不会成为瓶颈。
真正的分岔口:Claude Code 对 Codex
选择其实在这一层,因为对 2026 年大多数开发者来说,你并不直接跟模型对话 —— 你跟它的 agent 对话。
| Claude Code | Codex(CLI / 云端) | |
|---|---|---|
| 源码 | 闭源 | 开源(Rust) |
| 默认执行 | 本地优先 | 默认云端沙箱 |
| 背后模型 | Claude Opus / Sonnet 4.x | GPT-5.5、5.4、5.4-mini、5.3-Codex |
| 取向 | 深度推理、代码质量 | 速度、并行、隔离 |
| 多 agent | Agent Teams(共享任务清单) | Subagents(manager-worker 并行) |
老实说就是:Codex 偏向快速、并行、沙箱化执行 —— 一口气拉起多个 worker,让它们在隔离环境里跑,适合快速原型和扇出式实现。Claude Code 偏向本地、深度推理、慢工出细活 —— 重构、安全审查、任何你宁愿它“想清楚”而不是“跑得快”的活。现在不少团队两个都用:Codex 出初稿,Claude Code 做评审和加固。
如果两个你都没用过,决胜点通常是环境:Codex 的开源 Rust 内核 + 云沙箱默认值,适合想要可审计工具链和隔离的人;Claude Code 的本地优先模型,适合想让 agent 直接在你真实工作区里干活的人。
定价:差距真正看得见的地方
能力上接近,但定价上差异很明显,因为两家切分套餐的方式不一样。下面所有数字都来自各自官方定价页,时间点是 2026 年 5 月底。
Claude(Anthropic):
- Free —— $0,含 Claude Code
- Pro —— $20/月(年付 $17/月),含 Claude Code
- Max —— $100/月起(5×),到 $200/月(20× 用量)
- Team —— $25/席/月(年付 $20)
ChatGPT(OpenAI):
- Free —— $0,含 Codex
- Go —— $8/月
- Plus —— $20/月
- Pro —— $100/月(5×)和 $200/月(20×)
- Business —— 约 $25/席/月;Enterprise 定制
这里有两点要注意。第一,OpenAI 的入门门槛确实更低 —— $8 的 Go 档,加上 Codex 现在连 Free 都能用 —— 而 Anthropic 的付费编程从 $20 起步。第二,Codex 在 2026 年 4 月 2 日改成了按 token 计量,产品内用量对齐 API token 费率,不再按固定的每条消息算。这让重度 Codex 用户的成本更浮动、更值得盯;Claude Code 的订阅用量则是分进 Max 的 5×/20× 档。轻量个人开发者,ChatGPT 更低的地板价占优;重度 agentic 用户,先把 token 账算清楚,别想当然觉得哪个更便宜。
那么,你该用哪个?
- 写代码是主业、质量优先于速度: 选 Claude。Claude Code 这个 agent、开发者偏好数据、以及 Anthropic 对长链路慢工的专注,指向同一个方向。对你要长期负责的生产代码,它是更稳的默认值。
- 想要最便宜的入口,或你本来就在 ChatGPT 生态里: 选 ChatGPT。$0–$8 的地板价、Codex 的并行沙箱 worker、开源 CLI 都是实打实的优势 —— 尤其适合原型和一次性探索。
- 是能同时养得起两个的团队: 把它们当成流水线跑。Codex 负责快速扇出出稿,Claude Code 负责评审、重构和安全过一遍。这正越来越成为认真对待 agent 的团队的默认做法,也直接绕开了“这周谁强 1%”那个坑。
唯一不该做的,是凭一张 benchmark 截图选边。模型能力已经接近到误差范围内;真正影响结果的,是 agent 的工作流是否合手,以及你喂给它的指令是否清楚。
这就引出两个工具共享的那部分:不管你跑哪个模型,它的表现都不会超过你交给它的上下文。 一份臃肿、自相矛盾的 CLAUDE.md 或 AGENTS.md,会在两个技术栈上悄悄给每次会话加税。如果你的指令文件已经长歪了、又不确定它们到底有没有帮上忙,这正是 CLAUDE.md 审计要解开的结 —— 个人 $299,2–10 人团队 $799。
相关阅读
- 2026 年最好的 AI 编程 agent —— 完整阵容,不只这两个。
- Aider 对 Claude Code —— 更轻的开源选项什么时候更划算。
- Claude Code 2026 定价 —— 套餐账算细一点。
- CLAUDE.md vs AGENTS.md —— 两个 agent 读法不同的那份指令文件。