← 返回全部文章
横评 · 2026年5月30日 · 9 分钟阅读

Claude vs ChatGPT 写代码(2026.5)—— 开发者到底该用哪个?

截至 2026 年 5 月,单论写代码、把代码跑起来这件事,ClaudeChatGPT 的原始能力已经接近到“不该再拿模型本身做选择依据”的程度。真正改变你每天体验的,是套在模型外面的那个编程 agentClaude CodeCodex,再加上套餐定价和你本来就习惯的工作流。这恰恰是那些“某某拿了 88.7%”的清单文最容易搞错的地方:两家厂商已经不再公布同一个 benchmark 了,所以网上流传的单一数字排行榜,多半是把不可比的跑分硬拼在一起的。

我们来做一版真正能核对的。

benchmark 的真实情况,说实话

有一点没人愿意直说:截至 2026 年 5 月底,AnthropicOpenAI 已经不再主推同一个编程 benchmark,所以很难拿出一个干净的“正面对比数字”——除非强行拼接不可比的数据。

  • 最后一组直接可比的 SWE-bench Verified 数据,是 AnthropicClaude Opus 4.680.84%OpenAIGPT-5.2 Thinking80% —— 差距落在噪声范围内。
  • 之后球门就被挪走了。OpenAIGPT-5.5 发布主打的是 Terminal-Bench 2.0 82.7%SWE-bench Pro 58.6%,不是 SWE-bench VerifiedAnthropicClaude Opus 4.8(2026 年 5 月 28 日发布)主打的是 agentic 任务和工具调用结果,同样不是 SWE-bench Verified

所以,当某篇博客告诉你“Claude 87.6% 对 GPT 88.7%”时,先问三个问题:哪个 benchmark?哪一天?谁跑的?当前旗舰模型的官方页面,并没有把这两个数字放在同一套口径下比较。站得住脚的说法反而很无聊:在写代码这件事上,这两家整年都在以零点几个百分点的差距互相反超。 如果你是按这个月小数点后那一位来选技术栈,那你优化的是个错的变量。

真正值得知道的是:两家实验室现在都在为长链路 agentic 编程(多步任务、工具使用、终端操作)做优化,而不是单次打补丁的准确率。Opus 4.8 带来 1M token 上下文窗口和会“按任务复杂度自动调节思考量”的 adaptive thinking;GPT-5.5 则针对终端和多文件 agent 循环做了重度调优。两个都是前沿水平。在你的工作流里,它们谁都不会成为瓶颈。

真正的分岔口:Claude Code 对 Codex

选择其实在这一层,因为对 2026 年大多数开发者来说,你并不直接跟模型对话 —— 你跟它的 agent 对话。

Claude CodeCodex(CLI / 云端)
源码闭源开源(Rust)
默认执行本地优先默认云端沙箱
背后模型Claude Opus / Sonnet 4.xGPT-5.5、5.4、5.4-mini、5.3-Codex
取向深度推理、代码质量速度、并行、隔离
多 agentAgent Teams(共享任务清单)Subagents(manager-worker 并行)

老实说就是:Codex 偏向快速、并行、沙箱化执行 —— 一口气拉起多个 worker,让它们在隔离环境里跑,适合快速原型和扇出式实现。Claude Code 偏向本地、深度推理、慢工出细活 —— 重构、安全审查、任何你宁愿它“想清楚”而不是“跑得快”的活。现在不少团队两个都用:Codex 出初稿,Claude Code 做评审和加固。

如果两个你都没用过,决胜点通常是环境:Codex 的开源 Rust 内核 + 云沙箱默认值,适合想要可审计工具链和隔离的人;Claude Code 的本地优先模型,适合想让 agent 直接在你真实工作区里干活的人。

定价:差距真正看得见的地方

能力上接近,但定价上差异很明显,因为两家切分套餐的方式不一样。下面所有数字都来自各自官方定价页,时间点是 2026 年 5 月底。

ClaudeAnthropic):

  • Free —— $0,含 Claude Code
  • Pro —— $20/月(年付 $17/月),含 Claude Code
  • Max —— $100/月起(5×),到 $200/月(20× 用量)
  • Team —— $25/席/月(年付 $20)

ChatGPTOpenAI):

  • Free —— $0,含 Codex
  • Go —— $8/月
  • Plus —— $20/月
  • Pro —— $100/月(5×)和 $200/月(20×)
  • Business —— 约 $25/席/月;Enterprise 定制

这里有两点要注意。第一,OpenAI 的入门门槛确实更低 —— $8 的 Go 档,加上 Codex 现在连 Free 都能用 —— 而 Anthropic 的付费编程从 $20 起步。第二,Codex 在 2026 年 4 月 2 日改成了按 token 计量,产品内用量对齐 API token 费率,不再按固定的每条消息算。这让重度 Codex 用户的成本更浮动、更值得盯;Claude Code 的订阅用量则是分进 Max 的 5×/20× 档。轻量个人开发者,ChatGPT 更低的地板价占优;重度 agentic 用户,先把 token 账算清楚,别想当然觉得哪个更便宜。

那么,该用哪个?

  • 写代码是主业、质量优先于速度:ClaudeClaude Code 这个 agent、开发者偏好数据、以及 Anthropic 对长链路慢工的专注,指向同一个方向。对你要长期负责的生产代码,它是更稳的默认值。
  • 想要最便宜的入口,或你本来就在 ChatGPT 生态里:ChatGPT。$0–$8 的地板价、Codex 的并行沙箱 worker、开源 CLI 都是实打实的优势 —— 尤其适合原型和一次性探索。
  • 是能同时养得起两个的团队: 把它们当成流水线跑。Codex 负责快速扇出出稿,Claude Code 负责评审、重构和安全过一遍。这正越来越成为认真对待 agent 的团队的默认做法,也直接绕开了“这周谁强 1%”那个坑。

唯一不该做的,是凭一张 benchmark 截图选边。模型能力已经接近到误差范围内;真正影响结果的,是 agent 的工作流是否合手,以及你喂给它的指令是否清楚。

这就引出两个工具共享的那部分:不管你跑哪个模型,它的表现都不会超过你交给它的上下文。 一份臃肿、自相矛盾的 CLAUDE.mdAGENTS.md,会在两个技术栈上悄悄给每次会话加税。如果你的指令文件已经长歪了、又不确定它们到底有没有帮上忙,这正是 CLAUDE.md 审计要解开的结 —— 个人 $299,2–10 人团队 $799。

相关阅读

相关阅读


文章独立产出 · 编辑政策

继续阅读 →