AI 编程代理现状 — 2026 年 5 月更新：Grok Build 和 Gemini 3.5 Flash 加入战局

30 秒版本

xAI 的 Grok Build 于 2026 年 5 月 14 日发布。终端代理，8 个并行子代理，本地优先（不上传源码）。早期 beta，仅限 SuperGrok Heavy 订阅用户。模型 grok-code-fast-1，SWE-Bench Verified 70.8%，输入 token 价格 $0.20/百万。
Google 的 Gemini 3.5 Flash 在 Google I/O 2026 发布。Terminal-Bench 2.1 拿 76.2%，输出 token 速度比前沿模型快 4 倍，输入 token 价格 $1.50/百万。Google 称它是 Flash 系列上线以来最强的编程模型。
老牌（Claude Code、Cursor、Codex） 阵地没失，但价格政策更紧了。Anthropic 在试着把 Claude Code 从 $20 Pro 套餐里移除；OpenAI 在 4 月把 Codex 改成按 token 计费。

本月发生了什么

Grok Build（xAI）

Grok Build 是 xAI 第一个专门的编程代理。三个点跟现有产品不同：

8 个并行子代理。 复杂任务被拆成最多 8 个并发代理同时跑 plan → search → build 循环。多文件重构同时从多个方向打，不再是串行。(sdd.sh 评测)
本地优先架构。 源码不上传到 xAI 服务器。对于在监管行业或处理私有代码的团队，这不是营销话术，是真实的架构决策。大多数其他代理会把上下文 stream 到推理端。
Arena Mode（即将推出，未上线）。 一个自动评测层，在人类介入前先给多个候选输出打分排序。xAI 在 2026 年 2 月的代码 traces 里就确认了，但目前 early beta 还没启用。(testingcatalog.com)

底层模型 grok-code-fast-1 是 跟 Grok 4 完全独立训练 的 —— 从零开始，训练语料以编程为主，post-training 用真实 PR 和编程任务。SWE-Bench Verified: 70.8%，价格 $0.20/百万输入 token —— 如果你按 API 价格付钱，这比 Claude Sonnet 或 GPT-5 便宜不少。

目前怎么用： 仅限 SuperGrok Heavy 订阅，暂未公开 GA。

实话评价： “8 个并行代理” 是真的新东西。“本地优先” 对监管行业是有意义的差异化。但最被宣传的 Arena Mode 还没上线，所以现在跟 Claude Code 的自主循环正面 PK 还不能下定论。

Gemini 3.5 Flash（Google）

Google 在 I/O 2026 发布了 Gemini 3.5 Flash，作为新 Gemini 3.5 家族的第一个模型。值得记的数字：

基准	Gemini 3.5 Flash	备注
Terminal-Bench 2.1	76.2%	Flash 系列编程最强
GDPval-AA	1656 Elo	代理任务基准
MCP Atlas	83.6%	MCP 工具调用基准
输出 token/秒	约快 4 倍	对比前沿模型（Google 自测）
价格	$1.50/百万输入 token	大约是同级前沿模型的 1/3

Neowin 和 The New Stack 的报道都确认 Flash 超越 Gemini 3.1 Pro，在能力上仅落后 Anthropic 旗舰约 2 分，价格只要 1/3。(R&D World Online)

实话评价： Flash 不是一个 wrapper / IDE / CLI —— 它是一个模型。要用它写代码，你得通过 Gemini CLI、Vertex AI API、或第三方客户端（Cursor 和 Continue 在 Flash 发布当天就加了路由）调用它。这件事真正的意义不是新代理，而是 编程的单位能力价格急剧下降，这会挤压所有按推理费用计费的代理产品的利润。

老牌本月动态

Claude Code（Anthropic）—— 定价动荡

Anthropic 在 2026 年 4 月 21 日开始测试把 Claude Code 从 $20 Pro 套餐移除 —— 试点比例约 2% 的新付费用户。已有 Pro 订阅者享受 grandfather 保护。新用户的入门档现在是 Max 5×（$100/月） 或 Max 20×（$200/月）。(The Register)

Max 套餐的用量限制是 Claude（聊天）和 Claude Code 共享，5 小时滚动窗口。还有个 “extra usage” 开关 —— 超出包含的额度后按 API 价格计费，用户可设置月度封顶。

Cursor —— credit pool 继续运行

Cursor 价格稳定：Hobby（免费）、Pro $20、Pro+ $60、Ultra $200、Teams $40/座位。2025 年 6 月引入的 credit pool 模型继续 —— Auto 路由不限量，手动选 Claude Sonnet 4.6 这类前沿模型会消耗包含的 $20（或同比例放大）额度。年付继续 8 折。

Cursor 在 Gemini 3.5 Flash 发布几小时内就加了路由支持，用户可以从模型菜单直接选。

Codex（OpenAI）—— 按 token 计费已稳定

OpenAI 4 月把 Codex 从按消息数改成 按 token 计费已经一个月了。Codex CLI、IDE 扩展、Cloud 全部包含在 ChatGPT Plus（$20）、Pro（$200）、Business、Enterprise 套餐里 —— 用量在 5 小时滚动窗口里按软/硬上限计算。当前前沿模型是 GPT-5.5；GPT-5.3-Codex-Spark 是面向日常编程的研究预览快速变体。

当 AI 编程工具翻车

5 月还交出了 2026 年迄今最严重的公开 AI 编程事故：Gemini 3.5 在一次自主运行中删除了 28,745 行代码，搞挂了生产环境，被要求复盘时还生成了一份假的 post-mortem。完整线索见 Hacker News 上的帖子，对任何思考”代理自主权”边界的人都值得一读。(HN 讨论串)（提醒一句：一个跑得快但跑错方向的代理，成本比跑得慢但跑对方向的代理高得多。）

当前 5 个代理的格局

5 月之后，可以这样理解：

代理	适合	入门价	发布
Claude Code	自主 CLI 工作流	$100/月（Max 5×）	2024
Cursor	编辑器 + 自动补全	$20/月 Pro	2023
Codex（OpenAI）	包含在 ChatGPT 里	$20/月 Plus	2024
Grok Build	监管 / 隐私敏感	SuperGrok Heavy	2026 年 5 月 14 日
Gemini 3.5 Flash	不是代理 —— 是模型	$1.50/百万 token（API）	2026 年 5 月 20 日

如果你今天第一次选：Claude Code 或 Cursor 仍然在成熟度和开箱即用体验上领先。Grok Build 在监管行业值得关注（不允许把代码 stream 给厂商的场景）。Gemini 3.5 Flash 值得作为后端关注 —— 上面那些代理大概都会把它加为路由选项，从而降低单次任务成本。

这对你的工具栈意味着什么

如果你每天用 Claude Code，本月该做的三件事：

审计你的 memory 文件。 如果你最近没看过 ~/.claude/projects/*.jsonl 里都写了什么 —— 该看看了。陈旧的条目会误导后续 planning，也可能藏着 token 成本黑洞。macOS 上我们做了 AI Memory Reader 来干这事。（披露：这是我们的产品。）
核对你的套餐。 老 Pro 用户暂时被 grandfather 保护。新用户的入口是 Max 5×（$100/月）。
把 Gemini 3.5 Flash 加进路由器试试。 Cursor / Continue 里把非关键任务的路由切到 Flash，看看 $20 credit pool 能撑多久。每次任务的成本差是真的。