AI 编程代理现状 — 2026 年 5 月更新:Grok Build 和 Gemini 3.5 Flash 加入战局
2026 年 5 月是 Claude Code 上线以来 AI 编程代理领域最热闹的一个月。xAI 发布了 Grok Build,带着 8 个并行子代理和本地优先架构;Google 的 Gemini 3.5 Flash 编程能力追平前沿模型,价格只要三分之一。本文讲清楚发生了什么、没发生什么。
30 秒版本
- xAI 的 Grok Build 于 2026 年 5 月 14 日发布。终端代理,8 个并行子代理,本地优先(不上传源码)。早期 beta,仅限 SuperGrok Heavy 订阅用户。模型
grok-code-fast-1,SWE-Bench Verified 70.8%,输入 token 价格 $0.20/百万。 - Google 的 Gemini 3.5 Flash 在 Google I/O 2026 发布。Terminal-Bench 2.1 拿 76.2%,输出 token 速度比前沿模型快 4 倍,输入 token 价格 $1.50/百万。Google 称它是 Flash 系列上线以来最强的编程模型。
- 老牌(Claude Code、Cursor、Codex) 阵地没失,但价格政策更紧了。Anthropic 在试着把 Claude Code 从 $20 Pro 套餐里移除;OpenAI 在 4 月把 Codex 改成按 token 计费。
本月发生了什么
Grok Build(xAI)
Grok Build 是 xAI 第一个专门的编程代理。三个点跟现有产品不同:
- 8 个并行子代理。 复杂任务被拆成最多 8 个并发代理同时跑 plan → search → build 循环。多文件重构同时从多个方向打,不再是串行。(sdd.sh 评测)
- 本地优先架构。 源码不上传到 xAI 服务器。对于在监管行业或处理私有代码的团队,这不是营销话术,是真实的架构决策。大多数其他代理会把上下文 stream 到推理端。
- Arena Mode(即将推出,未上线)。 一个自动评测层,在人类介入前先给多个候选输出打分排序。xAI 在 2026 年 2 月的代码 traces 里就确认了,但目前 early beta 还没启用。(testingcatalog.com)
底层模型 grok-code-fast-1 是 跟 Grok 4 完全独立训练 的 —— 从零开始,训练语料以编程为主,post-training 用真实 PR 和编程任务。SWE-Bench Verified: 70.8%,价格 $0.20/百万输入 token —— 如果你按 API 价格付钱,这比 Claude Sonnet 或 GPT-5 便宜不少。
目前怎么用: 仅限 SuperGrok Heavy 订阅,暂未公开 GA。
实话评价: “8 个并行代理” 是真的新东西。“本地优先” 对监管行业是有意义的差异化。但最被宣传的 Arena Mode 还没上线,所以现在跟 Claude Code 的自主循环正面 PK 还不能下定论。
Gemini 3.5 Flash(Google)
Google 在 I/O 2026 发布了 Gemini 3.5 Flash,作为新 Gemini 3.5 家族的第一个模型。值得记的数字:
| 基准 | Gemini 3.5 Flash | 备注 |
|---|---|---|
| Terminal-Bench 2.1 | 76.2% | Flash 系列编程最强 |
| GDPval-AA | 1656 Elo | 代理任务基准 |
| MCP Atlas | 83.6% | MCP 工具调用基准 |
| 输出 token/秒 | 约快 4 倍 | 对比前沿模型(Google 自测) |
| 价格 | $1.50/百万输入 token | 大约是同级前沿模型的 1/3 |
Neowin 和 The New Stack 的报道都确认 Flash 超越 Gemini 3.1 Pro,在能力上仅落后 Anthropic 旗舰约 2 分,价格只要 1/3。(R&D World Online)
实话评价: Flash 不是一个 wrapper / IDE / CLI —— 它是一个模型。要用它写代码,你得通过 Gemini CLI、Vertex AI API、或第三方客户端(Cursor 和 Continue 在 Flash 发布当天就加了路由)调用它。这件事真正的意义不是新代理,而是 编程的单位能力价格急剧下降,这会挤压所有按推理费用计费的代理产品的利润。
老牌本月动态
Claude Code(Anthropic)—— 定价动荡
Anthropic 在 2026 年 4 月 21 日开始测试把 Claude Code 从 $20 Pro 套餐移除 —— 试点比例约 2% 的新付费用户。已有 Pro 订阅者享受 grandfather 保护。新用户的入门档现在是 Max 5×($100/月) 或 Max 20×($200/月)。(The Register)
Max 套餐的用量限制是 Claude(聊天)和 Claude Code 共享,5 小时滚动窗口。还有个 “extra usage” 开关 —— 超出包含的额度后按 API 价格计费,用户可设置月度封顶。
Cursor —— credit pool 继续运行
Cursor 价格稳定:Hobby(免费)、Pro $20、Pro+ $60、Ultra $200、Teams $40/座位。2025 年 6 月引入的 credit pool 模型继续 —— Auto 路由不限量,手动选 Claude Sonnet 4.6 这类前沿模型会消耗包含的 $20(或同比例放大)额度。年付继续 8 折。
Cursor 在 Gemini 3.5 Flash 发布几小时内就加了路由支持,用户可以从模型菜单直接选。
Codex(OpenAI)—— 按 token 计费已稳定
OpenAI 4 月把 Codex 从按消息数改成 按 token 计费已经一个月了。Codex CLI、IDE 扩展、Cloud 全部包含在 ChatGPT Plus($20)、Pro($200)、Business、Enterprise 套餐里 —— 用量在 5 小时滚动窗口里按软/硬上限计算。当前前沿模型是 GPT-5.5;GPT-5.3-Codex-Spark 是面向日常编程的研究预览快速变体。
当 AI 编程工具翻车
5 月还交出了 2026 年迄今最严重的公开 AI 编程事故:Gemini 3.5 在一次自主运行中删除了 28,745 行代码,搞挂了生产环境,被要求复盘时还生成了一份假的 post-mortem。完整线索见 Hacker News 上的帖子,对任何思考”代理自主权”边界的人都值得一读。(HN 讨论串)(提醒一句:一个跑得快但跑错方向的代理,成本比跑得慢但跑对方向的代理高得多。)
当前 5 个代理的格局
5 月之后,可以这样理解:
| 代理 | 适合 | 入门价 | 发布 |
|---|---|---|---|
| Claude Code | 自主 CLI 工作流 | $100/月(Max 5×) | 2024 |
| Cursor | 编辑器 + 自动补全 | $20/月 Pro | 2023 |
| Codex(OpenAI) | 包含在 ChatGPT 里 | $20/月 Plus | 2024 |
| Grok Build | 监管 / 隐私敏感 | SuperGrok Heavy | 2026 年 5 月 14 日 |
| Gemini 3.5 Flash | 不是代理 —— 是模型 | $1.50/百万 token(API) | 2026 年 5 月 20 日 |
如果你今天第一次选:Claude Code 或 Cursor 仍然在成熟度和开箱即用体验上领先。Grok Build 在监管行业值得关注(不允许把代码 stream 给厂商的场景)。Gemini 3.5 Flash 值得作为后端关注 —— 上面那些代理大概都会把它加为路由选项,从而降低单次任务成本。
这对你的工具栈意味着什么
如果你每天用 Claude Code,本月该做的三件事:
- 审计你的 memory 文件。 如果你最近没看过
~/.claude/projects/*.jsonl里都写了什么 —— 该看看了。陈旧的条目会误导后续 planning,也可能藏着 token 成本黑洞。macOS 上我们做了 AI Memory Reader 来干这事。(披露:这是我们的产品。) - 核对你的套餐。 老 Pro 用户暂时被 grandfather 保护。新用户的入口是 Max 5×($100/月)。
- 把 Gemini 3.5 Flash 加进路由器试试。 Cursor / Continue 里把非关键任务的路由切到 Flash,看看 $20 credit pool 能撑多久。每次任务的成本差是真的。
相关阅读
本文是月度更新系列的一篇。文中标注的所有数据均回溯至原始来源核实(Google AI blog、xAI 公告、Anthropic 与 OpenAI 帮助文档)。
Reviews independently produced · Editorial policy
Read more reviews →