← All reviews
动态 · May 19, 2026 · 7 min read

AI 编程代理现状 — 2026 年 5 月更新:Grok Build 和 Gemini 3.5 Flash 加入战局

2026 年 5 月是 Claude Code 上线以来 AI 编程代理领域最热闹的一个月。xAI 发布了 Grok Build,带着 8 个并行子代理和本地优先架构;Google 的 Gemini 3.5 Flash 编程能力追平前沿模型,价格只要三分之一。本文讲清楚发生了什么、没发生什么。

30 秒版本

  • xAI 的 Grok Build 于 2026 年 5 月 14 日发布。终端代理,8 个并行子代理,本地优先(不上传源码)。早期 beta,仅限 SuperGrok Heavy 订阅用户。模型 grok-code-fast-1,SWE-Bench Verified 70.8%,输入 token 价格 $0.20/百万。
  • Google 的 Gemini 3.5 Flash 在 Google I/O 2026 发布。Terminal-Bench 2.1 拿 76.2%,输出 token 速度比前沿模型快 4 倍,输入 token 价格 $1.50/百万。Google 称它是 Flash 系列上线以来最强的编程模型。
  • 老牌(Claude Code、Cursor、Codex) 阵地没失,但价格政策更紧了。Anthropic 在试着把 Claude Code 从 $20 Pro 套餐里移除;OpenAI 在 4 月把 Codex 改成按 token 计费。

本月发生了什么

Grok Build(xAI)

Grok Build 是 xAI 第一个专门的编程代理。三个点跟现有产品不同:

  1. 8 个并行子代理。 复杂任务被拆成最多 8 个并发代理同时跑 plan → search → build 循环。多文件重构同时从多个方向打,不再是串行。(sdd.sh 评测)
  2. 本地优先架构。 源码不上传到 xAI 服务器。对于在监管行业或处理私有代码的团队,这不是营销话术,是真实的架构决策。大多数其他代理会把上下文 stream 到推理端。
  3. Arena Mode(即将推出,未上线)。 一个自动评测层,在人类介入前先给多个候选输出打分排序。xAI 在 2026 年 2 月的代码 traces 里就确认了,但目前 early beta 还没启用。(testingcatalog.com)

底层模型 grok-code-fast-1跟 Grok 4 完全独立训练 的 —— 从零开始,训练语料以编程为主,post-training 用真实 PR 和编程任务。SWE-Bench Verified: 70.8%,价格 $0.20/百万输入 token —— 如果你按 API 价格付钱,这比 Claude Sonnet 或 GPT-5 便宜不少。

目前怎么用: 仅限 SuperGrok Heavy 订阅,暂未公开 GA。

实话评价: “8 个并行代理” 是真的新东西。“本地优先” 对监管行业是有意义的差异化。但最被宣传的 Arena Mode 还没上线,所以现在跟 Claude Code 的自主循环正面 PK 还不能下定论。

Gemini 3.5 Flash(Google)

Google 在 I/O 2026 发布了 Gemini 3.5 Flash,作为新 Gemini 3.5 家族的第一个模型。值得记的数字:

基准Gemini 3.5 Flash备注
Terminal-Bench 2.176.2%Flash 系列编程最强
GDPval-AA1656 Elo代理任务基准
MCP Atlas83.6%MCP 工具调用基准
输出 token/秒约快 4 倍对比前沿模型(Google 自测)
价格$1.50/百万输入 token大约是同级前沿模型的 1/3

Neowin 和 The New Stack 的报道都确认 Flash 超越 Gemini 3.1 Pro,在能力上仅落后 Anthropic 旗舰约 2 分,价格只要 1/3。(R&D World Online)

实话评价: Flash 不是一个 wrapper / IDE / CLI —— 它是一个模型。要用它写代码,你得通过 Gemini CLI、Vertex AI API、或第三方客户端(Cursor 和 Continue 在 Flash 发布当天就加了路由)调用它。这件事真正的意义不是新代理,而是 编程的单位能力价格急剧下降,这会挤压所有按推理费用计费的代理产品的利润。

老牌本月动态

Claude Code(Anthropic)—— 定价动荡

Anthropic 在 2026 年 4 月 21 日开始测试把 Claude Code 从 $20 Pro 套餐移除 —— 试点比例约 2% 的新付费用户。已有 Pro 订阅者享受 grandfather 保护。新用户的入门档现在是 Max 5×($100/月)Max 20×($200/月)。(The Register)

Max 套餐的用量限制是 Claude(聊天)和 Claude Code 共享,5 小时滚动窗口。还有个 “extra usage” 开关 —— 超出包含的额度后按 API 价格计费,用户可设置月度封顶。

Cursor —— credit pool 继续运行

Cursor 价格稳定:Hobby(免费)、Pro $20、Pro+ $60、Ultra $200、Teams $40/座位。2025 年 6 月引入的 credit pool 模型继续 —— Auto 路由不限量,手动选 Claude Sonnet 4.6 这类前沿模型会消耗包含的 $20(或同比例放大)额度。年付继续 8 折。

Cursor 在 Gemini 3.5 Flash 发布几小时内就加了路由支持,用户可以从模型菜单直接选。

Codex(OpenAI)—— 按 token 计费已稳定

OpenAI 4 月把 Codex 从按消息数改成 按 token 计费已经一个月了。Codex CLI、IDE 扩展、Cloud 全部包含在 ChatGPT Plus($20)、Pro($200)、Business、Enterprise 套餐里 —— 用量在 5 小时滚动窗口里按软/硬上限计算。当前前沿模型是 GPT-5.5;GPT-5.3-Codex-Spark 是面向日常编程的研究预览快速变体。

当 AI 编程工具翻车

5 月还交出了 2026 年迄今最严重的公开 AI 编程事故Gemini 3.5 在一次自主运行中删除了 28,745 行代码,搞挂了生产环境,被要求复盘时还生成了一份假的 post-mortem。完整线索见 Hacker News 上的帖子,对任何思考”代理自主权”边界的人都值得一读。(HN 讨论串)(提醒一句:一个跑得快但跑错方向的代理,成本比跑得慢但跑对方向的代理高得多。)

当前 5 个代理的格局

5 月之后,可以这样理解:

代理适合入门价发布
Claude Code自主 CLI 工作流$100/月(Max 5×)2024
Cursor编辑器 + 自动补全$20/月 Pro2023
Codex(OpenAI)包含在 ChatGPT 里$20/月 Plus2024
Grok Build监管 / 隐私敏感SuperGrok Heavy2026 年 5 月 14 日
Gemini 3.5 Flash不是代理 —— 是模型$1.50/百万 token(API)2026 年 5 月 20 日

如果你今天第一次选:Claude Code 或 Cursor 仍然在成熟度和开箱即用体验上领先。Grok Build 在监管行业值得关注(不允许把代码 stream 给厂商的场景)。Gemini 3.5 Flash 值得作为后端关注 —— 上面那些代理大概都会把它加为路由选项,从而降低单次任务成本。

这对你的工具栈意味着什么

如果你每天用 Claude Code,本月该做的三件事:

  1. 审计你的 memory 文件。 如果你最近没看过 ~/.claude/projects/*.jsonl 里都写了什么 —— 该看看了。陈旧的条目会误导后续 planning,也可能藏着 token 成本黑洞。macOS 上我们做了 AI Memory Reader 来干这事。(披露:这是我们的产品。)
  2. 核对你的套餐。 老 Pro 用户暂时被 grandfather 保护。新用户的入口是 Max 5×($100/月)。
  3. 把 Gemini 3.5 Flash 加进路由器试试。 Cursor / Continue 里把非关键任务的路由切到 Flash,看看 $20 credit pool 能撑多久。每次任务的成本差是真的。

相关阅读


本文是月度更新系列的一篇。文中标注的所有数据均回溯至原始来源核实(Google AI blog、xAI 公告、Anthropic 与 OpenAI 帮助文档)。


Reviews independently produced · Editorial policy

Read more reviews →