Claude Code agent team 会多用多少 token？

Anthropic 的官方数字是：teammates 在 plan mode 下运行时，比标准 session 大约多用 7× token，因为每个 teammate 都维护自己的 context window，并作为独立的 Claude instance 运行。离开 plan mode，Anthropic 只说用量 roughly proportional to team size，所以 N 个 teammate 的 team 应该按 N× 这个量级做预算。网上常见的 3–4× 是第三方经验法则，不是 Anthropic 的数字；外面流传的 4×/15× 来自 Anthropic 另一个 multi-agent research system，基准是 chat，不是 Claude Code agent team。

什么时候该用 agent team，而不是 subagents？

Anthropic 的规则是：需要快速、聚焦、汇报结果的 worker，用 subagents；teammates 需要互相分享发现、质疑彼此、自己协调时，才用 agent team。team 适合高价值、能拆成互不碰文件的独立块的工作，比如研究和 review、模块可分的功能、竞争假设式 debug、跨层改动。顺序任务、同文件编辑、依赖链或日常小活，一个 session 或 subagents 更便宜，通常也更快。

Claude Code Agent Teams 值得用吗？

对高价值、真的能并行且可分离的工作，值得；这个 token 倍数买到的是 subagents 没有的真实并行和 agent 直接协调。对日常任务或顺序任务，不值得，它只是用更贵的方式做一个 session 已经能做的事。诚实 caveat 是：目前还没有公开、可复现的 benchmark 证明 agent team 在编码任务上相对于成本更快。Anthropic 的 90.2% 硬数字来自研究系统，不是 Claude Code；编码证据目前主要是个案报告，比如一次实战体感约 ~2× 更快，但 token 成本很高。

怎么在 Claude Code 里启用 agent team？

Agent teams 是实验功能，默认关闭。使用 Claude Code v2.1.32 或之后版本，在 settings.json 的 env block 里设置 CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1，或者把它设成 shell 环境变量。控制成本时，让 teammates 用 Sonnet，team 控制在 3–5 个，spawn prompt 保持聚焦，按互不重叠的文件拆工作，并在结束后关掉 team，因为空闲 teammates 也会继续消耗 token。

Claude Code agent team 有哪些限制？

它还是实验功能。带 in-process teammates 的 session resumption 是坏的，/resume 和 /rewind 不会恢复它们；teammates 有时不会标记任务完成，导致依赖任务被卡住；lead 可能过早宣布 team 完成，也可能自己开始做任务；一个 lead 只能管理一个 team，没有 nested teams。两个 teammates 编辑同一文件会导致 overwrite，所以必须按文件所有权拆分工作。权限在 spawn 时从 lead 继承，split-pane display 需要 tmux 或 iTerm2。

Claude Code 的多 agent 团队值不值得烧 token？

“怎么配置 Claude Code Agent Teams”的教程不缺。搜一下，民间教程一大把，官方文档也在。但它们大多绕开了你真正该先问的问题：值得吗？ Agent Teams 会把 token 账单放大。设置教程通常只讲怎么打开，很少讲这个倍数到底买回了什么。

这篇直接下判断。先讲成本，因为外面流传的数字很多都贴错了标签；再把边界划清：哪些工作配得上 team，哪些只是花更贵的钱做一个 session 本来就能做的事。

30 秒判决

值得用：高价值、真的能拆成互不踩文件的独立块，并且需要 agent 互相对照结果的工作。比如研究和 review、模块可分的功能、竞争假设式 debug、前后端和测试跨层协作。
token 剧场：顺序任务、同文件编辑、强依赖链、日常小活。一个 session 或 subagents 成本低得多。
成本：N 个 teammate 的 team，大致按 N× 单 session 做预算。Anthropic 自己给出的数字是“teammates 在 plan mode 下运行时，约 7× more tokens”，其他模式只说“roughly proportional to team size”。你到处看到的“3–4×”是第三方经验法则，不是 Anthropic 官方数字；著名的 4×/15× 来自另一个产品（下面会讲）。
坑点：它还是实验功能，默认关闭；它对“写代码是否更快”的证据目前仍以个案为主；team lead 有时还会自己上手干活，而不是把任务派出去。

如果你的任务不在第一条里，现在就可以停下，省下 token。要是在第一条里，后面就是怎么让这个倍数花得值。

它到底花多少（先看标签）

围绕 agent team 成本的讨论，最大问题是把不同来源的数字混在一起。这里分三层，别串台：

1. Anthropic 真正给 Agent Teams 的数字。 Claude Code 成本文档写得很清楚：当 teammates 在 plan mode 下运行时，agent team 比标准 session “大约多用 7× more tokens”，原因是每个 teammate 都有自己的 context window，并作为独立的 Claude instance 运行。离开 plan mode，Anthropic 没有给单一倍数，只说 team 会比单 session “significantly more tokens”，并且“token usage is roughly proportional to team size”。所以：按 team size 这个量级做预算，把 7× 当成 plan mode team 已写进文档的偏 worst-case 数字。

2. “3–4×”经验法则不是 Anthropic 的。 这个说法常见于设置教程，通常是转述成“三个 teammate 的 team 大概要用 3–4× token”。拿来粗算可以，但它是第三方估算；不同独立估计会在 ~3× 到 ~7× 之间浮动，取决于到底量了什么。别把它当官方事实引用；我们也不会。

3. 4×/15× 是另一个系统的数字。 Anthropic 那句被反复引用的话：“agents typically use about 4× more tokens than chat interactions, and multi-agent systems use about 15× more tokens than chats”，出自它的 multi-agent research system：一个 Claude.ai 里的研究产品，基准是 chat。那不是 Claude Code Agent Teams，baseline 也不是 Claude Code session。谁把 15× 直接塞进 Agent Teams 成本估算，就是在比两件不同的东西。

除了这个明面上的倍数，还有两个成本藏在脚注里：

context 重新加载税。 teammate spawn 时，会像普通 session 一样加载同一套项目 context：CLAUDE.md、MCP servers 和 skills。每个 teammate 都要单独付一次这个基础 context 成本。所以臃肿的 CLAUDE.md，现在不是每轮付一次，而是每个 agent 付一次。（如果你的 CLAUDE.md 很重，这周该读一下那些会放大每个 session 的 token 错误；在这里它们会按 team size 叠加。）
空转和来回消息。 Anthropic 提醒说，“active teammates continue consuming tokens even if idle”，所以一个忘了关的 team 会继续花钱。agent 之间每条消息也都要在两端经模型处理。CloudZero 说得很直白：每一次 inter-agent message 都是一次 model round trip。协调不是免费的；它也进账单。

你买到的到底是什么

这个倍数只有在你知道它买回了什么时才有意义。按官方架构，真实差别是这样：

subagent 在你的 session 内部运行，做一个有边界的任务，然后把摘要汇报给主 agent。subagents “never talk to each other”。它便宜，因为结果会被压回同一个 context。

agent team 是一组完整、独立的 Claude Code sessions：一个固定的 team lead 加多个 teammates，通过共享 task list（带 file-locking）和 mailbox 协作。mailbox 允许“任何 teammate 直接给任何其他 teammate 发消息”，不必经过 lead。每个 teammate 都有自己的 context window；lead 的历史不会自动带过去。

所以你付钱买的，准确说只有两件 subagents 给不了的东西：

agent 之间能互相说话：质疑计划、交接、响应同伴发现，而不是所有人都向同一个 coordinator 汇报。
逃出单个 context window：可以持续推进的并行工作，合起来超过一个 session 能装下的范围。

Anthropic 自己那句一句话规则最干净：“Use subagents when you need quick, focused workers that report back. Use agent teams when teammates need to share findings, challenge each other, and coordinate on their own.” 如果你的任务不需要上面两点，你买的是用不上的能力。（顺带一提，这并不是 Anthropic 唯一的「共享 agent」：Claude Tag 在 Slack 频道里放了一个共享的 @Claude，整个团队都能召唤——可以看成代码侧 agent team 在聊天侧的对照版本。）

什么时候值得

Anthropic 对这类系统的经济账说得少见地坦白。研究系统那篇文章里有一句最适合作决策：“multi-agent systems require tasks where the value of the task is high enough to pay for the increased performance.” 这就是完整测试。token 倍数是固定的；真正变化的是你把它打到什么任务上。

具体说，team 在 高价值、可并行、可分离 的工作上才挣回 token：

大范围研究和 code review：许多文件同时读，结果互相对照。Anthropic 把它列在最前面，也是“agents challenge each other”最容易发挥的场景。
模块独立的功能：每个 teammate 可以各自负责一块，不互相踩脚。关键词是独立：文件要分开。
竞争假设式 debug：让三个 teammates 并行验证三条理论，而不是按顺序一条条试。
跨层改动：一个 teammate 负责 API，一个负责 UI，一个负责 tests，再通过 task list 协调。

共同点是：任务能拆成不碰同一批文件的块；每块都值得花钱更快完成；这些块之间还真的需要沟通。三条都满足，这个倍数就是便宜的。Anthropic 的规模建议是：从 3–5 个 teammates 开始；“三个专注的 teammates 往往胜过五个分散的 teammates”。

什么时候只是 token 剧场

反过来，下面这些就是花 N× 但没买到东西：

顺序工作。 第二步必须等第一步结果，所谓并行就没有意义，你只是在付钱让 agent 空等。
同文件编辑。 “两个 teammates 编辑同一个文件会导致 overwrite。”file-lock 会强迫它们排队；你买到的是堵车。
依赖很重的任务。 依赖越多，协调消息越多；每条都是计费的 round trip，agent 大部分时间都在等彼此。
日常任务。 Anthropic 自己说：“For routine tasks, a single session is more cost-effective.” 一个 bug fix、一次 rename、小 refactor：一个 session，别绕远。

哪怕纸面上适合，实验功能的毛边也可能吃掉省下来的时间。官方 limitations 里写着：lead “may decide the team is finished before all tasks are actually complete”；teammates “sometimes fail to mark tasks as completed, which blocks dependent tasks”；lead 有时会“starts implementing tasks itself instead of waiting”。带着 in-process teammates 的 session resumption 也是坏的：/resume 和 /rewind “do not restore” 它们。这是 v2.1.32 时代的实验功能，表现也确实像实验功能。

诚实一点：写代码的证据还薄

设置教程通常不说这一点，但按我们不崇拜排行榜的原则，必须把话说出来：目前没有严谨、可复现的公开 benchmark，证明 Claude Code Agent Teams 在编码任务上相对于成本真的更快。

Anthropic 发布过的一个硬性能数字，是 multi-agent system 在内部 eval 上比 single-agent Opus 高 90.2%。但再说一遍，那是研究系统，跑的是研究 benchmark。它很亮眼，也确实能说明“并行度高时，多 agent 可能赢”；但它不是 Claude Code 在交付一个功能。

对写代码来说，目前最好的证据是一篇 day-one 实战记录：开发者用 team 做了一个 OAuth 功能，感觉“roughly half the time my subagent workflow would have taken”；随后他马上补了一句：“This is one test on day one. I’m not claiming Agent Teams are universally faster”，并且指出“五个 teammate 的 debug session 会很快烧掉 token”。这是诚实的 n=1：方向上有希望，体感约 ~2× 提速，成本也真实存在。它不是证明，我们也不会把它包装成证明。

所以本文的判决基于机制和经济账，而不是 benchmark：team 应该在高价值、可并行、可分离的工作上赢；真正把它用在这类工作上的人，也报告说它确实有用。离开这个边界，你付的是协调开销。

如果你要用：让倍数花得值

打开方式（默认关闭）：在 settings.json 或环境变量里设置 CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1，并使用 Claude Code v2.1.32 或之后版本。然后照 Anthropic 自己的成本控制清单做；每一条本质上都是避免浪费这个倍数：

teammates 用 Sonnet，不要用 Opus：它能“balance capability and cost”，你很少真的需要五个 Opus 级 agent 并行。
team 保持小规模（3–5）。token 成本大致随 team size 线性增长；分散的 teammates 会增加协调成本，却不一定增加吞吐。
spawn prompt 要聚焦。 spawn prompt 里的每个 token，都是每个 teammate 从第一步开始就要带上的 context，还要叠加它已经重新加载的 CLAUDE.md/MCP/skills。
按文件拆工作，不是按功能拆。 文件所有权互不相交，才能避开 lock contention，不让并行任务退化成串行。
做完就关掉 team。 空闲 teammates 仍然会计费。

什么会让我们改判

可复现的编码 benchmark：在固定真实任务上同时给出 speedup 和 token cost。如果结果显示 >2× 更快，且成本低于 team size 倍数，team 就会从“只适合窄场景”变成并行功能的默认选项。
spawn 时可按 teammate 选择模型（今天权限和很多设置继承自 lead），再加上共享基础 context 的 prompt-cache credit，会削掉重新加载税，扩大“值得用”的边界。
退出 experimental：可靠的 resumption、稳定的任务完成标记、真正会委派而不是自己上手的 lead。这样才会去掉“毛边吃掉收益”的 caveat。

在那之前，agent team 是一把适合特定工作的锋利工具。打到高价值、可并行、可分离的任务上，它很便宜；见什么都开 team，你只是为一个 session 的产出买了一张 7× token 账单。