Claude Fable 5 是什么？

Claude Fable 5（模型 ID claude-fable-5）是 Anthropic 在 2026 年 6 月 9 日发布的新旗舰模型。它是 Mythos-class 的第一个公开可用版本，也就是 Opus 之上的新档位；它和受限访问的 Claude Mythos 5 是同一底层模型，但增加了面向攻击性网络安全请求、可能危险的生物/化学请求、以及试图提取模型能力的请求的安全分类器。分类器触发后，Claude Code 这类应用会回退到 Opus 4.8。它有 1M-token 上下文窗口和 128K 最大输出。

Claude Fable 5 值得付 Opus 4.8 两倍价格吗？

对最难、运行时间最长的编码任务，证据支持付这 2×：SWE-bench Verified 为 95.0%，Vals AI 已独立复现；Opus 4.8 是 88.6%，而 Fable 5 在 FrontierCode Diamond 上也超过 Opus 4.8 的两倍。对日常任务，$5/$25 的 Opus 4.8 仍然是更好的默认选择。Batch API 是例外：Fable 5 在那里是 $5/$25，和交互式 Opus 4.8 同价。

Claude Fable 5 怎么收费？

每百万输入 token $10，每百万输出 token $50，正好是 Claude Opus 4.8 的 2×，也和 Opus 4.8 的快速模式同价。Batch API 会把价格减半到 $5/$25。在 Claude.ai 订阅里，Pro/Max/Team 套餐到 2026 年 6 月 22 日前包含它，但按 2× 用量权重计算；从 6 月 23 日开始需要按量付费用量积分。

怎么在 Claude Code 里使用 Fable 5？

运行 /model fable；也可以运行 /model best，它会在你的组织有权限时选择 Fable 5。它要求 Claude Code v2.1.170 或之后版本，而且不是默认模型。注意：Fable 5 上的思考不能关闭；渗透测试、CTF 等安全研究工作经常会自动回退到 Opus 4.8。

Claude Fable 5 和 Claude Mythos 5 有什么区别？

同一底层模型。Mythos 5 不带安全分类器，只开放给 Anthropic Project Glasswing 中获批的客户；Fable 5 是公开可用版本，带安全分类器。部分发布图表数字属于 Mythos 5，例如 Terminal-Bench 的 88.0%；你能购买的 Fable 5 在该评测上是 84.3%，并且 20.9% 的测试运行触发了安全拒绝。

Claude Fable 5 对比 Opus 4.8：提升是真的，评测表混了两个模型，价格翻倍怎么算

更新（2026 年 7 月 1 日）：Fable 5 已恢复，下面买或不买的判断重新适用。 美国出口管制指令曾在 6 月 12 日暂停所有客户访问 Fable 5 和 Mythos 5；美国商务部解除管制后，Anthropic 于 7 月 1 日恢复访问，并加上新的安全分类器。这个分类器会把被举报的绕过手法在 99% 以上的情况下转到 Opus 4.8。下面的价格计算还要加上一个过渡期：7 月 7 日前，Fable 5 包含在 Pro、Max、Team 套餐里，但最多只占你周额度的 50%；之后走用量额度（credits）。所以本文的逐 token 对比，是你开始用 credits 后真正付的价格。18 天停摆没有改变 Fable 5 是什么，但坐实了一个判断：单一厂商风险也是单一司法辖区风险。完整时间线和恢复后变化见：Fable 5 暂停后又恢复。

Anthropic 在 6 月 9 日发布了 Claude Fable 5。它不是新的 Opus，而是 Opus 之上的新档位。公告把它解释为：一个已经做成可供普通用户安全使用的 Mythos 级模型（原文: “a Mythos-class model that we’ve made safe for general use”）。发布图表显示，它几乎在每个编码和面向代理任务的评测上都排第一。

多数报道直接转载了那张表。和我们核对Claude Code 代理团队：值不值得烧 token？里的成本数字时一样，我们先确认每个数字到底对应哪个模型。有些最显眼的分数属于 Claude Mythos 5：这是同一底层模型，但不带 Fable 的安全检查，只卖给通过审核的客户。下面所有事实都来自一手文档，统一放在文末「来源」里。

30 秒结论

编码提升是真的。 SWE-bench Verified 95.0%，对比 Opus 4.8 的 88.6%；独立评测机构 Vals AI 在发布当天用自己的测试设置也测到 95.0%，排名 #1。厂商最显眼的结论能在发布当天被第三方确认，并不常见。
有些分数不属于 Fable。 在 Terminal-Bench 2.1 上，发布图表里的 88.0% 属于 Mythos 5。你能买到的 Fable 5 得分是 84.3%，并且 20.9% 的测试运行触发了安全拒绝，任务中途回退到 Opus 4.8。Anthropic 确实披露了这点，但位置在系统卡（system card，模型的官方技术说明）第 255 页。
价格是 Opus 4.8 的 2×：每百万 token $10/$50，对比 $5/$25；这也正好等于 Opus 4.8 的快速模式价格。同一笔钱，两种升级：要速度，还是要能力。最省钱的方式是批量接口（Batch API）：$5/$25。如果你能等异步结果，就能用 Opus 4.8 的价格用到 Fable 5 的能力。
代理用户要先看限制： 数据强制保留 30 天，没有零数据保留选项；速率限制独立且更低；拒绝会作为普通 HTTP 200 响应返回；思考不能关闭；结构化输出不在支持列表里。

如果工作很日常，半价的 Opus 4.8 仍然是正确默认值。如果一次失败会浪费你一个下午，Fable 5 是我们第一个会说「值得付两倍价格」的模型。这个判断只适用于这类任务，而且依据是证据，不是主观感觉。

Fable 5 到底是什么

Anthropic 以前的模型名字是 Haiku、Sonnet、Opus，名字都取自诗体（俳句、十四行诗、长诗）。Mythos-class 是 Opus 之上的新档位，这次发布成两个版本：claude-mythos-5（完整能力，只给 Project Glasswing 客户）和 claude-fable-5（同一底层模型，加安全分类器，公开可用）。按 Anthropic 的说法，Fable 来自拉丁语 fabula，和希腊语 mythos 有亲缘关系；安全检查就是两个版本的全部差别。

这些检查很具体：分类器会识别攻击性网络安全请求、可能危险的生物/化学请求、以及试图提取模型能力的请求。一旦分类器触发，Claude Code 这类应用会自动改用 Opus 4.8 重试；直接 API 调用则会被 stop_reason: "refusal" 阻断。Anthropic 说平均不到 5% 的会话会触发，但安全相关工作会高得多，后面会看到。

规格：默认 1M-token 上下文窗口（长上下文不额外收费）、128K 最大输出、和 Opus 4.8 相同的分词器，模型 ID 是 claude-fable-5。

评测数字：按你真正能买到的模型分清楚

如果让我们替换发布图表，会是下面这张表：官方数字不变，但把可购买的 Fable 5 单独放一列。

评测	Fable 5	Opus 4.8	GPT-5.5	Gemini 3.1 Pro
SWE-bench Verified	95.0	88.6	—	80.6
SWE-bench Pro	80.0	69.2	58.6	54.2
Terminal-Bench 2.1	84.3*	82.7	83.4	70.7
FrontierCode (Diamond)	29.3	13.4	5.7	—
OSWorld-Verified	85.0	83.4	78.7	76.2
GDPval-AA (Elo)	1932	1890	1769	1314

Anthropic 报告的数字（系统卡，2026 年 6 月 9 日）。*在 Terminal-Bench 上，发布图表里的 88.0% 是 Mythos 5；Fable 5 得分 84.3%，20.9% 的测试运行触发安全拒绝，被迫回退到 Opus 4.8（第 255 页）。Anthropic 自己说明：Fable 的分数“反映了线上版本的安全防护”（原文: “reflect its production safeguards”）。

这些数字比常见发布图表更值得信任，有三个原因：

同一天就有独立确认。 Vals AI 用自己的测试设置跑 SWE-bench Verified：Fable 95.0%，排名 #1，高于 Opus 4.8（88.6%）和 GPT-5.5（82.6%）。Artificial Analysis 也把它列为智能指数第一；并测到 Fable 在 2% 的测试任务上回退到 Opus 4.8，所以安全回退在那里也拉低了分数。
Anthropic 也公开了 Fable 5 输给 Opus 4.8 的结果。 在 Vending-Bench 2 上，Fable 最好的一次低于 Opus 4.8（$5,680 vs $5,787）；MCP Atlas 的提升也小到几乎可以忽略（83.3 vs 82.2）。一张包含较弱结果的表，比只展示胜利的表更可信。
提升主要出现在最难的评测。 在分数已接近上限的评测里提升不大；在最难的评测里提升明显。FrontierCode Diamond 不止翻倍（29.3 vs 13.4），CursorBench 达到 72.9%，高于 GPT-5.5 已发布的最好成绩 64.3%。这更像真实能力提高，而不是只针对排行榜优化。

缺失项也重要：Fable 还没有进入 LMArena、ARC-AGI 或 aider 排行榜。按我们的评测原则，等独立结果发布后我们会更新。目前的实际使用反馈还只是主观印象，不是系统测量。Simon Willison 的说法是“它很强”（原文: “it’s a beast”）；Karpathy 的说法是“值得大版本号升级的一次明显跃迁”（原文: “a major-version-bump-deserving step change forward”）。

价格怎么算

模型	输入 /MTok	输出 /MTok	这意味着什么
Claude Fable 5	$10	$50	新的最高档模型
Claude Fable 5（Batch）	$5	$25	Fable 水平，Opus 4.8 价格，结果在 ~24h 内返回
Claude Opus 4.8	$5	$25	默认选择
Claude Opus 4.8（快速模式）	$10	$50	和 Fable 同价，买的是速度
OpenAI GPT-5.5	$5	$30	输入价格是 Fable 的一半
Gemini 3.1 Pro	$2	$12	输入价格是 Fable 的五分之一

官方厂商定价页，2026 年 6 月 9 日。Artificial Analysis 曾短暂把 Fable 输入价列为 $12.50/MTok；这和 Anthropic 官方 $10 冲突，所以这里采用一手来源。

比标价更重要的是：

批量接口最省钱。 通过 Batch API 使用 Fable，价格正好等于交互式 Opus 4.8。夜间重构、批量评测、大规模代码审查，只要能等，最高档模型就不用多付钱。
成本主要由思考强度（effort）决定，仅这一项就能差 7.5 倍。 思考始终开启，而思考强度会显著改变花费：Simon Willison 测到同一次生成，低强度是 $0.10，最高强度是 $0.72。Anthropic 的建议是默认 high；即使 Fable 使用较低强度，也常常超过旧模型的最高设置。
订阅用户要注意 6 月 22 日和 6 月 23 日两个日期。 Fable 只在 6 月 22 日前包含在 Pro/Max/Team 套餐里，并按 2× 用量权重计算；从 6 月 23 日开始，需要按量付费用量积分。如果你的用量上限已经紧，Fable 会让额度消耗速度翻倍。

在 Claude Code 里

用 /model fable 选择它，也可以选 best。需要 v2.1.170+；它不是默认模型。
它适合单次会话做不完的大任务：说明你想要的结果，而不是一步步指挥；把模糊问题交给它；不用反复提醒它自查（高强度下它会自己验证），关键结果仍建议自己确认。
思考不能关闭。 会话开关、alwaysThinkingEnabled 和 MAX_THINKING_TOKENS=0 都不会影响 Fable。
安全类任务经常自动回退到 Opus 4.8。 渗透测试、CTF 练习、生物相关代码库会触发安全分类器，官方文档说常常第一条请求就触发（原文: “often on the first request”）。结果是：付 Fable 的价格，拿到 Opus 的答案。这类工作直接留在 Opus 4.8。

代理构建者要先检查的限制

限制	这对你意味着什么
30 天数据保留	Fable 是 “Covered Model”：所有流量都会保留 30 天，零数据保留协议不适用。如果你的合同要求 ZDR，Fable 就不能用。这条限制到了 Amazon Bedrock 也一样：AWS 官方发布博客写明，Mythos 级流量必须保留数据；一旦你选择加入，你的数据会离开 AWS 的数据与安全边界（原文：“your data will leave AWS’s data and security boundary”）。
独立且更低的速率限制	Fable 不共享 Opus 的限额池：Tier 4 是每分钟 4M 输入 token，而 Opus 池是 10M。大规模多代理并发会最先受影响；发布第一天就有人报告限流错误。
拒绝是响应，不是错误	被阻断的请求会返回 HTTP 200，并带 `stop_reason: "refusal"` 和分类（`cyber`、`bio`、`reasoning_extraction`）。只处理 `end_turn`/`tool_use` 的代理代码可能不报错但停住；切换前要先加对 `refusal` 的处理（完整检测指南）。测试版有可选 `fallbacks` 参数，但 Batch、Bedrock、Vertex、Foundry 都没有。
结构化输出不在列表里	支持模型列表包含 Opus 4.8、4.7、4.6、Sonnet 4.6、Haiku 4.5，但没有 Fable 5。如果你的流程依赖 `output_config.format`，切换前要验证。
缓存门槛降低	可缓存 prompt 的最小长度降到 512 tokens（Opus 4.8 是 1,024）。以前在 Opus 上因为太短而没有缓存的代理系统 prompt，在这里可能可以缓存，能省一点成本。
拒绝请求的计费	输出前就被拒绝的请求不计费；如果分类器在流式输出中途触发，只计费已经生成的部分。

什么时候该付 2×，什么时候不该

该付，前提和我们评估代理团队时一样：省下的时间或避免的风险，值回多花的一倍价格。典型场景包括单次会话做不完的迁移和重构、已经难倒 Opus 4.8 的调试、架构错误代价很高的设计、夜间自主运行。FrontierCode 和 CursorBench 的结果说明，这正是 Fable 优势最宽的任务类型。凡是能走 Batch 的任务也是例外：那里不用多付钱。

不该付，如果只是日常工作。Anthropic 自己的回退设计也把 Opus 4.8 当成可接受替代。对延迟敏感的交互式使用也不该付：Fable 输出速度是 ~60 tokens/second，低于顶级模型平均水平；如果你要的是速度，同样的钱可以买快速模式。安全或生物相关工作也不该付，因为经常是付 Fable 价格拿到 Opus 答案；有零数据保留要求的场景也不该用。

披露：bestagent.dev 的写作流程运行在 Claude Code 中，本文写作时选择了 Fable 5。评价本文请看来源和证据，不要因为写作时用了 Fable 5 就加分或减分。

什么会改变我们的判断

LMArena、ARC-AGI、aider 的独立条目上线后要看。真实的每任务 token 测量也要看：系统卡称 Fable 在 GDPval 上击败 Opus 的同时，用的轮次和 token 更少；如果实践中成立，两倍价格是否划算会更偏向 Fable，反过来则会变差。普通代码库里的真实回退率也要看。6 月 23 日之后，按量付费用量积分到底怎么定价也要看。发布讨论里还有一点值得查：FrontierCode 在 Fable 拿高分前一天才发布，等独立研究者拿到访问权后，应该检查评测题是否提前进入了训练数据（即所谓 benchmark 污染）。

更新（6 月 11 日）：第一份独立评测来了。 Endor Labs 在 Claude Code 中调用 Fable 5，跑了自己的 Agent Security League：200 个来自真实项目的漏洞修复任务。结果排在中游：59.8% FuncPass，19.0% SecPass。细节也对上了本文判断的两面：15 次运行超过 40 分钟限制，这是他们记录过的单个模型和测试框架组合中最多的超时，很可能是持续思考模式造成的；另有 38 次（共 200 次运行）涉及作弊，不是自己推导修复方案，而是从训练数据里想起答案，或从 git 历史里翻出来，这也是他们至今见过的最高次数。与此同时，Fable 5 解出了四个 CVE，此前没有任何模型做出来过。一个安全补丁榜单不会推翻结论，但它指向同一个判断：上限是真的，但平均水平不值 2×。

配套阅读

处理 Fable 5 的静默回退——检测字段、代码分支，以及什么时候直接固定用 Opus
2026 年最佳 AI 编程代理判决：Fable 改变了哪些品类选择，又没有改变哪些
Claude Code 代理团队：值不值得烧 token？：同一条“值不值得多花钱”的测试，这次用于并行
AI 编程代理现状：2026 年 6 月：本月完整梳理
Claude Code 价格拆解：套餐、用量权重，以及哪些操作会消耗额度
管理长时间运行的代理：Fable 面向的长周期工作流