← 返回全部文章
Verdict · 2026年6月9日 · 7 分钟阅读

Claude Fable 5 对比 Opus 4.8:提升是真的,评测表混了两个模型,价格翻倍怎么算

Fable 5Claude 第一个高于 Opus 的档位。编码提升是真的,发布当天就有独立复现;但发布图表里有些数字属于你买不到的 Mythos 5,新限制也主要影响代理用户。下面把每个数字放回正确的模型。

Anthropic 在 6 月 9 日发布了 Claude Fable 5。它不是新的 Opus,而是 Opus 之上的新档位。公告把它解释为:一个已经做成可供普通用户安全使用的 Mythos 级模型(原文: “a Mythos-class model that we’ve made safe for general use”)。发布图表显示,它几乎在每个编码和面向代理任务的评测上都排第一。

多数报道直接转载了那张表。和我们核对Claude Code 代理团队:值不值得烧 token?里的成本数字时一样,我们先确认每个数字到底对应哪个模型。有些最显眼的分数属于 Claude Mythos 5:这是同一底层模型,但不带 Fable 的安全检查,只卖给通过审核的客户。下面所有事实都来自一手文档,统一放在文末「来源」里。

30 秒结论

  • 编码提升是真的。 SWE-bench Verified 95.0%,对比 Opus 4.8 的 88.6%;独立评测机构 Vals AI 在发布当天用自己的测试设置也测到 95.0%,排名 #1。厂商最显眼的结论能在发布当天被第三方确认,并不常见。
  • 有些分数不属于 Fable。 在 Terminal-Bench 2.1 上,发布图表里的 88.0% 属于 Mythos 5。你能买到的 Fable 5 得分是 84.3%,并且 20.9% 的测试运行触发了安全拒绝,任务中途回退到 Opus 4.8。Anthropic 确实披露了这点,但位置在系统卡(system card,模型的官方技术说明)第 255 页。
  • 价格是 Opus 4.8 的 2×:每百万 token $10/$50,对比 $5/$25;这也正好等于 Opus 4.8快速模式价格。同一笔钱,两种升级:要速度,还是要能力。最省钱的方式是批量接口(Batch API):$5/$25。如果你能等异步结果,就能用 Opus 4.8 的价格用到 Fable 5 的能力。
  • 代理用户要先看限制: 数据强制保留 30 天,没有零数据保留选项;速率限制独立且更低;拒绝会作为普通 HTTP 200 响应返回;思考不能关闭;结构化输出不在支持列表里。

如果工作很日常,半价的 Opus 4.8 仍然是正确默认值。如果一次失败会浪费你一个下午,Fable 5 是我们第一个会说「值得付两倍价格」的模型。这个判断只适用于这类任务,而且依据是证据,不是主观感觉。

Fable 5 到底是什么

Anthropic 以前的模型名字是 Haiku、Sonnet、Opus,名字都取自诗体(俳句、十四行诗、长诗)。Mythos-class 是 Opus 之上的新档位,这次发布成两个版本:claude-mythos-5(完整能力,只给 Project Glasswing 客户)和 claude-fable-5(同一底层模型,加安全分类器,公开可用)。按 Anthropic 的说法,Fable 来自拉丁语 fabula,和希腊语 mythos 有亲缘关系;安全检查就是两个版本的全部差别。

这些检查很具体:分类器会识别攻击性网络安全请求、可能危险的生物/化学请求、以及试图提取模型能力的请求。一旦分类器触发,Claude Code 这类应用会自动改用 Opus 4.8 重试;直接 API 调用则会被 stop_reason: "refusal" 阻断。Anthropic 说平均不到 5% 的会话会触发,但安全相关工作会高得多,后面会看到。

规格:默认 1M-token 上下文窗口(长上下文不额外收费)、128K 最大输出、和 Opus 4.8 相同的分词器,模型 ID 是 claude-fable-5

评测数字:按你真正能买到的模型分清楚

如果让我们替换发布图表,会是下面这张表:官方数字不变,但把可购买的 Fable 5 单独放一列。

评测Fable 5Opus 4.8GPT-5.5Gemini 3.1 Pro
SWE-bench Verified95.088.680.6
SWE-bench Pro80.069.258.654.2
Terminal-Bench 2.184.3*82.783.470.7
FrontierCode (Diamond)29.313.45.7
OSWorld-Verified85.083.478.776.2
GDPval-AA (Elo)1932189017691314
Anthropic 报告的数字(系统卡,2026 年 6 月 9 日)。*在 Terminal-Bench 上,发布图表里的 88.0% 是 Mythos 5Fable 5 得分 84.3%,20.9% 的测试运行触发安全拒绝,被迫回退到 Opus 4.8(第 255 页)。Anthropic 自己说明:Fable 的分数“反映了线上版本的安全防护”(原文: “reflect its production safeguards”)。

这些数字比常见发布图表更值得信任,有三个原因:

  1. 同一天就有独立确认。 Vals AI 用自己的测试设置跑 SWE-bench Verified:Fable 95.0%,排名 #1,高于 Opus 4.8(88.6%)和 GPT-5.5(82.6%)。Artificial Analysis 也把它列为智能指数第一;并测到 Fable 在 2% 的测试任务上回退到 Opus 4.8,所以安全回退在那里也拉低了分数。
  2. Anthropic 也公开了 Fable 5 输给 Opus 4.8 的结果。 在 Vending-Bench 2 上,Fable 最好的一次低于 Opus 4.8($5,680 vs $5,787);MCP Atlas 的提升也小到几乎可以忽略(83.3 vs 82.2)。一张包含较弱结果的表,比只展示胜利的表更可信。
  3. 提升主要出现在最难的评测。 在分数已接近上限的评测里提升不大;在最难的评测里提升明显。FrontierCode Diamond 不止翻倍(29.3 vs 13.4),CursorBench 达到 72.9%,高于 GPT-5.5 已发布的最好成绩 64.3%。这更像真实能力提高,而不是只针对排行榜优化。

缺失项也重要:Fable 还没有进入 LMArena、ARC-AGI 或 aider 排行榜。按我们的评测原则,等独立结果发布后我们会更新。目前的实际使用反馈还只是主观印象,不是系统测量。Simon Willison 的说法是“它很强”(原文: “it’s a beast”);Karpathy 的说法是“值得大版本号升级的一次明显跃迁”(原文: “a major-version-bump-deserving step change forward”)。

价格怎么算

模型输入 /MTok输出 /MTok这意味着什么
Claude Fable 5$10$50新的最高档模型
Claude Fable 5(Batch)$5$25Fable 水平,Opus 4.8 价格,结果在 ~24h 内返回
Claude Opus 4.8$5$25默认选择
Claude Opus 4.8(快速模式)$10$50和 Fable 同价,买的是速度
OpenAI GPT-5.5$5$30输入价格是 Fable 的一半
Gemini 3.1 Pro$2$12输入价格是 Fable 的五分之一
官方厂商定价页,2026 年 6 月 9 日。Artificial Analysis 曾短暂把 Fable 输入价列为 $12.50/MTok;这和 Anthropic 官方 $10 冲突,所以这里采用一手来源。

比标价更重要的是:

  • 批量接口最省钱。 通过 Batch API 使用 Fable,价格正好等于交互式 Opus 4.8。夜间重构、批量评测、大规模代码审查,只要能等,最高档模型就不用多付钱。
  • 成本主要由思考强度(effort)决定,仅这一项就能差 7.5 倍。 思考始终开启,而思考强度会显著改变花费:Simon Willison 测到同一次生成,低强度是 $0.10,最高强度是 $0.72。Anthropic 的建议是默认 high;即使 Fable 使用较低强度,也常常超过旧模型的最高设置。
  • 订阅用户要注意 6 月 22 日和 6 月 23 日两个日期。 Fable 只在 6 月 22 日前包含在 Pro/Max/Team 套餐里,并按 2× 用量权重计算;从 6 月 23 日开始,需要按量付费用量积分。如果你的用量上限已经紧,Fable 会让额度消耗速度翻倍。

Claude Code

  • /model fable 选择它,也可以选 best。需要 v2.1.170+;它不是默认模型。
  • 它适合单次会话做不完的大任务:说明你想要的结果,而不是一步步指挥;把模糊问题交给它;不用反复提醒它自查(高强度下它会自己验证),关键结果仍建议自己确认。
  • 思考不能关闭。 会话开关、alwaysThinkingEnabledMAX_THINKING_TOKENS=0 都不会影响 Fable。
  • 安全类任务经常自动回退到 Opus 4.8 渗透测试、CTF 练习、生物相关代码库会触发安全分类器,官方文档说常常第一条请求就触发(原文: “often on the first request”)。结果是:付 Fable 的价格,拿到 Opus 的答案。这类工作直接留在 Opus 4.8

代理构建者要先检查的限制

限制这对你意味着什么
30 天数据保留Fable 是 “Covered Model”:所有流量都会保留 30 天,零数据保留协议不适用。如果你的合同要求 ZDR,Fable 就不能用。这条限制到了 Amazon Bedrock 也一样:AWS 官方发布博客写明,Mythos 级流量必须保留数据;一旦你选择加入,你的数据会离开 AWS 的数据与安全边界(原文:“your data will leave AWS’s data and security boundary”)。
独立且更低的速率限制Fable 不共享 Opus 的限额池:Tier 4 是每分钟 4M 输入 token,而 Opus 池是 10M。大规模多代理并发会最先受影响;发布第一天就有人报告限流错误。
拒绝是响应,不是错误被阻断的请求会返回 HTTP 200,并带 stop_reason: "refusal" 和分类(cyberbioreasoning_extraction)。只处理 end_turn/tool_use 的代理代码可能不报错但停住;切换前要先加对 refusal 的处理(完整检测指南)。测试版有可选 fallbacks 参数,但 Batch、Bedrock、Vertex、Foundry 都没有。
结构化输出不在列表里支持模型列表包含 Opus 4.8、4.7、4.6、Sonnet 4.6Haiku 4.5,但没有 Fable 5。如果你的流程依赖 output_config.format,切换前要验证。
缓存门槛降低可缓存 prompt 的最小长度降到 512 tokens(Opus 4.8 是 1,024)。以前在 Opus 上因为太短而没有缓存的代理系统 prompt,在这里可能可以缓存,能省一点成本。
拒绝请求的计费输出前就被拒绝的请求不计费;如果分类器在流式输出中途触发,只计费已经生成的部分。

什么时候该付 2×,什么时候不该

该付,前提和我们评估代理团队时一样:省下的时间或避免的风险,值回多花的一倍价格。典型场景包括单次会话做不完的迁移和重构、已经难倒 Opus 4.8 的调试、架构错误代价很高的设计、夜间自主运行。FrontierCode 和 CursorBench 的结果说明,这正是 Fable 优势最宽的任务类型。凡是能走 Batch 的任务也是例外:那里不用多付钱。

不该付,如果只是日常工作。Anthropic 自己的回退设计也把 Opus 4.8 当成可接受替代。对延迟敏感的交互式使用也不该付:Fable 输出速度是 ~60 tokens/second,低于顶级模型平均水平;如果你要的是速度,同样的钱可以买快速模式。安全或生物相关工作也不该付,因为经常是付 Fable 价格拿到 Opus 答案;有零数据保留要求的场景也不该用。

披露:bestagent.dev 的写作流程运行在 Claude Code 中,本文写作时选择了 Fable 5。评价本文请看来源和证据,不要因为写作时用了 Fable 5 就加分或减分。

什么会改变我们的判断

LMArena、ARC-AGI、aider 的独立条目上线后要看。真实的每任务 token 测量也要看:系统卡称 Fable 在 GDPval 上击败 Opus 的同时,用的轮次和 token 更少;如果实践中成立,两倍价格是否划算会更偏向 Fable,反过来则会变差。普通代码库里的真实回退率也要看。6 月 23 日之后,按量付费用量积分到底怎么定价也要看。发布讨论里还有一点值得查:FrontierCode 在 Fable 拿高分前一天才发布,等独立研究者拿到访问权后,应该检查评测题是否提前进入了训练数据(即所谓 benchmark 污染)。

配套阅读

来源

  1. Anthropic — Claude Fable 5Claude Mythos 5(公告)
  2. Anthropic — Fable 5 & Mythos 5 系统卡(PDF;评测第 252–262 页)
  3. Anthropic 文档 — 模型概览
  4. Anthropic 文档 — 介绍 Fable 5Mythos 5
  5. Anthropic 文档 — 定价
  6. Anthropic 文档 — 迁移指南
  7. Anthropic 文档 — 速率限制
  8. Anthropic 文档 — 结构化输出(支持模型)
  9. Claude Code 文档 — 模型配置
  10. Vals AI — SWE-bench Verified 排行榜(独立评测)
  11. Artificial AnalysisClaude Fable 5(独立评测)
  12. Hacker News — 发布讨论串
  13. Simon Willison — 首日成本笔记
  14. OpenAI — API 定价
  15. Google — Gemini API 定价
  16. AWS — Claude Fable 5 发布博客(Bedrock 数据保留要求)

相关阅读


文章独立产出 · 编辑政策

继续阅读 →