Claude Fable 5 对比 Opus 4.8:提升是真的,评测表混了两个模型,价格翻倍怎么算
Fable 5 是 Claude 第一个高于 Opus 的档位。编码提升是真的,发布当天就有独立复现;但发布图表里有些数字属于你买不到的 Mythos 5,新限制也主要影响代理用户。下面把每个数字放回正确的模型。
Anthropic 在 6 月 9 日发布了 Claude Fable 5。它不是新的 Opus,而是 Opus 之上的新档位。公告把它解释为:一个已经做成可供普通用户安全使用的 Mythos 级模型(原文: “a Mythos-class model that we’ve made safe for general use”)。发布图表显示,它几乎在每个编码和面向代理任务的评测上都排第一。
多数报道直接转载了那张表。和我们核对Claude Code 代理团队:值不值得烧 token?里的成本数字时一样,我们先确认每个数字到底对应哪个模型。有些最显眼的分数属于 Claude Mythos 5:这是同一底层模型,但不带 Fable 的安全检查,只卖给通过审核的客户。下面所有事实都来自一手文档,统一放在文末「来源」里。
30 秒结论
- 编码提升是真的。 SWE-bench Verified 95.0%,对比 Opus 4.8 的 88.6%;独立评测机构 Vals AI 在发布当天用自己的测试设置也测到 95.0%,排名 #1。厂商最显眼的结论能在发布当天被第三方确认,并不常见。
- 有些分数不属于 Fable。 在 Terminal-Bench 2.1 上,发布图表里的 88.0% 属于 Mythos 5。你能买到的 Fable 5 得分是 84.3%,并且 20.9% 的测试运行触发了安全拒绝,任务中途回退到 Opus 4.8。Anthropic 确实披露了这点,但位置在系统卡(system card,模型的官方技术说明)第 255 页。
- 价格是 Opus 4.8 的 2×:每百万 token $10/$50,对比 $5/$25;这也正好等于 Opus 4.8 的快速模式价格。同一笔钱,两种升级:要速度,还是要能力。最省钱的方式是批量接口(Batch API):$5/$25。如果你能等异步结果,就能用 Opus 4.8 的价格用到 Fable 5 的能力。
- 代理用户要先看限制: 数据强制保留 30 天,没有零数据保留选项;速率限制独立且更低;拒绝会作为普通 HTTP 200 响应返回;思考不能关闭;结构化输出不在支持列表里。
如果工作很日常,半价的 Opus 4.8 仍然是正确默认值。如果一次失败会浪费你一个下午,Fable 5 是我们第一个会说「值得付两倍价格」的模型。这个判断只适用于这类任务,而且依据是证据,不是主观感觉。
Fable 5 到底是什么
Anthropic 以前的模型名字是 Haiku、Sonnet、Opus,名字都取自诗体(俳句、十四行诗、长诗)。Mythos-class 是 Opus 之上的新档位,这次发布成两个版本:claude-mythos-5(完整能力,只给 Project Glasswing 客户)和 claude-fable-5(同一底层模型,加安全分类器,公开可用)。按 Anthropic 的说法,Fable 来自拉丁语 fabula,和希腊语 mythos 有亲缘关系;安全检查就是两个版本的全部差别。
这些检查很具体:分类器会识别攻击性网络安全请求、可能危险的生物/化学请求、以及试图提取模型能力的请求。一旦分类器触发,Claude Code 这类应用会自动改用 Opus 4.8 重试;直接 API 调用则会被 stop_reason: "refusal" 阻断。Anthropic 说平均不到 5% 的会话会触发,但安全相关工作会高得多,后面会看到。
规格:默认 1M-token 上下文窗口(长上下文不额外收费)、128K 最大输出、和 Opus 4.8 相同的分词器,模型 ID 是 claude-fable-5。
评测数字:按你真正能买到的模型分清楚
如果让我们替换发布图表,会是下面这张表:官方数字不变,但把可购买的 Fable 5 单独放一列。
| 评测 | Fable 5 | Opus 4.8 | GPT-5.5 | Gemini 3.1 Pro |
|---|---|---|---|---|
| SWE-bench Verified | 95.0 | 88.6 | — | 80.6 |
| SWE-bench Pro | 80.0 | 69.2 | 58.6 | 54.2 |
| Terminal-Bench 2.1 | 84.3* | 82.7 | 83.4 | 70.7 |
| FrontierCode (Diamond) | 29.3 | 13.4 | 5.7 | — |
| OSWorld-Verified | 85.0 | 83.4 | 78.7 | 76.2 |
| GDPval-AA (Elo) | 1932 | 1890 | 1769 | 1314 |
这些数字比常见发布图表更值得信任,有三个原因:
- 同一天就有独立确认。 Vals AI 用自己的测试设置跑 SWE-bench Verified:Fable 95.0%,排名 #1,高于 Opus 4.8(88.6%)和 GPT-5.5(82.6%)。Artificial Analysis 也把它列为智能指数第一;并测到 Fable 在 2% 的测试任务上回退到 Opus 4.8,所以安全回退在那里也拉低了分数。
- Anthropic 也公开了 Fable 5 输给 Opus 4.8 的结果。 在 Vending-Bench 2 上,Fable 最好的一次低于 Opus 4.8($5,680 vs $5,787);MCP Atlas 的提升也小到几乎可以忽略(83.3 vs 82.2)。一张包含较弱结果的表,比只展示胜利的表更可信。
- 提升主要出现在最难的评测。 在分数已接近上限的评测里提升不大;在最难的评测里提升明显。FrontierCode Diamond 不止翻倍(29.3 vs 13.4),CursorBench 达到 72.9%,高于 GPT-5.5 已发布的最好成绩 64.3%。这更像真实能力提高,而不是只针对排行榜优化。
缺失项也重要:Fable 还没有进入 LMArena、ARC-AGI 或 aider 排行榜。按我们的评测原则,等独立结果发布后我们会更新。目前的实际使用反馈还只是主观印象,不是系统测量。Simon Willison 的说法是“它很强”(原文: “it’s a beast”);Karpathy 的说法是“值得大版本号升级的一次明显跃迁”(原文: “a major-version-bump-deserving step change forward”)。
价格怎么算
| 模型 | 输入 /MTok | 输出 /MTok | 这意味着什么 |
|---|---|---|---|
| Claude Fable 5 | $10 | $50 | 新的最高档模型 |
| Claude Fable 5(Batch) | $5 | $25 | Fable 水平,Opus 4.8 价格,结果在 ~24h 内返回 |
| Claude Opus 4.8 | $5 | $25 | 默认选择 |
| Claude Opus 4.8(快速模式) | $10 | $50 | 和 Fable 同价,买的是速度 |
| OpenAI GPT-5.5 | $5 | $30 | 输入价格是 Fable 的一半 |
| Gemini 3.1 Pro | $2 | $12 | 输入价格是 Fable 的五分之一 |
比标价更重要的是:
- 批量接口最省钱。 通过 Batch API 使用 Fable,价格正好等于交互式 Opus 4.8。夜间重构、批量评测、大规模代码审查,只要能等,最高档模型就不用多付钱。
- 成本主要由思考强度(effort)决定,仅这一项就能差 7.5 倍。 思考始终开启,而思考强度会显著改变花费:Simon Willison 测到同一次生成,低强度是 $0.10,最高强度是 $0.72。Anthropic 的建议是默认
high;即使 Fable 使用较低强度,也常常超过旧模型的最高设置。 - 订阅用户要注意 6 月 22 日和 6 月 23 日两个日期。 Fable 只在 6 月 22 日前包含在 Pro/Max/Team 套餐里,并按 2× 用量权重计算;从 6 月 23 日开始,需要按量付费用量积分。如果你的用量上限已经紧,Fable 会让额度消耗速度翻倍。
在 Claude Code 里
- 用
/model fable选择它,也可以选best。需要 v2.1.170+;它不是默认模型。 - 它适合单次会话做不完的大任务:说明你想要的结果,而不是一步步指挥;把模糊问题交给它;不用反复提醒它自查(高强度下它会自己验证),关键结果仍建议自己确认。
- 思考不能关闭。 会话开关、
alwaysThinkingEnabled和MAX_THINKING_TOKENS=0都不会影响 Fable。 - 安全类任务经常自动回退到 Opus 4.8。 渗透测试、CTF 练习、生物相关代码库会触发安全分类器,官方文档说常常第一条请求就触发(原文: “often on the first request”)。结果是:付 Fable 的价格,拿到 Opus 的答案。这类工作直接留在 Opus 4.8。
代理构建者要先检查的限制
| 限制 | 这对你意味着什么 |
|---|---|
| 30 天数据保留 | Fable 是 “Covered Model”:所有流量都会保留 30 天,零数据保留协议不适用。如果你的合同要求 ZDR,Fable 就不能用。这条限制到了 Amazon Bedrock 也一样:AWS 官方发布博客写明,Mythos 级流量必须保留数据;一旦你选择加入,你的数据会离开 AWS 的数据与安全边界(原文:“your data will leave AWS’s data and security boundary”)。 |
| 独立且更低的速率限制 | Fable 不共享 Opus 的限额池:Tier 4 是每分钟 4M 输入 token,而 Opus 池是 10M。大规模多代理并发会最先受影响;发布第一天就有人报告限流错误。 |
| 拒绝是响应,不是错误 | 被阻断的请求会返回 HTTP 200,并带 stop_reason: "refusal" 和分类(cyber、bio、reasoning_extraction)。只处理 end_turn/tool_use 的代理代码可能不报错但停住;切换前要先加对 refusal 的处理(完整检测指南)。测试版有可选 fallbacks 参数,但 Batch、Bedrock、Vertex、Foundry 都没有。 |
| 结构化输出不在列表里 | 支持模型列表包含 Opus 4.8、4.7、4.6、Sonnet 4.6、Haiku 4.5,但没有 Fable 5。如果你的流程依赖 output_config.format,切换前要验证。 |
| 缓存门槛降低 | 可缓存 prompt 的最小长度降到 512 tokens(Opus 4.8 是 1,024)。以前在 Opus 上因为太短而没有缓存的代理系统 prompt,在这里可能可以缓存,能省一点成本。 |
| 拒绝请求的计费 | 输出前就被拒绝的请求不计费;如果分类器在流式输出中途触发,只计费已经生成的部分。 |
什么时候该付 2×,什么时候不该
该付,前提和我们评估代理团队时一样:省下的时间或避免的风险,值回多花的一倍价格。典型场景包括单次会话做不完的迁移和重构、已经难倒 Opus 4.8 的调试、架构错误代价很高的设计、夜间自主运行。FrontierCode 和 CursorBench 的结果说明,这正是 Fable 优势最宽的任务类型。凡是能走 Batch 的任务也是例外:那里不用多付钱。
不该付,如果只是日常工作。Anthropic 自己的回退设计也把 Opus 4.8 当成可接受替代。对延迟敏感的交互式使用也不该付:Fable 输出速度是 ~60 tokens/second,低于顶级模型平均水平;如果你要的是速度,同样的钱可以买快速模式。安全或生物相关工作也不该付,因为经常是付 Fable 价格拿到 Opus 答案;有零数据保留要求的场景也不该用。
披露:bestagent.dev 的写作流程运行在 Claude Code 中,本文写作时选择了 Fable 5。评价本文请看来源和证据,不要因为写作时用了 Fable 5 就加分或减分。
什么会改变我们的判断
LMArena、ARC-AGI、aider 的独立条目上线后要看。真实的每任务 token 测量也要看:系统卡称 Fable 在 GDPval 上击败 Opus 的同时,用的轮次和 token 更少;如果实践中成立,两倍价格是否划算会更偏向 Fable,反过来则会变差。普通代码库里的真实回退率也要看。6 月 23 日之后,按量付费用量积分到底怎么定价也要看。发布讨论里还有一点值得查:FrontierCode 在 Fable 拿高分前一天才发布,等独立研究者拿到访问权后,应该检查评测题是否提前进入了训练数据(即所谓 benchmark 污染)。
配套阅读
- 处理 Fable 5 的静默回退——检测字段、代码分支,以及什么时候直接固定用 Opus
- 2026 年最佳 AI 编程代理判决:Fable 改变了哪些品类选择,又没有改变哪些
- Claude Code 代理团队:值不值得烧 token?:同一条“值不值得多花钱”的测试,这次用于并行
- AI 编程代理现状:2026 年 6 月:本月完整梳理
- Claude Code 价格拆解:套餐、用量权重,以及哪些操作会消耗额度
- 管理长时间运行的代理:Fable 面向的长周期工作流
来源
- Anthropic — Claude Fable 5 和 Claude Mythos 5(公告)
- Anthropic — Fable 5 & Mythos 5 系统卡(PDF;评测第 252–262 页)
- Anthropic 文档 — 模型概览
- Anthropic 文档 — 介绍 Fable 5 和 Mythos 5
- Anthropic 文档 — 定价
- Anthropic 文档 — 迁移指南
- Anthropic 文档 — 速率限制
- Anthropic 文档 — 结构化输出(支持模型)
- Claude Code 文档 — 模型配置
- Vals AI — SWE-bench Verified 排行榜(独立评测)
- Artificial Analysis — Claude Fable 5(独立评测)
- Hacker News — 发布讨论串
- Simon Willison — 首日成本笔记
- OpenAI — API 定价
- Google — Gemini API 定价
- AWS — Claude Fable 5 发布博客(Bedrock 数据保留要求)