来自第三方评测结果,结论:
> 如果你目前已经用 Claude Code 作为主力编程工具,那么新发布的 Sonnet 4.5 一定会让你开心到飞起。它更快、更稳定、更能被精准控制。
>
> 如果你已经是 GPT-5 Codex 的忠实用户,Sonnet 4.5 不一定会让你回心转意。但它对于启动新项目、玩玩「凭感觉编程」、或者需要 Claude 系列特有的「勤劳速度型」任务时,是值得一试的。
-----
Vibe 检测:Claude Sonnet 4.5
作者:Dan Shipper
发布日期:2025年9月29日
Anthropic 最近推出了全新的 Claude Sonnet 4.5。毫无意外地,我们花了整个周末让它写代码、跑长任务,尽情测试了一番。
结论先放在这里:
Sonnet 4.5 的速度明显更快,可控性更强,也更可靠。特别是在 Claude Code 环境中,比起之前的 Opus 4.1 更是提升了一大截。在直接对比测试中,它能迅速审查一个大型的代码提交,精确把控多个文件之间的逻辑关系,而且当我们要求它保持精简时,它也从不废话。
当然,在攻克最棘手的线上生产代码问题时,它还没能超越 GPT-5 Codex。不过,对于日常开发工作而言,Sonnet 4.5 已经是一个令人兴奋的进步。以下是我们第一天的「Vibe 检测」。
速度
如果你曾经在 Claude Code 或 Claude 应用里使用过 Opus,你一定会对 Sonnet 4.5 的速度感到惊喜。智能邮件应用 Cora 的总经理 Kieran Klaassen 说:“用起来比之前的 Claude 快了至少 50%。”
在一场直接对比的代码审查竞赛中,Sonnet 4.5 两分钟就审完了一个复杂功能的代码提交,而 GPT-5 Codex 完成同样任务花了约 10 分钟。
速度本身也是一种智能的体现,这种快速反馈,让 Sonnet 4.5 非常适合结对编程。
性能表现
Sonnet 4.5 在长时间、复杂的智能任务(Agentic Tasks)中表现非常出色。我把我们公司 Every 的三个重要表格——公司利润表、每周运营数据表、咨询服务追踪表——全都交给它处理。它轻松撰写出一份第三季度的投资者更新文件,我几乎不需要怎么修改就能直接发送。
Kieran 则拿 Sonnet 4.5 来处理 Cora 应用中的一个程序 bug,结果只花了约 20 分钟就成功解决了,而 Opus 4.1 完全搞不定。他甚至用 Sonnet 4.5 玩起了「凭感觉编程」(Vibe Coding)——把 Cora iOS 版代码以及一本 iOS 开发教程扔给它,不一会儿,一个不错的应用就诞生了:
📷Kieran 用 Claude Sonnet 4.5「凭感觉」编写出的 Cora iOS 应用
Sonnet 4.5 性能的提升,主要归功于以下几点:
1. 更强的可控性(Steerability)
Sonnet 4.5 更能准确理解并执行提示词里的指令,不会像之前的 Claude 一样过于「自作主张」。我们 AI 训练部门负责人 Alex Duffy 表示,这种稳定性明显提升了可靠性。
2. 处理超长上下文的能力更强
当面对大规模代码库或长篇提示时,它不会迷路,更懂得关注重点。
3. 更确定、更稳定
同一个提示多次运行后,给出的结果一致性大幅提高。这种可预测性使它更容易掌控。
4. 表达更聚焦、更精练
Kieran 认为 Sonnet 4.5 明显学习了 GPT-5 的风格,更善于直截了当地表达,少了废话,更好用。
当然,还是有一个明显的弱点:GPT-5 Codex 在复杂的生产环境代码任务中,依然比 Sonnet 4.5 更胜一筹。在一次大型代码提交的审查测试中,尽管 Sonnet 更快完成,但 Codex 找到了一个极其隐秘的边缘案例错误(edge case),而 Sonnet 没能发现。
日常使用「触手可及」的测试
判断一款 AI 工具长期能否真正有用,最直观的标准就是我们称之为「触手可及测试」:平常工作中遇到问题时,我们会第一时间想到去用这个工具吗?
• Dan 的答案:不太会
目前我的首选依旧是 ChatGPT 和 Codex CLI,日常编程里 GPT-5 Codex 的可靠性更让我放心。不过,如果我一定要用 Claude 系列,我肯定会用 Sonnet 4.5 而不是 Opus 4.1。
• Kieran 的答案:肯定会
Kieran 更喜欢 Sonnet 4.5 和 Claude Code 的组合。对他来说,「Claude Code 就像个拥有20年经验的程序员,而 Opus 4.1 更像一个有着博士学位的专家,GPT-5 Codex 则像一位脾气暴躁的资深工程师。」Claude Code 提供了比 Codex CLI 更丰富的命令行功能,比如后台任务和并行代理协调,而 Sonnet 4.5 又能很好地驾驭这些功能。
• Alex 的答案:也会
Alex 更倾向用 Sonnet 4.5 取代 Opus 4.1。Claude Code 目前依旧是他的日常首选工具,超过 Codex CLI。
最终结论
如果你目前已经用 Claude Code 作为主力编程工具,那么新发布的 Sonnet 4.5 一定会让你开心到飞起。它更快、更稳定、更能被精准控制。如果你已经是 GPT-5 Codex 的忠实用户,Sonnet 4.5 不一定会让你回心转意。但它对于启动新项目、玩玩「凭感觉编程」、或者需要 Claude 系列特有的「勤劳速度型」任务时,是值得一试的。
本文发布时,Sonnet 4.5 的定价还没正式公开,但如果延续 Sonnet 4.0 的价格(每百万输入 token 仅 3 美元),相比 Opus 系列(每百万 token 15 美元),性价比优势明显提升。不过 GPT-5 Codex 依旧更便宜。
本文作者 Dan Shipper 是 Every 的联合创始人兼 CEO。他还主持《AI & I》播客节目,并定期撰写 Chain of Thought 专栏。
点击图片查看原图
点击图片查看原图