大家好,我是子昕,一个干了10年的后端开发,现在在AI编程这条路上边冲边摸索,每天都被新技术追着跑。
今天凌晨Anthropic发布了Claude Opus 4.1
。
虽然我还没来得及深度测试(毕竟提升幅度看起来不大,短期测试很难感受到具体差异),但从官方数据和社区初步反馈来看,有些东西值得聊聊。
先看数据,再谈感受
官方放出的这个表格很有意思,我们来仔细看看:
编程能力全面领先
- SWE-bench Verified: 74.5%,比Opus 4提升2个点,领先o3整整5.4个百分点Terminal-Bench: 43.3%,这个提升就大了,从39.2%到43.3%,说明在终端操作这种更贴近实际开发的场景下进步明显
这两个指标我特别看重,因为它们测的都是真实场景,不是刷分用的toy problem。
特别是SWE-bench,用的是真实的GitHub issue,这74.5%意味着4个bug它能自己解决3个。
但也不是全面碾压
有意思的是,在一些传统的推理任务上,o3和Gemini 2.5 Pro反而更强:
- GPQA Diamond(研究生级别推理): o3以83.3%领先,Gemini也有86.4%AIME 2025(高中数学竞赛): o3和Gemini都是88%+,Claude只有78%
这说明什么?Claude在押宝实用性,而不是刷榜。 你想想,日常写代码时,你是更需要解高中奥数题的能力,还是更需要准确重构代码、修bug的能力?
TAU-bench的数据很亮眼
在Agentic tool use(智能体工具使用)这个维度:
- Retail场景:82.4%,只比Opus 4高1个点Airline场景:56.0%,反而比Opus 4低了3.6个点?
官方解释说他们调整了测试方法,增加了thinking步骤,把最大步数从30提到了100。这其实更贴近真实使用场景——让AI多思考几步,把事情做对,比快速给个错误答案强多了。
更有意思的是社区反馈:
- GitHub团队说多文件重构准确度提升明显Rakuten说它能精确定位大型代码库的bug,不会乱改不相关的代码Windsurf报告说相当于从Sonnet 3.7到Sonnet 4的提升幅度
听起来都是很实在的改进,不是那种华而不实的“智商提升”。
为什么说OpenAI压力大了?
最近有个数据挺有意思:Anthropic的API收入达到31亿美元,首次超过OpenAI。其中14亿来自Cursor和GitHub Copilot这两个AI编程工具。
这说明什么?在AI编程这个赛道,Claude已经是事实上的王者了。
你看现在国内发布新模型,都是说“接近Claude 4的水平”,没人说接近GPT-4o或o3。
Kimi k2发布时说的是用1/10的成本达到Claude 90%的效果,Qwen3 Coder、GLM-4.5也都是拿Claude当benchmark。
OpenAI最近是有点尴尬的。o3虽然在某些推理任务上很强,但价格贵得离谱,而且在实际编程场景下并没有碾压Claude。Sam Altman天天在X上吊胃口,神神秘秘的,但拿得出手的东西越来越少了。
这次升级的亮点在哪?
虽然没深度测试,但从System Card和技术文档来看,主要改进方向很明确:
1. 更精准的代码理解
不是那种“我变聪明了”的虚头巴脑的提升,而是真的能更准确理解你的意图,生成的代码更贴合项目风格。
2. 多模块协作能力
这个对大项目很重要。以前跨模块重构经常会漏改某些地方,现在据说稳定多了。等我有机会在实际项目里试试再给大家详细反馈。
3. Debug时的推理能力
官方特别提到了在复杂调试场景下,对依赖链和上下文的追踪能力有提升。这个如果是真的,那确实很实用。
怎么快速用上?
API直接升级
模型名改成 claude-opus-4-1-20250805
就行,价格没变,官方建议所有Opus 4用户都升级。
Cursor已经支持
Cursor不愧是Anthropic的大客户,第一时间就支持了。直接在模型选择里就能看到。
Claude Code直接可用
如果你在用Claude Code(我最近用得很多),已经自动升级到4.1了,不需要任何操作。
Claude官网直接可用
如果你订阅了Claude,在Claude官网同样可以直接使用Opus 4.1模型了。
国内模型还有机会吗?
说实话,我挺期待国内能出一个真正超越Claude的模型,而不是一直在后面追。
目前来看,如果不考虑成本,Claude Opus 4.1确实是最强的编程模型。但如果考虑性价比,Kimi k2和GLM-4.5也是不错的选择,对部分场景来说够用了。
DeepSeek最近比较安静,但我觉得他们在憋大招。之前DeepSeek-V3的架构创新让人眼前一亮,期待他们在编程模型上也能带来惊喜。
字节的豆包也在发力,但目前还是追赶者的角色。阿里的Qwen系列一直很稳,但缺少那种让人“哇”的突破。
最后说两句
Claude Opus 4.1这次更新,表面上看只是个小版本,但它证明了Anthropic在AI编程这条路上走得很坚定。不搞噱头,专注实用,这种风格我很欣赏。
对我们这些用AI写代码的人来说,这种持续的、渐进的改进其实比偶尔来个大新闻更重要。毕竟我们需要的是稳定可靠的生产力工具,而不是PPT里的黑科技。
等我在实际项目中用一段时间,再来给大家详细评测。如果你想尝鲜,API和各种工具都已经支持了,可以试试。