Claude Opus 4.1发布了，OpenAI的压力又大了

大家好，我是子昕，一个干了10年的后端开发，现在在AI编程这条路上边冲边摸索，每天都被新技术追着跑。

今天凌晨Anthropic发布了Claude Opus 4.1。

虽然我还没来得及深度测试（毕竟提升幅度看起来不大，短期测试很难感受到具体差异），但从官方数据和社区初步反馈来看，有些东西值得聊聊。

先看数据，再谈感受

官方放出的这个表格很有意思，我们来仔细看看：

编程能力全面领先

SWE-bench Verified

Terminal-Bench

这两个指标我特别看重，因为它们测的都是真实场景，不是刷分用的toy problem。

特别是SWE-bench，用的是真实的GitHub issue，这74.5%意味着4个bug它能自己解决3个。

但也不是全面碾压

有意思的是，在一些传统的推理任务上，o3和Gemini 2.5 Pro反而更强：

GPQA Diamond

AIME 2025

这说明什么？Claude在押宝实用性，而不是刷榜。 你想想，日常写代码时，你是更需要解高中奥数题的能力，还是更需要准确重构代码、修bug的能力？

TAU-bench的数据很亮眼

在Agentic tool use（智能体工具使用）这个维度：

Retail场景：82.4%，只比Opus 4高1个点Airline场景：56.0%，反而比Opus 4低了3.6个点？

官方解释说他们调整了测试方法，增加了thinking步骤，把最大步数从30提到了100。这其实更贴近真实使用场景——让AI多思考几步，把事情做对，比快速给个错误答案强多了。

更有意思的是社区反馈：

GitHub团队说多文件重构准确度提升明显Rakuten说它能精确定位大型代码库的bug，不会乱改不相关的代码Windsurf报告说相当于从Sonnet 3.7到Sonnet 4的提升幅度

听起来都是很实在的改进，不是那种华而不实的“智商提升”。

为什么说OpenAI压力大了？

最近有个数据挺有意思：Anthropic的API收入达到31亿美元，首次超过OpenAI。其中14亿来自Cursor和GitHub Copilot这两个AI编程工具。

这说明什么？在AI编程这个赛道，Claude已经是事实上的王者了。

你看现在国内发布新模型，都是说“接近Claude 4的水平”，没人说接近GPT-4o或o3。

Kimi k2发布时说的是用1/10的成本达到Claude 90%的效果，Qwen3 Coder、GLM-4.5也都是拿Claude当benchmark。

OpenAI最近是有点尴尬的。o3虽然在某些推理任务上很强，但价格贵得离谱，而且在实际编程场景下并没有碾压Claude。Sam Altman天天在X上吊胃口，神神秘秘的，但拿得出手的东西越来越少了。

这次升级的亮点在哪？

虽然没深度测试，但从System Card和技术文档来看，主要改进方向很明确：

1. 更精准的代码理解

不是那种“我变聪明了”的虚头巴脑的提升，而是真的能更准确理解你的意图，生成的代码更贴合项目风格。

2. 多模块协作能力

这个对大项目很重要。以前跨模块重构经常会漏改某些地方，现在据说稳定多了。等我有机会在实际项目里试试再给大家详细反馈。

3. Debug时的推理能力

官方特别提到了在复杂调试场景下，对依赖链和上下文的追踪能力有提升。这个如果是真的，那确实很实用。

怎么快速用上？

API直接升级

模型名改成 claude-opus-4-1-20250805 就行，价格没变，官方建议所有Opus 4用户都升级。

Cursor已经支持

Cursor不愧是Anthropic的大客户，第一时间就支持了。直接在模型选择里就能看到。

Claude Code直接可用

如果你在用Claude Code（我最近用得很多），已经自动升级到4.1了，不需要任何操作。

Claude官网直接可用

如果你订阅了Claude，在Claude官网同样可以直接使用Opus 4.1模型了。

国内模型还有机会吗？

说实话，我挺期待国内能出一个真正超越Claude的模型，而不是一直在后面追。

目前来看，如果不考虑成本，Claude Opus 4.1确实是最强的编程模型。但如果考虑性价比，Kimi k2和GLM-4.5也是不错的选择，对部分场景来说够用了。

DeepSeek最近比较安静，但我觉得他们在憋大招。之前DeepSeek-V3的架构创新让人眼前一亮，期待他们在编程模型上也能带来惊喜。

字节的豆包也在发力，但目前还是追赶者的角色。阿里的Qwen系列一直很稳，但缺少那种让人“哇”的突破。

最后说两句

Claude Opus 4.1这次更新，表面上看只是个小版本，但它证明了Anthropic在AI编程这条路上走得很坚定。不搞噱头，专注实用，这种风格我很欣赏。

对我们这些用AI写代码的人来说，这种持续的、渐进的改进其实比偶尔来个大新闻更重要。毕竟我们需要的是稳定可靠的生产力工具，而不是PPT里的黑科技。

等我在实际项目中用一段时间，再来给大家详细评测。如果你想尝鲜，API和各种工具都已经支持了，可以试试。