掘金 人工智能 4小时前
Claude Opus 4.1发布了,OpenAI的压力又大了
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Anthropic发布了Claude Opus 4.1,在AI编程领域展现出显著提升。与Opus 4相比,其在SWE-bench和Terminal-Bench等真实开发场景的测试中表现更优,能够更准确地理解代码、进行多模块重构和精确定位bug。虽然在传统推理任务上略逊于部分竞品,但Opus 4.1更侧重实用性,在AI编程赛道上巩固了其领先地位。此次更新不仅在API和Claude Code中自动支持,也为国内AI编程模型的发展提供了新的标杆。

🌟 **编程能力全面提升,真实场景表现亮眼**:Claude Opus 4.1在SWE-bench(真实GitHub issue解决率74.5%)和Terminal-Bench(43.3%)等实际开发场景中取得了显著进步,表明其在代码重构、bug修复等方面的能力得到加强,更贴近开发者日常需求。

💡 **侧重实用而非理论,符合开发者痛点**:相较于在研究生级别推理(GPQA Diamond)和数学竞赛(AIME 2025)等传统任务上的表现,Opus 4.1在编程任务上的优势更明显,这反映了Anthropic押宝实际应用价值,而非单纯追求理论上的“刷榜”。

🚀 **Agentic tool use优化,多步思考能力增强**:在Agentic tool use(智能体工具使用)方面,虽然某些场景数据有所波动,但官方调整了测试方法,增加了思考步骤(从30到100),旨在让AI更深入地理解和执行任务,这更符合真实使用需求。

📈 **多文件重构与bug定位准确性提升**:社区反馈显示,Opus 4.1在多文件重构的准确性和对大型代码库bug的精确定位方面有明显改进,能够减少不必要的代码修改,提升开发效率。

💰 **API收入领先,引领AI编程赛道**:Anthropic的API收入已超越OpenAI,其中AI编程工具贡献显著,这表明Claude在AI编程领域已成为事实上的领导者,国内新模型也纷纷以其为标杆。

大家好,我是子昕,一个干了10年的后端开发,现在在AI编程这条路上边冲边摸索,每天都被新技术追着跑。

今天凌晨Anthropic发布了Claude Opus 4.1

虽然我还没来得及深度测试(毕竟提升幅度看起来不大,短期测试很难感受到具体差异),但从官方数据和社区初步反馈来看,有些东西值得聊聊。

先看数据,再谈感受

官方放出的这个表格很有意思,我们来仔细看看:

编程能力全面领先

这两个指标我特别看重,因为它们测的都是真实场景,不是刷分用的toy problem。

特别是SWE-bench,用的是真实的GitHub issue,这74.5%意味着4个bug它能自己解决3个。

但也不是全面碾压

有意思的是,在一些传统的推理任务上,o3和Gemini 2.5 Pro反而更强:

这说明什么?Claude在押宝实用性,而不是刷榜。 你想想,日常写代码时,你是更需要解高中奥数题的能力,还是更需要准确重构代码、修bug的能力?

TAU-bench的数据很亮眼

在Agentic tool use(智能体工具使用)这个维度:

官方解释说他们调整了测试方法,增加了thinking步骤,把最大步数从30提到了100。这其实更贴近真实使用场景——让AI多思考几步,把事情做对,比快速给个错误答案强多了。

更有意思的是社区反馈:

听起来都是很实在的改进,不是那种华而不实的“智商提升”。

为什么说OpenAI压力大了?

最近有个数据挺有意思:Anthropic的API收入达到31亿美元,首次超过OpenAI。其中14亿来自Cursor和GitHub Copilot这两个AI编程工具。

这说明什么?在AI编程这个赛道,Claude已经是事实上的王者了。

你看现在国内发布新模型,都是说“接近Claude 4的水平”,没人说接近GPT-4o或o3。

Kimi k2发布时说的是用1/10的成本达到Claude 90%的效果,Qwen3 Coder、GLM-4.5也都是拿Claude当benchmark。

OpenAI最近是有点尴尬的。o3虽然在某些推理任务上很强,但价格贵得离谱,而且在实际编程场景下并没有碾压Claude。Sam Altman天天在X上吊胃口,神神秘秘的,但拿得出手的东西越来越少了。

这次升级的亮点在哪?

虽然没深度测试,但从System Card和技术文档来看,主要改进方向很明确:

1. 更精准的代码理解

不是那种“我变聪明了”的虚头巴脑的提升,而是真的能更准确理解你的意图,生成的代码更贴合项目风格。

2. 多模块协作能力

这个对大项目很重要。以前跨模块重构经常会漏改某些地方,现在据说稳定多了。等我有机会在实际项目里试试再给大家详细反馈。

3. Debug时的推理能力

官方特别提到了在复杂调试场景下,对依赖链和上下文的追踪能力有提升。这个如果是真的,那确实很实用。

怎么快速用上?

API直接升级

模型名改成 claude-opus-4-1-20250805 就行,价格没变,官方建议所有Opus 4用户都升级。

Cursor已经支持

Cursor不愧是Anthropic的大客户,第一时间就支持了。直接在模型选择里就能看到。

Claude Code直接可用

如果你在用Claude Code(我最近用得很多),已经自动升级到4.1了,不需要任何操作。

Claude官网直接可用

如果你订阅了Claude,在Claude官网同样可以直接使用Opus 4.1模型了。

国内模型还有机会吗?

说实话,我挺期待国内能出一个真正超越Claude的模型,而不是一直在后面追。

目前来看,如果不考虑成本,Claude Opus 4.1确实是最强的编程模型。但如果考虑性价比,Kimi k2和GLM-4.5也是不错的选择,对部分场景来说够用了。

DeepSeek最近比较安静,但我觉得他们在憋大招。之前DeepSeek-V3的架构创新让人眼前一亮,期待他们在编程模型上也能带来惊喜。

字节的豆包也在发力,但目前还是追赶者的角色。阿里的Qwen系列一直很稳,但缺少那种让人“哇”的突破。

最后说两句

Claude Opus 4.1这次更新,表面上看只是个小版本,但它证明了Anthropic在AI编程这条路上走得很坚定。不搞噱头,专注实用,这种风格我很欣赏。

对我们这些用AI写代码的人来说,这种持续的、渐进的改进其实比偶尔来个大新闻更重要。毕竟我们需要的是稳定可靠的生产力工具,而不是PPT里的黑科技。

等我在实际项目中用一段时间,再来给大家详细评测。如果你想尝鲜,API和各种工具都已经支持了,可以试试。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Claude Opus 4.1 AI编程 模型评测 软件开发 Anthropic
相关文章