掘金 人工智能 前天 17:03
Claude Opus 4.1 代码实测惊人!OpenAI 开源模型却只会写屎山?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

近期AI界硝烟四起,OpenAI兑现开源承诺,发布了可在手机、电脑本地运行的OpenAI-OSS系列模型。与此同时,Anthropic抢先发布了Claude Opus 4.1,并在智能体任务、编程和逻辑推理方面有所升级。谷歌也推出了第三代世界模型Genie 3。尽管Claude Opus 4.1在编程基准上的准确率仅提升2%,但多家大客户反馈其在代码重构、细节追踪和处理复杂代码库方面表现出色。而OpenAI的开源模型,特别是120B版本,在实际测试中表现出较大的随机性和不稳定性,20B版本则表现尚可。此次更新为用户带来了AI技术的快速迭代和更多选择。

🌟 Anthropic Claude Opus 4.1 升级发布,在智能体任务、现实世界编程和逻辑推理三大核心领域有所提升,尽管在编程基准SWE-bench Verified上的准确率仅从72.5%提升至74.5%,但其在处理多文件代码重构、识别代码修改部分以及避免引入新Bug方面得到大客户的高度评价,显示出在代码处理上的专长。

🚀 OpenAI 兑现开源承诺,发布了可在手机、电脑本地运行的OpenAI-OSS系列模型,为用户提供了更广泛的应用可能性。然而,在实际的代码编写能力测试中,特别是120B版本,表现出较大的随机性和不稳定性,甚至不如参数量较小的20B版本,使用时需谨慎。

⚖️ 谷歌发布了第三代世界模型Genie 3,号称“宇宙模拟器”,在视频生成方面更加符合物理定律,展示了其在多模态AI领域的持续投入和技术实力,为AI模型的竞争格局增添了新的维度。

💡 尽管Claude Opus 4.1的整体性能提升幅度有限,但Anthropic选择在OpenAI官宣开源后不久发布,被解读为一场“抢跑”和狙击。这反映出AI大模型厂商之间激烈的市场竞争,以及对自身产品定位和发布时机的精细考量。

AI 界的「赤壁之战」!OpenAI 开源惨遭谷歌、Anthropic 新模型狙击。最绝的是,Anthropic 卡点发布 Claude Opus 4.1,代码甩 OpenAI 新模型几条街。」

昨日,OpenAI、谷歌和 Anthropic 等发布了不同的新模型:

谷歌推出「G」字号第三代世界模型 Genie 3,号称「宇宙模拟器」,视频生成更加符合物理定律。

Anthropic 正式推出 Claude Opus 4.1,在智能体任务、现实世界编程和逻辑推理三大核心领域全面升级了 Claude Opus 4。

OpenAI 再次 Open,兑现了开源承诺,放出了 OpenAI-OSS 系列模型,手机、电脑本地可跑。

「Anthropic 阻击 OpenAI」

「抢先发布 Opus 4.1」

Anthropic 称 Claude Opus 4.1 提升了编码性能,同时在深度研究和数据分析能力上实现突破,特别强化了细节追踪和智能体搜索功能。

实话是,在编程基准 SWE-bench Verified 上,从 Opus 4.0 的 72.5% 提升到了 Opus 4.1 的 74.5% 准确率。

的确,编码性能提升了,但只有 2%——老实说,Opus 4.1 的性能提升并不大,毕竟定价都和 Opus 4 一样。

在其他基准测试上,部分性能提升甚至不足 1%。👇

Claude Opus 4.1 现已面向付费用户及 Claude Code 平台开放,同时登陆 API 服务、Amazon Bedrock 和 Google Cloud Vertex AI 三大云平台,定价与 Opus 4 版本保持一致

至于,Anthropic 为什么对如此小的改进还要发布?还在 OpenAI 官宣「再次开源」几分钟前?

我说就是巧了,Anthropic 和 OpenAI 这是巧了,这是 Anthropic 在欢迎 OpenAI「回归初心」,你信吗?

Palantir 兼 Cloudflare 前员工、剑桥 CS 毕业生表示,2% 性能提升对大部分人而言无足轻重,改天发布更有意义,这样就不会被 OpenAI 的新模型盖过风头。

总之,对用户来说,昨晚是 AI 界的圣诞节。

马斯克的 Grok、OpenAI、谷歌轮番宣称「推出全球最强模型」,Anthropic 说什么也要插一脚!

即便如此,论写代码 Claude 模型是真的强。

Anthropic 拉上大客户表示:Claude Opus 4.1 实现全方位能力跃升。

GitHub 表示,Claude Opus 4.1 相比 Opus 4 在多项功能上都有进步,尤其是在处理多文件代码重构时表现更为出色。

Rakuten Group 发现,Opus 4.1 能够在庞大的代码库中精准识别需要修改的部分,避免不必要的更动,也不会引入新的 Bug。他们的开发团队在日常调试中非常看重这种高精度的表现。

Windsurf 也报告称,在他们用于评估初级开发者能力的基准测试中,Opus 4.1 的表现比 Opus 4 提升了约一个标准差,这一提升幅度大致等同于从 Sonnet 3.7 升级到 Sonnet 4 时的进步。

KCORES 联合创始人「karminski - 牙医」测试了 OpenAI 和 Anthropic 新模型写代码能力,结果 OpenAI 新模型写代码不太行。

「最新鲜的 AI 代码实测来了!」

「karminski - 牙医」测试了 4 款模型:

OpenAI-OSS-120B

OpenAI-OSS-20B

Claude-Opus-4.1

Gemini-2.5-pro (Opus 的主要对手)

这次快速测试结论如下:

Claude-Opus-4.1 > Gemini-2.5-pro > OpenAI-OSS-20B >? (存疑) OpenAI-OSS-120B

每个模型各运行至少 6 次, 取最好结果给大家展示。

从测试结果看 Claude-Opus-4.1 出乎意料的稳,对空间理解远超任何模型。

OSS-120B 随机性非常大, 在这个测试里面 OSS-120B 甚至采样了 8 次, 还没有 OSS-20B 效果好.

可能原因是 120B 每次激活专家量很少,而总专家数量又多,导致每 token 随机到相同专家的概率会特别小,进而表现不是那么稳定。而 20B 则好一些,4/128 VS 4/32 专家。

总之,OpenAI-OSS-120B 用起来要谨慎,写代码特别不稳定。OpenAI-OSS-20B 在这个参数量大小下反而挺好。

最后,他提醒大家 AI 写代码需谨慎:不要用不太行的模型写代码,只会浪费时间去调试并且积累屎山。

参考资料:

www.anthropic.com/news/claude…

x.com/karminski3/…

x.com/AnthropicAI…

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI模型 OpenAI Anthropic Claude Opus 4.1 开源模型
相关文章