原创 zJz 2025-05-23 04:01 北京
小细节:以前叫 Claude 3 Opus,现在数字后置,改叫 Claude Opus 4 了Claude 4 正式发布一句话总结:这俩模型,完全针对编码、高级推理和AI Agent任务设计。Claude Opus 4:号称全球最强编码模型,擅长处理复杂的编程问题,可以自主编程数小时,表现出色且稳定。Claude Sonnet 4:作为 Claude Sonnet 3.7 的升级版,相比 Opus 4,更轻量更快速,适合实时响应的场景,在推理和编程能力上依然吊打其他模型,重点是:免费用户可用。两个模型均可以在推理过程中使用工具,在推理和工具使用之间交替进行,并且可以并行使用工具。先看榜单表现——根据官方提供的 SWE-bench 测试结果,Opus 4 和 Sonnet 4 在基础测试上分别取得 72.5% 和 72.7% 的准确率,超过 Sonnet 3.7 的 62.3%。当测试方式改为“并行测试”时, Opus 4 和 Sonnet 4 分别取得 79.4% 和 80.2% 的高分,同样的,也超过了 Sonnet 3.7 的 70%。
SWE-bench Verified: 真实软件工程任务性能基准测试。意思就是:Opus 4 和 Sonnet 4 是最强的编程模型。除了编程,在其它领域也很强:在研究生级别的推理领域(Graduate-level reasoning)、多语言问答(MMMLU) ,与 OpenAI o3 不分上下,并列第一。在工具使用(Agentic tool use)领域遥遥领先,比第二 OpenAI o3 将近高 10% 的准确率。要说不足的,那就要算视觉推理部分(Visual Reasoning),与上一代 Sonnet 3.7 基本持平,属于垫底那个。除了性能更强以外,Claude 4 还有下列改进:可以同时使用多个工具,加强了指令遵循能力,显著提高了记忆能力。Claude Opus 4 和 Sonnet 4 是混合模型,可以提供两种模式:近乎即时的响应和用于更深层次推理的扩展思考。Opus 4 对付费用户开放,包括 Pro、Max、Team 和 Enterprise Claude 套餐,Sonnet 4 面向免费用户开放。而且通过 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 提供 API 支持。定价与之前的 Opus 和 Sonnet 模型保持一致:每百万 Token 输入分别为:15 美元和 3 美元。每百万 Token 输出分别为:75 美元和 15 美元。总结一下,就是:代码能力继续领先,其它方面也不落后。Claude Code 正式发布除了模型本身,本次发布会另一个大篇幅讲解的是编程 Agent——Claude Code:Claude Code 不但可以在终端中使用,还可以在 IDE 中使用,目前已经集成在 Vscode 和 Jetbrain 中。同时,还发布了 Claude Code SDK,开发者可以直接在自己的程序中调用 Claude Code 的核心。基于 Claude Code SDK 开发的 Agent 已经被集成进了 Github,现场演示了让 Claude Code 在 Github 中进行文档撰写,并进行合并请求(Pull Request)操作。而且还请来了 Github 的 CEO 站台:如果说 Claude 4 模型是 Anthropic 的基石,那 Claude Code 则是 Anthropic 的生态。基石 + 生态=护城河。其它亮点借助新的 Code Execution Tool 和 Files API,Claude 4 不仅仅是执行代码,而是可以读取结果,并根据结果进行修正,还可以重构代码,进行提交。最终的结果就是 Claude 4 可以在无人干预的情况下,连续自动工作 7 个小时!要知道,这可是 100% 投入,0% 摸鱼的 7 个小时啊!Anthropic 的首席产品官 Mike Krieger 还介绍了一个它们的内部数据,在广泛使用 AI 工具后,新员工平均上手时间从 2 到 3 周,大幅缩短到 2 至 3 天。还介绍了 API 平台,通过对 MCP 的自动化编排,模型可以根据任务的需求,自动的按步骤调用合适的工具。实测效果炸裂目前社区已经有人开始用 Claude 4 跑例子了,大家的评价及其统一:牛 x!一句话,生成一个可用的浏览器代理,把小哥惊的直接爆粗口:一句话,一次生成一个可工作的俄罗斯方块游戏。不仅仅可玩,UI 也不含糊,甚至在方块上有高光区域。还有这个,一句话生成了复杂的,可交互的三维空间:一句话,生成一个可工作的 CRM 仪表盘: