原创 zJz 2025-05-23 04:01 北京
本周是发布会周,终于等到了最后一天!今天的主角是 Anthropic。
Anthropic 举办了首届开发者大会。
大会主题是:Code with Claude
不像微软讲平台、讲架构、讲开源。
不像 Google 谈模型、谈服务、谈硬件。
Anthropic 说,且只说一点:
编程。
不像有的公司喜欢把好东西留在后面,也没有 One More Thing 的设计。
上台的是 CEO Dario Amodei,没有寒暄,没有铺垫,开场第一句就点燃全场:
“Claude Opus 4 和 Claude Sonnet 4,今天正式上线。”
台下掌声雷动,开发者们的期待被瞬间引爆。
小细节:以前叫 Claude 3 Opus,现在数字后置,改叫 Claude Opus 4 了
Claude 4 正式发布
一句话总结:
这俩模型,完全针对编码、高级推理和AI Agent任务设计。
Claude Opus 4:号称全球最强编码模型,擅长处理复杂的编程问题,可以自主编程数小时,表现出色且稳定。
Claude Sonnet 4:作为 Claude Sonnet 3.7 的升级版,相比 Opus 4,更轻量更快速,适合实时响应的场景,在推理和编程能力上依然吊打其他模型,重点是:免费用户可用。
两个模型均可以在推理过程中使用工具,在推理和工具使用之间交替进行,并且可以并行使用工具。
先看榜单表现——
根据官方提供的 SWE-bench 测试结果,Opus 4 和 Sonnet 4 在基础测试上分别取得 72.5% 和 72.7% 的准确率,超过 Sonnet 3.7 的 62.3%。
当测试方式改为“并行测试”时, Opus 4 和 Sonnet 4 分别取得 79.4% 和 80.2% 的高分,同样的,也超过了 Sonnet 3.7 的 70%。
SWE-bench Verified: 真实软件工程任务性能基准测试。
意思就是:Opus 4 和 Sonnet 4 是最强的编程模型。
除了编程,在其它领域也很强:
在研究生级别的推理领域(Graduate-level reasoning)、多语言问答(MMMLU) ,与 OpenAI o3 不分上下,并列第一。
在工具使用(Agentic tool use)领域遥遥领先,比第二 OpenAI o3 将近高 10% 的准确率。
要说不足的,那就要算视觉推理部分(Visual Reasoning),与上一代 Sonnet 3.7 基本持平,属于垫底那个。
除了性能更强以外,Claude 4 还有下列改进:
可以同时使用多个工具,加强了指令遵循能力,显著提高了记忆能力。
Claude Opus 4 和 Sonnet 4 是混合模型,可以提供两种模式:近乎即时的响应和用于更深层次推理的扩展思考。
Opus 4 对付费用户开放,包括 Pro、Max、Team 和 Enterprise Claude 套餐,Sonnet 4 面向免费用户开放。
而且通过 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 提供 API 支持。
定价与之前的 Opus 和 Sonnet 模型保持一致:
每百万 Token 输入分别为:15 美元和 3 美元。
每百万 Token 输出分别为:75 美元和 15 美元。
总结一下,就是:
代码能力继续领先,其它方面也不落后。
Claude Code 正式发布
除了模型本身,本次发布会另一个大篇幅讲解的是编程 Agent——Claude Code:
Claude Code 不但可以在终端中使用,还可以在 IDE 中使用,目前已经集成在 Vscode 和 Jetbrain 中。
同时,还发布了 Claude Code SDK,开发者可以直接在自己的程序中调用 Claude Code 的核心。
基于 Claude Code SDK 开发的 Agent 已经被集成进了 Github,现场演示了让 Claude Code 在 Github 中进行文档撰写,并进行合并请求(Pull Request)操作。
而且还请来了 Github 的 CEO 站台:
如果说 Claude 4 模型是 Anthropic 的基石,那 Claude Code 则是 Anthropic 的生态。
基石 + 生态=护城河。
其它亮点
借助新的 Code Execution Tool 和 Files API,Claude 4 不仅仅是执行代码,而是可以读取结果,并根据结果进行修正,还可以重构代码,进行提交。最终的结果就是 Claude 4 可以在无人干预的情况下,连续自动工作 7 个小时!
要知道,这可是 100% 投入,0% 摸鱼的 7 个小时啊!
Anthropic 的首席产品官 Mike Krieger 还介绍了一个它们的内部数据,在广泛使用 AI 工具后,新员工平均上手时间从 2 到 3 周,大幅缩短到 2 至 3 天。
还介绍了 API 平台,
通过对 MCP 的自动化编排,模型可以根据任务的需求,自动的按步骤调用合适的工具。
实测效果炸裂
目前社区已经有人开始用 Claude 4 跑例子了,大家的评价及其统一:牛 x!
一句话,生成一个可用的浏览器代理,把小哥惊的直接爆粗口:
一句话,一次生成一个可工作的俄罗斯方块游戏。不仅仅可玩,UI 也不含糊,甚至在方块上有高光区域。
还有这个,一句话生成了复杂的,可交互的三维空间:
一句话,生成一个可工作的 CRM 仪表盘:
上面这四个例子,都有个共同的特点:一句话。
我不敢说编程的范式从此彻底改变这么大的话。
但,你真的要重视 AI 编程的发展趋势和速度。
“淘汰你,与你何干”。
Anthropic 在直播中提到:
“编程的发展历史就是从低级语言,不断地切换到高级语言。随着 AI 和编程代理的发展,现在只需要用语言来描述需求。”
看 Claude 4 的表现,我觉得他们确实有底气这么讲。