Claude 4发布！不止编程，超级Agent时代可能真的来了

夕小瑶科技说 06月22日 13:04

Claude 4发布！不止编程，超级Agent时代可能真的来了

Anthropic 举办首届开发者大会，发布了 Claude Opus 4 和 Claude Sonnet 4 模型，重点聚焦编程和 AI Agent。其中，Claude Opus 4 被认为是全球最强编码模型，而 Claude Sonnet 4 则更轻量快速，免费用户可用。新模型在编码、推理和工具使用方面表现出色，并推出了 Claude Code 编程 Agent，集成在 VS Code 和 Jetbrain 等 IDE 中，以及 Claude Code SDK。此外，还展示了 Claude 4 在自动化编程、代码重构和 Github 集成等方面的能力，引发了社区的广泛关注。

🚀 Claude Opus 4 和 Claude Sonnet 4 模型发布：前者是全球最强编码模型，擅长处理复杂编程问题；后者更轻量快速，免费用户可用，在推理和编程能力上表现出色。

🛠️ SWE-bench 测试结果：Opus 4 和 Sonnet 4 在基础和并行测试中均超过 Sonnet 3.7，证明其在编程领域的强大实力。

🥇 多领域表现优异：在研究生级别推理、多语言问答和工具使用方面，Claude 4 与 OpenAI o3 并列第一或遥遥领先。

💻 Claude Code 编程 Agent 发布：集成在 VS Code 和 Jetbrain 等 IDE 中，并提供 SDK，开发者可以直接调用其核心功能。

⚙️ 自动化编程能力：Claude 4 具备自动执行代码、读取结果、修正代码和重构代码的能力，甚至可以连续工作 7 小时。

原创 zJz 2025-05-23 04:01 北京

本周是发布会周，终于等到了最后一天！今天的主角是 Anthropic。

Anthropic 举办了首届开发者大会。

大会主题是：Code with Claude

不像微软讲平台、讲架构、讲开源。

不像 Google 谈模型、谈服务、谈硬件。

Anthropic 说，且只说一点：

编程。

不像有的公司喜欢把好东西留在后面，也没有 One More Thing 的设计。

上台的是 CEO Dario Amodei，没有寒暄，没有铺垫，开场第一句就点燃全场：

“Claude Opus 4 和 Claude Sonnet 4，今天正式上线。”

台下掌声雷动，开发者们的期待被瞬间引爆。

小细节：以前叫 Claude 3 Opus，现在数字后置，改叫 Claude Opus 4 了

Claude 4 正式发布一句话总结：

这俩模型，完全针对编码、高级推理和AI Agent任务设计。

Claude Opus 4：号称全球最强编码模型，擅长处理复杂的编程问题，可以自主编程数小时，表现出色且稳定。

Claude Sonnet 4：作为 Claude Sonnet 3.7 的升级版，相比 Opus 4，更轻量更快速，适合实时响应的场景，在推理和编程能力上依然吊打其他模型，重点是：免费用户可用。

两个模型均可以在推理过程中使用工具，在推理和工具使用之间交替进行，并且可以并行使用工具。

先看榜单表现——

根据官方提供的 SWE-bench 测试结果，Opus 4 和 Sonnet 4 在基础测试上分别取得 72.5% 和 72.7% 的准确率，超过 Sonnet 3.7 的 62.3%。

当测试方式改为“并行测试”时， Opus 4 和 Sonnet 4 分别取得 79.4% 和 80.2% 的高分，同样的，也超过了 Sonnet 3.7 的 70%。

SWE-bench Verified: 真实软件工程任务性能基准测试。

意思就是：Opus 4 和 Sonnet 4 是最强的编程模型。

除了编程，在其它领域也很强：

在研究生级别的推理领域（Graduate-level reasoning)、多语言问答（MMMLU），与 OpenAI o3 不分上下，并列第一。

在工具使用（Agentic tool use）领域遥遥领先，比第二 OpenAI o3 将近高 10% 的准确率。

要说不足的，那就要算视觉推理部分（Visual Reasoning），与上一代 Sonnet 3.7 基本持平，属于垫底那个。

除了性能更强以外，Claude 4 还有下列改进：

可以同时使用多个工具，加强了指令遵循能力，显著提高了记忆能力。

Claude Opus 4 和 Sonnet 4 是混合模型，可以提供两种模式：近乎即时的响应和用于更深层次推理的扩展思考。

Opus 4 对付费用户开放，包括 Pro、Max、Team 和 Enterprise Claude 套餐，Sonnet 4 面向免费用户开放。

而且通过 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 提供 API 支持。

定价与之前的 Opus 和 Sonnet 模型保持一致：

每百万 Token 输入分别为：15 美元和 3 美元。

每百万 Token 输出分别为：75 美元和 15 美元。

总结一下，就是：

代码能力继续领先，其它方面也不落后。

Claude Code 正式发布除了模型本身，本次发布会另一个大篇幅讲解的是编程 Agent——Claude Code：

Claude Code 不但可以在终端中使用，还可以在 IDE 中使用，目前已经集成在 Vscode 和 Jetbrain 中。

同时，还发布了 Claude Code SDK，开发者可以直接在自己的程序中调用 Claude Code 的核心。

基于 Claude Code SDK 开发的 Agent 已经被集成进了 Github，现场演示了让 Claude Code 在 Github 中进行文档撰写，并进行合并请求(Pull Request)操作。

而且还请来了 Github 的 CEO 站台：

如果说 Claude 4 模型是 Anthropic 的基石，那 Claude Code 则是 Anthropic 的生态。

基石 + 生态=护城河。

其它亮点借助新的 Code Execution Tool 和 Files API，Claude 4 不仅仅是执行代码，而是可以读取结果，并根据结果进行修正，还可以重构代码，进行提交。最终的结果就是 Claude 4 可以在无人干预的情况下，连续自动工作 7 个小时！

要知道，这可是 100% 投入，0% 摸鱼的 7 个小时啊！

Anthropic 的首席产品官 Mike Krieger 还介绍了一个它们的内部数据，在广泛使用 AI 工具后，新员工平均上手时间从 2 到 3 周，大幅缩短到 2 至 3 天。

还介绍了 API 平台，

通过对 MCP 的自动化编排，模型可以根据任务的需求，自动的按步骤调用合适的工具。

实测效果炸裂目前社区已经有人开始用 Claude 4 跑例子了，大家的评价及其统一：牛 x！

一句话，生成一个可用的浏览器代理，把小哥惊的直接爆粗口：

一句话，一次生成一个可工作的俄罗斯方块游戏。不仅仅可玩，UI 也不含糊，甚至在方块上有高光区域。

还有这个，一句话生成了复杂的，可交互的三维空间：

一句话，生成一个可工作的 CRM 仪表盘：

上面这四个例子，都有个共同的特点：一句话。

我不敢说编程的范式从此彻底改变这么大的话。

但，你真的要重视 AI 编程的发展趋势和速度。

“淘汰你，与你何干”。

Anthropic 在直播中提到：

“编程的发展历史就是从低级语言，不断地切换到高级语言。随着 AI 和编程代理的发展，现在只需要用语言来描述需求。”

看 Claude 4 的表现，我觉得他们确实有底气这么讲。

跳转微信打开

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Anthropic Claude 4 编程模型 AI Agent Claude Code

相关文章

Is Claude 3 Outperforming GPT-4?

Anthropic AI Launches a Prompt Engineering Tool that Generates Production-Ready Prompts in the Anthropic Console

Anthropic將適度開放未成年人使用，禁止用於生物辨識、選舉造勢

Anthropic延攬IG共同創辦人為產品長

Instagram联合创始人迈克·克里格出任AI创企Anthropic首席产品官

Anthropic新功能讓Claude助理可使用外部工具

OpenAI、Anthropic 和谷歌 DeepMind 工作人员警告人工智能的危险 - The Washington Post

Tabnine Adds Support for Anthropic Claude 3 Model to Accelerate and Optimize Software Development

AI智能体驱动未来商业，深度剖析11种AI Agent商业模式

Anthropic: Science and engineering are inseparable. Watch our new roundtable video where our researchers discuss the engineering challenges of interpr...