夕小瑶科技说 05月23日 20:17
Claude 4发布!不止编程,超级Agent时代可能真的来了
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Anthropic 举办开发者大会,发布了 Claude 4 模型,重点强调其在编程领域的强大能力。新发布的 Claude Opus 4 和 Claude Sonnet 4 模型针对编码、高级推理和AI Agent任务进行了优化。其中,Opus 4 被誉为全球最强编码模型,而 Sonnet 4 则更轻量、快速,适合实时响应场景,且免费用户可用。除了模型本身,Anthropic 还发布了 Claude Code,一个编程 Agent,并推出了 Claude Code SDK,方便开发者在自己的程序中调用。发布会展示了 Claude 4 在编程和工具使用方面的出色表现,以及在简化新员工上手时间方面的优势,引发了社区的广泛关注。

🚀 Claude 4 模型发布:Anthropic 推出了 Claude Opus 4 和 Claude Sonnet 4,这两个模型均专注于编码、高级推理和 AI Agent 任务。Opus 4 在处理复杂编程问题上表现出色,而 Sonnet 4 则更轻量、快速,免费用户可用。

🛠️ 编程 Agent Claude Code:Anthropic 推出了 Claude Code,一个编程 Agent,可在终端和 IDE 中使用,并发布了 Claude Code SDK,方便开发者调用。Claude Code 已集成到 Vscode 和 Jetbrain 中,并被集成进 Github,演示了其在文档撰写和合并请求操作中的应用。

📊 性能与工具使用:根据官方测试结果,Opus 4 和 Sonnet 4 在 SWE-bench 测试中表现优异,尤其在并行测试中。在工具使用方面,Claude 4 遥遥领先,并且可以同时使用多个工具,加强了指令遵循能力,显著提高了记忆能力。

💡 改进与应用:Claude 4 增强了指令遵循能力和记忆能力,并可以同时使用多个工具。它还可以通过 Code Execution Tool 和 Files API 读取结果并进行修正和重构代码,实现了无人干预下的长时间自动工作。Anthropic 还介绍了 API 平台,通过自动化编排,模型可以根据任务需求自动调用合适的工具。

原创 zJz 2025-05-23 04:01 北京

本周是发布会周,终于等到了最后一天!今天的主角是 Anthropic。

Anthropic 举办了首届开发者大会。

大会主题是:Code with Claude

不像微软讲平台、讲架构、讲开源。

不像 Google 谈模型、谈服务、谈硬件。

Anthropic 说,且只说一点:

编程。

不像有的公司喜欢把好东西留在后面,也没有 One More Thing 的设计。

上台的是 CEO Dario Amodei,没有寒暄,没有铺垫,开场第一句就点燃全场:

Claude Opus 4 和 Claude Sonnet 4,今天正式上线。”

台下掌声雷动,开发者们的期待被瞬间引爆。

小细节:以前叫 Claude 3 Opus,现在数字后置,改叫 Claude Opus 4 了

Claude 4 正式发布

一句话总结:

这俩模型,完全针对编码高级推理AI Agent任务设计。

    Claude Opus 4:号称全球最强编码模型,擅长处理复杂的编程问题,可以自主编程数小时,表现出色且稳定。

    Claude Sonnet 4:作为 Claude Sonnet 3.7 的升级版,相比 Opus 4,更轻量更快速,适合实时响应的场景,在推理和编程能力上依然吊打其他模型,重点是:免费用户可用。

两个模型均可以在推理过程中使用工具,在推理和工具使用之间交替进行,并且可以并行使用工具。

先看榜单表现——

根据官方提供的 SWE-bench 测试结果,Opus 4 和 Sonnet 4 在基础测试上分别取得 72.5% 和 72.7% 的准确率,超过 Sonnet 3.7 的 62.3%。

当测试方式改为“并行测试”时, Opus 4 和 Sonnet 4 分别取得 79.4% 和 80.2% 的高分,同样的,也超过了 Sonnet 3.7 的 70%。

SWE-bench Verified: 真实软件工程任务性能基准测试。

意思就是:Opus 4 和 Sonnet 4 是最强的编程模型。

除了编程,在其它领域也很强:

在研究生级别的推理领域(Graduate-level reasoning)、多语言问答(MMMLU) ,与 OpenAI o3 不分上下,并列第一。

工具使用(Agentic tool use)领域遥遥领先,比第二 OpenAI o3 将近高 10% 的准确率。

要说不足的,那就要算视觉推理部分(Visual Reasoning),与上一代 Sonnet 3.7 基本持平,属于垫底那个。

除了性能更强以外,Claude 4 还有下列改进:

    可以同时使用多个工具,加强了指令遵循能力,显著提高了记忆能力。

Claude Opus 4 和 Sonnet 4 是混合模型,可以提供两种模式:近乎即时的响应和用于更深层次推理的扩展思考。

Opus 4 对付费用户开放,包括 Pro、Max、Team 和 Enterprise Claude 套餐,Sonnet 4 面向免费用户开放。

而且通过 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 提供 API 支持。

定价与之前的 Opus 和 Sonnet 模型保持一致:

    每百万 Token 输入分别为:15 美元和 3 美元。

    每百万 Token 输出分别为:75 美元和 15 美元。

总结一下,就是:

代码能力继续领先,其它方面也不落后。

Claude Code 正式发布

除了模型本身,本次发布会另一个大篇幅讲解的是编程 Agent——Claude Code:

Claude Code 不但可以在终端中使用,还可以在 IDE 中使用,目前已经集成在 Vscode 和 Jetbrain 中。

同时,还发布了 Claude Code SDK,开发者可以直接在自己的程序中调用 Claude Code 的核心。

基于 Claude Code SDK 开发的 Agent 已经被集成进了 Github,现场演示了让 Claude Code 在 Github 中进行文档撰写,并进行合并请求(Pull Request)操作。

而且还请来了 Github 的 CEO 站台:

如果说 Claude 4 模型是 Anthropic 的基石,那 Claude Code 则是 Anthropic 的生态。

基石 + 生态=护城河。

其它亮点

借助新的 Code Execution Tool 和 Files API,Claude 4 不仅仅是执行代码,而是可以读取结果,并根据结果进行修正,还可以重构代码,进行提交。最终的结果就是 Claude 4 可以在无人干预的情况下,连续自动工作 7 个小时!

要知道,这可是 100% 投入,0% 摸鱼的 7 个小时啊!

Anthropic 的首席产品官 Mike Krieger 还介绍了一个它们的内部数据,在广泛使用 AI 工具后,新员工平均上手时间从 2 到 3 周,大幅缩短到 2 至 3 天。

还介绍了 API 平台,

通过对 MCP 的自动化编排,模型可以根据任务的需求,自动的按步骤调用合适的工具。

实测效果炸裂

目前社区已经有人开始用 Claude 4 跑例子了,大家的评价及其统一:牛 x!

一句话,生成一个可用的浏览器代理,把小哥惊的直接爆粗口:

一句话,一次生成一个可工作的俄罗斯方块游戏。不仅仅可玩,UI 也不含糊,甚至在方块上有高光区域。

还有这个,一句话生成了复杂的,可交互的三维空间:

一句话,生成一个可工作的 CRM 仪表盘:

上面这四个例子,都有个共同的特点:一句话

我不敢说编程的范式从此彻底改变这么大的话。

但,你真的要重视 AI 编程的发展趋势和速度。

“淘汰你,与你何干”。

Anthropic 在直播中提到:

“编程的发展历史就是从低级语言,不断地切换到高级语言。随着 AI 和编程代理的发展,现在只需要用语言来描述需求。”

看 Claude 4 的表现,我觉得他们确实有底气这么讲。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Claude 4 Anthropic 编程模型 AI Agent Claude Code
相关文章