宝玉的分享 02月25日
Claude 3.7 Sonnet 和 Claude Code 【译】
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Anthropic推出了其最智能的模型Claude 3.7 Sonnet,这是一个混合推理模型,能够瞬时作答也能进行分步骤推理,并对用户可见。该模型在编程和前端网页开发方面表现突出,同时发布了用于代理式编程的命令行工具Claude Code。Claude 3.7 Sonnet已在所有Claude订阅计划中上线,API用户可控制思考时长,在速度和质量间平衡。该模型在指令执行、通用推理、多模态能力和代理式编程领域表现出色,数学和科学能力也得到提升。Claude Code作为一种主动协作伙伴,能搜索代码、编辑文件、编写并运行测试,大幅减少开发时间和工作量。

💡Claude 3.7 Sonnet是首个混合推理模型,它既能快速响应,又能进行深入思考,用户可以控制模型的思考时长,从而在速度和答案质量之间找到平衡。

💻伴随Claude 3.7 Sonnet发布了Claude Code,这是一款用于代理式编程的命令行工具,开发者可以直接从终端将大量工程任务委派给Claude,从而大幅减少开发时间和工作量。

🔒Anthropic在发布Claude 3.7 Sonnet之前进行了广泛的测试和评估,并与外部专家合作,确保其在安全性、可靠性和稳定性方面满足标准,同时减少了不必要的拒绝率。

🚀Claude 3.7 Sonnet在编程能力上依旧处于领先地位,从应对复杂代码库到更先进的工具使用,都有显著提升。在真实场景下的编程任务中,Claude 再次展现出同类中最好的水准,尤其在规划代码修改和处理全栈更新方面表现远超其他模型。

今天,我们宣布推出迄今为止我们最智能的模型——Claude 3.7 Sonnet1。这是市场上首个混合推理模型。Claude 3.7 Sonnet 既能瞬时作答,也能进行分步骤的推理思考,且这种思考过程会对用户可见。API 用户还可以对模型的思考时长进行精细化控制。Claude 3.7 Sonnet 在编程和前端网页开发方面表现尤为突出。伴随这个新模型,我们还推出了一个用于代理式编程的命令行工具——Claude Code。目前 Claude Code 作为一款有限的研究预览版本向开发者开放,允许他们从终端直接将大量工程任务委派给 Claude。现在,Claude 3.7 Sonnet 已在所有 Claude 订阅计划(包括免费版、专业版、团队版和企业版)以及 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上全面上线。扩展思考模式(extended thinking mode)在除免费版 Claude 以外的所有平台均可使用。在标准模式和扩展思考模式下,Claude 3.7 Sonnet 的定价与前代模型相同:输入 token 每百万收取 3 美元,输出 token(包括思考 token)每百万收取 15 美元。Claude 3.7 Sonnet:将前沿推理切实落地在开发 Claude 3.7 Sonnet 的过程中,我们采用了与市场上其他推理模型不同的理念。就像人类使用同一个大脑既能快速回应,也能深入思考一样,我们认为前沿模型的推理应该是一种整合的能力,而不是由不同模型分别实现。这样的统一方法也能为用户带来更流畅的使用体验。Claude 3.7 Sonnet 具体体现在以下几个方面。首先,Claude 3.7 Sonnet 同时既是普通大语言模型,也是推理模型:你可以自行决定何时让模型以常规模式回答,何时让它在回答之前进行更长时间的思考。在标准模式下,Claude 3.7 Sonnet 是对 Claude 3.5 Sonnet 的升级版本;在扩展思考模式下,Claude 会先进行自省,再给出答案,这提升了它在数学、物理、指令执行、编程以及其他许多任务上的表现。我们发现,在两种模式下,对模型的提示工程大体类似。其次,通过 API 使用 Claude 3.7 Sonnet 时,用户还可以控制思考的“预算”:你可以指定 Claude 的思考 token 不超过 N(最高可达模型 128K token 的输出上限)。这样你就能在速度(和成本)与答案质量之间做出平衡。第三,在研发我们的推理模型时,我们对数学和计算机科学竞赛类问题的关注有所减少,转而将重点放在更加贴近实际业务应用的真实世界任务上。早期测试显示,Claude 在编程能力上依旧处于领先地位,从应对复杂代码库到更先进的工具使用,都有显著提升。Cursor 指出,在真实场景下的编程任务中,Claude 再次展现出同类中最好的水准;Cognition 发现它在规划代码修改和处理全栈更新方面表现远超其他模型;Vercel 强调了 Claude 在复杂代理工作流中的卓越精确度;Replit 成功用 Claude 从零开始构建复杂的 Web 应用和仪表盘,而其他模型往往会在同等场景下停滞不前;Canva 的测试表明,Claude 编写的代码不仅可投入生产使用,而且设计品味出众,大幅减少了错误率。在 SWE-bench Verified 基准测试中,Claude 3.7 Sonnet 达到了目前最先进的水平。该测试主要评估 AI 模型在解决真实软件问题方面的能力。更多关于 scaffold 的信息可见附录。在 TAU-bench 框架(主要测试 AI 代理与用户及工具交互处理复杂真实世界任务)中,Claude 3.7 Sonnet 同样表现领先。更多关于 scaffold 的信息可见附录。Claude 3.7 Sonnet 在指令执行、通用推理、多模态能力和代理式编程领域表现出众,使用扩展思考后在数学和科学方面有显著提升。除了传统基准测试外,它在我们口袋妖怪游戏测试中也超越了此前所有的模型版本。Claude Code自 2024 年 6 月以来,Sonnet 一直是全球开发者的首选模型。今天,我们进一步为开发者赋能,推出了我们的首款代理式编程工具——Claude Code(有限研究预览版)。Claude Code 是一种主动协作伙伴,能够搜索并阅读代码、编辑文件、编写并运行测试、提交并推送代码到 GitHub,还能使用命令行工具——并在每一步操作中与你保持同步。虽然 Claude Code 还处于早期阶段,但它已经成为我们团队必不可少的工具,特别是在测试驱动开发、排查复杂问题以及大规模重构方面都表现突出。在早期测试中,Claude Code 能在一次性操作中完成原本需要 45 分钟以上手动工作的任务,大幅减少了开发时间和工作量。在接下来的几周里,我们会持续改进它,包括增强工具调用的稳定性、支持长时命令、改进应用内渲染,以及让 Claude 更好地理解自身能力。我们推出 Claude Code 的目标是更好地了解开发者在编码场景下对 Claude 的使用方式,为后续的模型升级提供依据。如果你加入本次预览,就能使用和我们相同的强大工具来构建并改进 Claude,你的反馈也将直接塑造它的未来。在你的代码库中与 Claude 协作我们也改进了 Claude.ai 上的编程体验。GitHub 集成现已在所有 Claude 订阅计划中开放,开发者可以将自己的代码库直接连接到 Claude。Claude 3.7 Sonnet 是我们迄今为止最优秀的编程模型。结合对个人、工作和开源项目的更深入理解,Claude 将成为你调试、开发新功能和为重要项目编写文档时更为强大的伙伴。负责任地构建在发布 Claude 3.7 Sonnet 之前,我们进行了广泛的测试和评估,并与外部专家合作,确保它在安全性、可靠性和稳定性方面满足我们的标准。相较于之前的版本,Claude 3.7 Sonnet 在区分有害与安全请求时也更为细致,不必要的拒绝率减少了 45%。本次版本的系统卡片详述了多个类别的新安全结果,并提供了有关我们“Responsible Scaling Policy”评估的细节,让其他 AI 实验室和研究者也可借鉴。卡片还提到了随着计算机使用而可能出现的新风险,尤其是 prompt 注入攻击,并解释了我们如何评估这些漏洞以及训练 Claude 以抵御和缓解此类风险。此外,它也探讨了推理模型的潜在安全优势:理解模型如何决策,以及模型的推理过程是否可信和可靠。你可以阅读完整的系统卡片了解更多细节。展望未来Claude 3.7 Sonnet 和 Claude Code 标志着我们向能真正增强人类能力的 AI 系统迈出了重要一步。它们具备深度推理、自治工作以及高效协作的能力,让我们更接近一个 AI 能够拓展并丰富人类所能实现的未来。我们非常期待大家探索这些新功能,并期待看到你们将用它们创造什么。一如既往,我们欢迎你们通过反馈邮箱与我们联系,让我们在持续改进和完善模型的过程中,倾听你的声音。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Claude 3.7 Sonnet 混合推理模型 Claude Code 代理式编程 AI安全
相关文章