Claude 3.7 Sonnet 和 Claude Code 【译】

今天，我们宣布推出迄今为止我们最智能的模型——Claude 3.7 Sonnet1。这是市场上首个混合推理模型。Claude 3.7 Sonnet 既能瞬时作答，也能进行分步骤的推理思考，且这种思考过程会对用户可见。API 用户还可以对模型的思考时长进行精细化控制。Claude 3.7 Sonnet 在编程和前端网页开发方面表现尤为突出。伴随这个新模型，我们还推出了一个用于代理式编程的命令行工具——Claude Code。目前 Claude Code 作为一款有限的研究预览版本向开发者开放，允许他们从终端直接将大量工程任务委派给 Claude。现在，Claude 3.7 Sonnet 已在所有 Claude 订阅计划（包括免费版、专业版、团队版和企业版）以及 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上全面上线。扩展思考模式（extended thinking mode）在除免费版 Claude 以外的所有平台均可使用。在标准模式和扩展思考模式下，Claude 3.7 Sonnet 的定价与前代模型相同：输入 token 每百万收取 3 美元，输出 token（包括思考 token）每百万收取 15 美元。Claude 3.7 Sonnet：将前沿推理切实落地在开发 Claude 3.7 Sonnet 的过程中，我们采用了与市场上其他推理模型不同的理念。就像人类使用同一个大脑既能快速回应，也能深入思考一样，我们认为前沿模型的推理应该是一种整合的能力，而不是由不同模型分别实现。这样的统一方法也能为用户带来更流畅的使用体验。Claude 3.7 Sonnet 具体体现在以下几个方面。首先，Claude 3.7 Sonnet 同时既是普通大语言模型，也是推理模型：你可以自行决定何时让模型以常规模式回答，何时让它在回答之前进行更长时间的思考。在标准模式下，Claude 3.7 Sonnet 是对 Claude 3.5 Sonnet 的升级版本；在扩展思考模式下，Claude 会先进行自省，再给出答案，这提升了它在数学、物理、指令执行、编程以及其他许多任务上的表现。我们发现，在两种模式下，对模型的提示工程大体类似。其次，通过 API 使用 Claude 3.7 Sonnet 时，用户还可以控制思考的“预算”：你可以指定 Claude 的思考 token 不超过 N（最高可达模型 128K token 的输出上限）。这样你就能在速度（和成本）与答案质量之间做出平衡。第三，在研发我们的推理模型时，我们对数学和计算机科学竞赛类问题的关注有所减少，转而将重点放在更加贴近实际业务应用的真实世界任务上。早期测试显示，Claude 在编程能力上依旧处于领先地位，从应对复杂代码库到更先进的工具使用，都有显著提升。Cursor 指出，在真实场景下的编程任务中，Claude 再次展现出同类中最好的水准；Cognition 发现它在规划代码修改和处理全栈更新方面表现远超其他模型；Vercel 强调了 Claude 在复杂代理工作流中的卓越精确度；Replit 成功用 Claude 从零开始构建复杂的 Web 应用和仪表盘，而其他模型往往会在同等场景下停滞不前；Canva 的测试表明，Claude 编写的代码不仅可投入生产使用，而且设计品味出众，大幅减少了错误率。在 SWE-bench Verified 基准测试中，Claude 3.7 Sonnet 达到了目前最先进的水平。该测试主要评估 AI 模型在解决真实软件问题方面的能力。更多关于 scaffold 的信息可见附录。在 TAU-bench 框架（主要测试 AI 代理与用户及工具交互处理复杂真实世界任务）中，Claude 3.7 Sonnet 同样表现领先。更多关于 scaffold 的信息可见附录。Claude 3.7 Sonnet 在指令执行、通用推理、多模态能力和代理式编程领域表现出众，使用扩展思考后在数学和科学方面有显著提升。除了传统基准测试外，它在我们口袋妖怪游戏测试中也超越了此前所有的模型版本。Claude Code自 2024 年 6 月以来，Sonnet 一直是全球开发者的首选模型。今天，我们进一步为开发者赋能，推出了我们的首款代理式编程工具——Claude Code（有限研究预览版）。Claude Code 是一种主动协作伙伴，能够搜索并阅读代码、编辑文件、编写并运行测试、提交并推送代码到 GitHub，还能使用命令行工具——并在每一步操作中与你保持同步。虽然 Claude Code 还处于早期阶段，但它已经成为我们团队必不可少的工具，特别是在测试驱动开发、排查复杂问题以及大规模重构方面都表现突出。在早期测试中，Claude Code 能在一次性操作中完成原本需要 45 分钟以上手动工作的任务，大幅减少了开发时间和工作量。在接下来的几周里，我们会持续改进它，包括增强工具调用的稳定性、支持长时命令、改进应用内渲染，以及让 Claude 更好地理解自身能力。我们推出 Claude Code 的目标是更好地了解开发者在编码场景下对 Claude 的使用方式，为后续的模型升级提供依据。如果你加入本次预览，就能使用和我们相同的强大工具来构建并改进 Claude，你的反馈也将直接塑造它的未来。在你的代码库中与 Claude 协作我们也改进了 Claude.ai 上的编程体验。GitHub 集成现已在所有 Claude 订阅计划中开放，开发者可以将自己的代码库直接连接到 Claude。Claude 3.7 Sonnet 是我们迄今为止最优秀的编程模型。结合对个人、工作和开源项目的更深入理解，Claude 将成为你调试、开发新功能和为重要项目编写文档时更为强大的伙伴。负责任地构建在发布 Claude 3.7 Sonnet 之前，我们进行了广泛的测试和评估，并与外部专家合作，确保它在安全性、可靠性和稳定性方面满足我们的标准。相较于之前的版本，Claude 3.7 Sonnet 在区分有害与安全请求时也更为细致，不必要的拒绝率减少了 45%。本次版本的系统卡片详述了多个类别的新安全结果，并提供了有关我们“Responsible Scaling Policy”评估的细节，让其他 AI 实验室和研究者也可借鉴。卡片还提到了随着计算机使用而可能出现的新风险，尤其是 prompt 注入攻击，并解释了我们如何评估这些漏洞以及训练 Claude 以抵御和缓解此类风险。此外，它也探讨了推理模型的潜在安全优势：理解模型如何决策，以及模型的推理过程是否可信和可靠。你可以阅读完整的系统卡片了解更多细节。展望未来Claude 3.7 Sonnet 和 Claude Code 标志着我们向能真正增强人类能力的 AI 系统迈出了重要一步。它们具备深度推理、自治工作以及高效协作的能力，让我们更接近一个 AI 能够拓展并丰富人类所能实现的未来。我们非常期待大家探索这些新功能，并期待看到你们将用它们创造什么。一如既往，我们欢迎你们通过反馈邮箱与我们联系，让我们在持续改进和完善模型的过程中，倾听你的声音。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签