思考和编码能力超越DeepSeek-R1？Claude推出的全球首个混合推理模型什么样

原创汪酱 2025-02-25 20:11 黑龙江

会思考的Claude。

作者丨汪酱

编辑丨火狐狸

就在今日凌晨（北京时间），Anthropic投下了两个“王炸”。

一是号称目前全球首个混合推理模型Claude 3.7 Sonnet——一个模型，两种思考模式，既能快速响应用户提问，也能如DeepSeek一般展示深入的推理过程。

二是智能编程工具Claude Code——这一编程工具能直接理解并操作开发者的代码库，并且可以一次性完成超45分钟以上的人工任务，开发、编码、测试流程全包揽，在代码能力的完整性和完成性上远超其它大模型。

会思考的Claude 3.7 Sonnet

自DeepSeek上线以来，我们已经料想到AI大模型赛道会有源源不断的活水涌上来，只不过无论上涌的速度，还是能力的追赶，都太快了。Claude 3.7 Sonnet正是其中一个。

根据Anthropic官方的解释，他们认为推理是前沿模型的一种集成能力，而不是完全独立的模型，因此Claude 3.7 Sonnet和市场上其他推理模型有所不同，它既是一个普通的LLM（能够生成文本并理解语言模式），同时也是一个推理模型（能够将复杂的问题拆解成一个个步骤，显示出其达成最终解决方案的思维路线）。

（图：让其写五个世界上任何地方都找不到的原创笑话，Claude 3.7 Sonnet展示了思考过程）

值得一提的是，根据AWS生成式人工智能副总裁Vasi Philomin表示，Claude 3.7 Sonnet的扩展推理思维在数学竞赛、物理、编码、深度分析等方面能力能为客户带来最大收益，比如可以构建更为复杂的GenAI驱动的应用程序。

（图：Claude 3.7 Sonnet在遵循指令、一般推理、多模态能力和代理编码方面表现出色，扩展思维在数学和科学上有显著提升）

根据早期测试显示，Claude 3.7 Sonnet对于复杂代理工作流具有非常优越的精确性，能力甚至超过OpenAI o1和DeepSeek R1。

（图：该测试评估了AI模型解决现实世界中软件问题的能力，Claude 3.7 Sonnet在SWE-bench Verified测试中展示了最先进的性能）

此外，当通过API使用Claude 3.7 Sonnet时，用户还能够控制预算进行思考，比如给其提供一个token的数值，告诉它思考不得超过该数量的token，就能够一定程度上控制预算（目前最高输出限制为128K个token），但需要注意的是，这一方式也会影响模型回答的速度和答案的质量。

安全性方面，Claude 3.7 Sonnet能够更加准确地区分请求的正确性和错误性，因此减少了45%的“不必要拒绝”，这意味着Claude 3.7 Sonnet能够更加流畅快速地响应用户需求。

从其目前的模型形态来看，对于企业级使用者更加友好。目前，Claude 3.7 Sonnet已经可以适用于所有Claude的订阅计划，比如免费版、专业版、团队版、企业版，同时不仅能通过Anthropic API接入访问，还可以通过Amazon Bedrock、Google Cloud的Vertex AI进行访问，除免费版外的所有版本均支持扩展思考模式。

至于定价，无论哪种模式，其API定价均保持不变（和前代的模型一致），输入100万个token收费3美元，输出100万个token收费15美元（其中包括思考过程中使用的token）。相比之下，我们发现OpenAI o3-mini（早于Claude发布的能推理的模型）要更加便宜，输入定价1.1美元/1M token，输出为4.4美元/1M token。

写代码“神器”：Claude Code

虽然Claude 3.7 Sonnet的编码能力已经很强了（经官方测试），但Anthropic还是想将编码能力进一步拉高，进而推出了Claude Code这一专门的智能编程工具。目前，这一工具的功能还在持续优化中，因此尚未正式上线，仅作为研究预览版限量开放，并将根据用户反馈来进行改进。

根据Anthropic官方表示，Claude Code的定位是一个AI编程助手，能力覆盖从搜索、阅读代码、编辑、运行、测试、推送代码到GitHub等全流程。最值得关注的是，Claude Code能直接理解开发者的代码库，并且无缝集成到开发环境之中，经过测试，Claude Code已经能够在单个会话中完成通常需要45分钟以上的人工工作，极大降低人工成本。

结语

自DeepSeek推出后，AI大模型赛道无疑已经拉响了军备竞赛警报，各大科技公司纷纷加大投入，加速研发更加先进、更加智能的AI模型。比如前有OpenAI的o3-mini，凭借其出色的性能和灵活性，在多个应用场景中展现出了强大的竞争力。而现在，Claude 3.7 Sonnet的横空出世，更是将这场竞赛推向了一个新的高潮。

这场AI大模型的军备竞赛，不仅能推动技术的快速发展，同时也将在更多领域发挥关键作用，从优化业务流程、提升工作效率、降低运营成本等多个方面为企业提供助力。而可以预见的是，在这场竞赛中脱颖而出的AI模型，无疑也将成为各个行业的首选工具，为行业的数字化转型和智能化升级提供强有力的支持。

往期推荐

阅读原文

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签