扬帆出海 02月27日
思考和编码能力超越DeepSeek-R1?Claude推出的全球首个混合推理模型什么样
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Anthropic发布了两个重磅产品:Claude 3.7 Sonnet和Claude Code。Claude 3.7 Sonnet是全球首个混合推理模型,既能快速响应提问,又能深入推理,在数学、物理、编码等领域表现出色,超越OpenAI o1和DeepSeek R1。用户可以通过API控制预算进行思考。Claude Code是一款智能编程工具,能理解并操作代码库,一次性完成45分钟以上的人工任务,覆盖开发、编码、测试全流程。这两款产品的推出标志着AI大模型赛道进入新的竞争阶段,将推动技术发展,助力企业数字化转型。

💡Claude 3.7 Sonnet:全球首个混合推理模型,既是LLM,也是推理模型,能将复杂问题拆解成步骤,展示思维路线,在数学、物理、编码等方面能力突出,适用于企业级使用者。

💻Claude Code:智能编程工具,能直接理解并操作开发者的代码库,无缝集成到开发环境,一次性完成45分钟以上的人工任务,覆盖从搜索、阅读代码、编辑、运行、测试、推送代码到GitHub等全流程。

💰Claude 3.7 Sonnet的API定价:输入100万个token收费3美元,输出100万个token收费15美元,用户可以通过控制token数量来控制预算,但会影响模型回答速度和质量。

🛡️Claude 3.7 Sonnet的安全性:能够更准确地区分请求的正确性和错误性,减少了45%的“不必要拒绝”,响应用户需求更加流畅快速。

原创 汪酱 2025-02-25 20:11 黑龙江

会思考的Claude。


作者丨汪酱

编辑丨火狐狸


就在今日凌晨(北京时间),Anthropic投下了两个“王炸”。


一是号称目前全球首个混合推理模型Claude 3.7 Sonnet——一个模型,两种思考模式,既能快速响应用户提问,也能如DeepSeek一般展示深入的推理过程。


二是智能编程工具Claude Code——这一编程工具能直接理解并操作开发者的代码库,并且可以一次性完成超45分钟以上的人工任务,开发、编码、测试流程全包揽,在代码能力的完整性和完成性上远超其它大模型。


会思考的Claude 3.7 Sonnet


自DeepSeek上线以来,我们已经料想到AI大模型赛道会有源源不断的活水涌上来,只不过无论上涌的速度,还是能力的追赶,都太快了。Claude 3.7 Sonnet正是其中一个。


根据Anthropic官方的解释,他们认为推理是前沿模型的一种集成能力,而不是完全独立的模型,因此Claude 3.7 Sonnet和市场上其他推理模型有所不同,它既是一个普通的LLM(能够生成文本并理解语言模式),同时也是一个推理模型(能够将复杂的问题拆解成一个个步骤,显示出其达成最终解决方案的思维路线)。


(图:让其写五个世界上任何地方都找不到的原创笑话,Claude 3.7 Sonnet展示了思考过程)


值得一提的是,根据AWS生成式人工智能副总裁Vasi Philomin表示,Claude 3.7 Sonnet的扩展推理思维在数学竞赛、物理、编码、深度分析等方面能力能为客户带来最大收益,比如可以构建更为复杂的GenAI驱动的应用程序。


(图:Claude 3.7 Sonnet在遵循指令、一般推理、多模态能力和代理编码方面表现出色,扩展思维在数学和科学上有显著提升)


根据早期测试显示,Claude 3.7 Sonnet对于复杂代理工作流具有非常优越的精确性,能力甚至超过OpenAI o1和DeepSeek R1。


(图:该测试评估了AI模型解决现实世界中软件问题的能力,Claude 3.7 Sonnet在SWE-bench Verified测试中展示了最先进的性能)


此外,当通过API使用Claude 3.7 Sonnet时,用户还能够控制预算进行思考,比如给其提供一个token的数值,告诉它思考不得超过该数量的token,就能够一定程度上控制预算(目前最高输出限制为128K个token),但需要注意的是,这一方式也会影响模型回答的速度和答案的质量


安全性方面,Claude 3.7 Sonnet能够更加准确地区分请求的正确性和错误性,因此减少了45%的“不必要拒绝”,这意味着Claude 3.7 Sonnet能够更加流畅快速地响应用户需求。


从其目前的模型形态来看,对于企业级使用者更加友好。目前,Claude 3.7 Sonnet已经可以适用于所有Claude的订阅计划,比如免费版、专业版、团队版、企业版,同时不仅能通过Anthropic API接入访问,还可以通过Amazon Bedrock、Google Cloud的Vertex AI进行访问,除免费版外的所有版本均支持扩展思考模式


至于定价,无论哪种模式,其API定价均保持不变(和前代的模型一致),输入100万个token收费3美元,输出100万个token收费15美元(其中包括思考过程中使用的token)。相比之下,我们发现OpenAI o3-mini(早于Claude发布的能推理的模型)要更加便宜,输入定价1.1美元/1M token,输出为4.4美元/1M token



写代码“神器”:Claude Code


虽然Claude 3.7 Sonnet的编码能力已经很强了(经官方测试),但Anthropic还是想将编码能力进一步拉高,进而推出了Claude Code这一专门的智能编程工具。目前,这一工具的功能还在持续优化中,因此尚未正式上线,仅作为研究预览版限量开放,并将根据用户反馈来进行改进。


根据Anthropic官方表示,Claude Code的定位是一个AI编程助手,能力覆盖从搜索、阅读代码、编辑、运行、测试、推送代码到GitHub等全流程。最值得关注的是,Claude Code能直接理解开发者的代码库,并且无缝集成到开发环境之中,经过测试,Claude Code已经能够在单个会话中完成通常需要45分钟以上的人工工作,极大降低人工成本。


结语


自DeepSeek推出后,AI大模型赛道无疑已经拉响了军备竞赛警报,各大科技公司纷纷加大投入,加速研发更加先进、更加智能的AI模型。比如前有OpenAI的o3-mini,凭借其出色的性能和灵活性,在多个应用场景中展现出了强大的竞争力。而现在,Claude 3.7 Sonnet的横空出世,更是将这场竞赛推向了一个新的高潮。


这场AI大模型的军备竞赛,不仅能推动技术的快速发展,同时也将在更多领域发挥关键作用,从优化业务流程、提升工作效率、降低运营成本等多个方面为企业提供助力。而可以预见的是,在这场竞赛中脱颖而出的AI模型,无疑也将成为各个行业的首选工具,为行业的数字化转型和智能化升级提供强有力的支持。



往期推荐






阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Claude 3.7 Sonnet Claude Code AI大模型 推理模型 智能编程
相关文章