FishAI官方 03月01日 00:14
Claude 3.7 Sonnet发布后,我和谷歌都感觉到天塌了...
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文深入分析了Claude 3.7模型的性能提升,尤其是在数学和逻辑推理能力方面的显著进步。通过对比不同模型的跑分数据,揭示了Claude 3.7在编程、工具使用和复杂推理任务上的优势。文章还探讨了DeepSeek R1的竞争力,以及OpenAI和Google等公司为应对Claude 3.7带来的冲击而采取的策略,例如OpenAI开放DeepResearch给Plus用户,Google推出Gemini Code Assist个人版。此外,文章还提到了跑分标准的更新以及对性价比模型的推荐。

📈 Claude 3.7模型通过“extended thinking”技术,在数学和逻辑推理能力上实现了显著提升,AIME得分提升至不使用该技术的2.63倍。

💻 Claude 3.7在编程 (SWE-bench)、Agentic tool use (TAU-bench)以及数学推理等需要更多逻辑推理或跨步骤思考的任务上,相比Claude 3.5有更明显的优势,尤其在编程理解和工具使用能力上。

🥇 DeepSeek R1在逻辑推理能力和Math水平上表现出色,与Sonnet 3.5 New的Code能力持平,成为全球AI领导厂家跑分对比中真正意义上出现的中国玩家。

💰 在性价比方面,Gemini 2.0 Flash系列在60-70区间内表现出色,Deepseek则在70以上区间具有优势。OpenAI的DeepResearch开放给Plus用户,Google推出Gemini Code Assist编程助手个人版,各方都在积极应对Claude 3.7的发布。

原创 小可怜Gemini 2025-02-26 12:53 广东

分析了 Claude3.7 的数据,我发现了一些秘密

 


昨天 Claude 又又又低调炸场,小编文章发的晚,技术细节就不多讲了,说下我的看法:


1、从数据上来看,本次模型的性能最大提升在于使用“extended thinking”所带来的数学以及逻辑推理能力,比如在 AIME 上的得分是不使用extended thinking”的 2.63 倍,从 23% 提升到 61%。

2、因此除了Math与复杂推理以外的场景,使用 Claude 3.7 Sonnet的extended thinking带来的收益并不明显,增幅小于 5%,视场景使用“extended thinking”才是最优解,比如 coding 场景,基本不需要使用,节约成本。

3、虽然 Grok3 with thinking的数据不完整,但从数据不难看出,其 Math 与复杂推理能力略微领先本次发布Claude 3.7 Sonnet with think。

4、可以全面切换到 Claude 3.7 模型:

  Claude 3.7 (No extended thinking) 对比 Claude 3.5 (new) 的整体实力是全面提升的,尤其在涉及编程 (SWE-bench)、Agentic tool use (TAU-bench)、以及数学推理等需要更多逻辑推理或跨步骤思考的任务上,差距会更明显。

   在通用语言处理、多语言问答、指令遵循等对话/理解类任务上,3.7 也有小幅或中等程度的提升,但不如在复杂推理任务中的提升来得显著

   Claude 3.7 (No think) 已经成为一个在多方面超越 3.5 (new) 的版本,更强的编程理解与工具使用能力或许是 3.7 训练/调优的一大关键。

5、DeepSeek R1 的含金量再一次被证明:逻辑推理能力与 Math 水平都在第一梯队,其 Code 能力也持平Sonnet 3.5 New,这是全球 AI 领导厂家的跑分对比中真正意义上出现中国玩家!(如果我没有记错的话,真记错了,Grok3发布的时候已上榜~)

6、可怜的谷歌连上都没上,不知道是没有数据呢还是只能去小孩那一桌 :( 可是谷歌真的很好用。 没事的谷歌,能持续发布就很厉害了...

7、某种意义上,OpenAI 是本次跑分中最强的模型,OpenAI o3-mini¹ High获得领先指标最多,我们可以一起期待下 OpenAI O3 完整版本。

8、本次发布中 Claude 3.7除了在 Agentic 系列与指令跟踪领先,其他指标都无法获得最佳得分,我认为本次发布主要是快速补充 Think 类模型,避免在众多 AI 供应商中失去话题热度,另外也体现出anthropic的agentic优先策略。


谷歌:伤害不大侮辱性极强。 

写代码真的强无敌

指令遵从性这么强,Code 能力又这么好,Claude3.7 再一次让让大家震惊,仔细思考了一翻,其实除了指令遵从性以及强无敌的代码能力,本身Artifact的工程化能力也是顶尖的,直接开跑各类库,工程化能力也遥遥领先,Trent分享了一个小 case。

通过一次 Prompt,直接高质量生成了一个冥想类小应用。

做了一个小评测对比,大家可以直观体验下:

4o

后面我还额外 pua 了 n 轮,越来越差,甚至不能跑

v0

大跌眼镜,v0 一直是我认为的前端一哥,不说引领全球也算是第一梯队,没想到一通下来,来跑都跑不起来


Claude 3.7


Trent分享的case更好,甚至包含音效,具体的 Prompt 大家可以看他的即刻。

等等,除了谷歌崩溃,我也崩溃了

     为啥,维护一整年的跑分大模型要崩啦,一直以来大家都使用 MMLU MMMU 作为通用能力的跑分标准之一,最近 MMLU升级到 MMLU-Pro,没想到几个月不到,MMLU-Pro 就被抛弃了,现在是 MMMLU...

我连忙请教专家,专家也一脸无奈

所以跑分算是废了,使用新的基准吧(多一列),让我们来看下 最佳性价比的模型是什么吧

~ 60 - 70 区间基本可以入手 Gemini 2.0 Flash 系列,绝对是性价比之选!
70以上 Deepseek当仁不让。

~ o3-min-high 还没价格,直接按照 o3-min *2 , Grok3/Gemini-2.0-Pro 都没价格,使用上一代同模型价格。

具体跑分细节可以查看:

https://langgptai.feishu.cn/wiki/HteYwsIMpimxO8kFqJ8cylqEnoe?table=blkxAzUVuUw1KjeT



 

对了,各方应对

为了应对 Claude 3.7 发布带来的冲击,大家都拿出了点新东西:

OpenAI: DeepResearch 终于给到普通的 Plus 用户,每月有尊贵的 10 次体验机会,请小心谨慎的使用。

Google:
1、推出Gemini Code Assist编程助手个人版,免费额度是:每月180,000补全/每月最多7200次对话,上下文 128K。

hhh,卷起来好,Github Copilot 的免费个人版要大气点了,才 2000 次补全 和 40 次对话~简直上不了台面

2、悄咪咪的更新自己的 https://aistudio.google.com/,支持新建分支。

 


都看到这了,求求一键三连,添加公众号为星标~第一时间获取新鲜推文

欢迎扫码交流群


THE END












阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Claude 3.7 AI模型 性能分析 DeepSeek R1
相关文章