Claude 3.7 Sonnet发布后，我和谷歌都感觉到天塌了...

原创小可怜Gemini 2025-02-26 12:53 广东

分析了 Claude3.7 的数据，我发现了一些秘密

昨天 Claude 又又又低调炸场，小编文章发的晚，技术细节就不多讲了，说下我的看法：

1、从数据上来看，本次模型的性能最大提升在于使用“extended thinking”所带来的数学以及逻辑推理能力，比如在 AIME 上的得分是不使用extended thinking”的 2.63 倍，从 23% 提升到 61%。

2、因此除了Math与复杂推理以外的场景，使用 Claude 3.7 Sonnet的extended thinking带来的收益并不明显，增幅小于 5%，视场景使用“extended thinking”才是最优解，比如 coding 场景，基本不需要使用，节约成本。

3、虽然 Grok3 with thinking的数据不完整，但从数据不难看出，其 Math 与复杂推理能力略微领先本次发布Claude 3.7 Sonnet with think。

4、可以全面切换到 Claude 3.7 模型：

Claude 3.7 (No extended thinking) 对比 Claude 3.5 (new) 的整体实力是全面提升的，尤其在涉及编程 (SWE-bench)、Agentic tool use (TAU-bench)、以及数学推理等需要更多逻辑推理或跨步骤思考的任务上，差距会更明显。

在通用语言处理、多语言问答、指令遵循等对话/理解类任务上，3.7 也有小幅或中等程度的提升，但不如在复杂推理任务中的提升来得显著

Claude 3.7 (No think) 已经成为一个在多方面超越 3.5 (new) 的版本，更强的编程理解与工具使用能力或许是 3.7 训练/调优的一大关键。

5、DeepSeek R1 的含金量再一次被证明：逻辑推理能力与 Math 水平都在第一梯队，其 Code 能力也持平Sonnet 3.5 New，这是全球 AI 领导厂家的跑分对比中真正意义上出现中国玩家！（如果我没有记错的话，真记错了，Grok3发布的时候已上榜～）

6、可怜的谷歌连上都没上，不知道是没有数据呢还是只能去小孩那一桌：（可是谷歌真的很好用。没事的谷歌，能持续发布就很厉害了...

7、某种意义上，OpenAI 是本次跑分中最强的模型，OpenAI o3-mini¹ High获得领先指标最多，我们可以一起期待下 OpenAI O3 完整版本。

8、本次发布中 Claude 3.7除了在 Agentic 系列与指令跟踪领先，其他指标都无法获得最佳得分，我认为本次发布主要是快速补充 Think 类模型，避免在众多 AI 供应商中失去话题热度，另外也体现出anthropic的agentic优先策略。

谷歌：伤害不大侮辱性极强。

写代码真的强无敌

指令遵从性这么强，Code 能力又这么好，Claude3.7 再一次让让大家震惊，仔细思考了一翻，其实除了指令遵从性以及强无敌的代码能力，本身Artifact的工程化能力也是顶尖的，直接开跑各类库，工程化能力也遥遥领先，Trent分享了一个小 case。

通过一次 Prompt，直接高质量生成了一个冥想类小应用。

做了一个小评测对比，大家可以直观体验下：

4o

后面我还额外 pua 了 n 轮，越来越差，甚至不能跑

v0

大跌眼镜，v0 一直是我认为的前端一哥，不说引领全球也算是第一梯队，没想到一通下来，来跑都跑不起来

Claude 3.7

Trent分享的case更好，甚至包含音效，具体的 Prompt 大家可以看他的即刻。

等等，除了谷歌崩溃，我也崩溃了

为啥，维护一整年的跑分大模型要崩啦，一直以来大家都使用 MMLU MMMU 作为通用能力的跑分标准之一，最近 MMLU升级到 MMLU-Pro，没想到几个月不到，MMLU-Pro 就被抛弃了，现在是 MMMLU...

我连忙请教专家，专家也一脸无奈

所以跑分算是废了，使用新的基准吧（多一列）,让我们来看下最佳性价比的模型是什么吧

～ 60 - 70 区间基本可以入手 Gemini 2.0 Flash 系列，绝对是性价比之选！
70以上 Deepseek当仁不让。

～ o3-min-high 还没价格，直接按照 o3-min *2 ， Grok3/Gemini-2.0-Pro 都没价格，使用上一代同模型价格。

具体跑分细节可以查看：

https://langgptai.feishu.cn/wiki/HteYwsIMpimxO8kFqJ8cylqEnoe?table=blkxAzUVuUw1KjeT

对了，各方应对

为了应对 Claude 3.7 发布带来的冲击，大家都拿出了点新东西：

OpenAI： DeepResearch 终于给到普通的 Plus 用户，每月有尊贵的 10 次体验机会，请小心谨慎的使用。

Google：
1、推出Gemini Code Assist编程助手个人版，免费额度是：每月180,000补全/每月最多7200次对话，上下文 128K。

hhh，卷起来好，Github Copilot 的免费个人版要大气点了，才 2000 次补全和 40 次对话～简直上不了台面

2、悄咪咪的更新自己的 https://aistudio.google.com/，支持新建分支。

都看到这了，求求一键三连，添加公众号为星标～第一时间获取新鲜推文

欢迎扫码交流群

THE END

阅读原文

跳转微信打开

写代码真的强无敌

4o

v0

Claude 3.7

等等，除了谷歌崩溃，我也崩溃了

对了，各方应对

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签