原创 小可怜Gemini 2025-02-26 12:53 广东
分析了 Claude3.7 的数据,我发现了一些秘密
昨天 Claude 又又又低调炸场,小编文章发的晚,技术细节就不多讲了,说下我的看法:
1、从数据上来看,本次模型的性能最大提升在于使用“extended thinking”所带来的数学以及逻辑推理能力,比如在 AIME 上的得分是不使用extended thinking”的 2.63 倍,从 23% 提升到 61%。
2、因此除了Math与复杂推理以外的场景,使用 Claude 3.7 Sonnet的extended thinking带来的收益并不明显,增幅小于 5%,视场景使用“extended thinking”
才是最优解,比如 coding 场景,基本不需要使用,节约成本。
3、虽然 Grok3 with thinking的数据不完整,但从数据不难看出,其 Math 与复杂推理能力略微领先本次发布Claude 3.7 Sonnet with think。
4、可以全面切换到 Claude 3.7 模型:
Claude 3.7 (No extended thinking) 对比 Claude 3.5 (new) 的整体实力是全面提升的,尤其在涉及编程 (SWE-bench)、Agentic tool use (TAU-bench)、以及数学推理等需要更多逻辑推理或跨步骤思考的任务上,差距会更明显。
在通用语言处理、多语言问答、指令遵循等对话/理解类任务上,3.7 也有小幅或中等程度的提升,但不如在复杂推理任务中的提升来得显著
Claude 3.7 (No think) 已经成为一个在多方面超越 3.5 (new) 的版本,更强的编程理解与工具使用能力或许是 3.7 训练/调优的一大关键。
5、DeepSeek R1 的含金量再一次被证明:逻辑推理能力与 Math 水平都在第一梯队,其 Code 能力也持平Sonnet 3.5 New,这是全球 AI 领导厂家的跑分对比中真正意义上出现中国玩家!(如果我没有记错的话,真记错了,Grok3发布的时候已上榜~)
6、可怜的谷歌连上都没上,不知道是没有数据呢还是只能去小孩那一桌 :( 可是谷歌真的很好用。 没事的谷歌,能持续发布就很厉害了...
7、某种意义上,OpenAI 是本次跑分中最强的模型,OpenAI o3-mini¹ High获得领先指标最多,我们可以一起期待下 OpenAI O3 完整版本。
8、本次发布中 Claude 3.7除了在 Agentic 系列与指令跟踪领先,其他指标都无法获得最佳得分,我认为本次发布主要是快速补充 Think 类模型,避免在众多 AI 供应商中失去话题热度,另外也体现出anthropic的agentic优先策略。
谷歌:伤害不大侮辱性极强。
写代码真的强无敌
指令遵从性这么强,Code 能力又这么好,Claude3.7 再一次让让大家震惊,仔细思考了一翻,其实除了指令遵从性以及强无敌的代码能力,本身Artifact的工程化能力也是顶尖的,直接开跑各类库,工程化能力也遥遥领先,Trent分享了一个小 case。
通过一次 Prompt,直接高质量生成了一个冥想类小应用。
做了一个小评测对比,大家可以直观体验下:
4o
后面我还额外 pua 了 n 轮,越来越差,甚至不能跑
v0
大跌眼镜,v0 一直是我认为的前端一哥,不说引领全球也算是第一梯队,没想到一通下来,来跑都跑不起来
Claude 3.7
Trent分享的case更好,甚至包含音效,具体的 Prompt 大家可以看他的即刻。
等等,除了谷歌崩溃,我也崩溃了
为啥,维护一整年的跑分大模型要崩啦,一直以来大家都使用 MMLU MMMU 作为通用能力的跑分标准之一,最近 MMLU升级到 MMLU-Pro,没想到几个月不到,MMLU-Pro 就被抛弃了,现在是 MMMLU...
我连忙请教专家,专家也一脸无奈
所以跑分算是废了,使用新的基准吧(多一列),让我们来看下 最佳性价比的模型是什么吧
~ 60 - 70 区间基本可以入手 Gemini 2.0 Flash 系列,绝对是性价比之选!
70以上 Deepseek当仁不让。
~ o3-min-high 还没价格,直接按照 o3-min *2 , Grok3/Gemini-2.0-Pro 都没价格,使用上一代同模型价格。
具体跑分细节可以查看:
https://langgptai.feishu.cn/wiki/HteYwsIMpimxO8kFqJ8cylqEnoe?table=blkxAzUVuUw1KjeT
对了,各方应对
为了应对 Claude 3.7 发布带来的冲击,大家都拿出了点新东西:
OpenAI: DeepResearch 终于给到普通的 Plus 用户,每月有尊贵的 10 次体验机会,请小心谨慎的使用。
Google:
1、推出Gemini Code Assist编程助手个人版,免费额度是:每月180,000补全/每月最多7200次对话,上下文 128K。
hhh,卷起来好,Github Copilot 的免费个人版要大气点了,才 2000 次补全 和 40 次对话~简直上不了台面
2、悄咪咪的更新自己的 https://aistudio.google.com/,支持新建分支。
都看到这了,求求一键三连,添加公众号为星标~第一时间获取新鲜推文
欢迎扫码交流群
THE END