夕小瑶科技说 04月18日 21:17
o3视觉推理,暴打了Gemini 2.5 Pro和Claude 3.7 Thinking
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI 最新发布的 o3 模型在图像推理和工具使用方面表现出色,刷新了编程、数学和视觉推理的SOTA。文章通过实测,展示了o3强大的图像推理能力,能够像人类一样分析图像细节,并结合搜索、编程等工具解决复杂问题。文章还对比了o3与其他模型的表现,并探讨了其在逻辑推理、常识判断和编程等方面的优势。总的来说,o3重塑了多模态AI的标杆,为AI代理时代描绘了蓝图。

🧐 o3 模型在图像推理方面表现出色,能够通过放大、旋转图像等方式,寻找关键信息,进行细致的分析和判断,从而解决复杂的视觉推理问题。

🛠️ o3 模型强化了工具使用能力,在思维链中会主动调用搜索、python编辑器、画图等各种工具,辅助解决问题,例如在密码锁问题中,它会使用编程来处理。

🥇 通过与Claude 3.7 Sonnet和Gemini 2.5 Pro等模型的对比,o3在视觉推理、逻辑推理、常识判断和编程能力等方面均展现出显著优势,尤其在处理复杂问题时表现突出。

💰 o3 模型在性能提升的同时,价格也更具竞争力,整体上相当于加量不加价,而o4-mini系列模型在性能上则略逊一筹。

原创 zJz 2025-04-18 17:19 北京

今天凌晨,OpenAI 发布了 o3 满血版和 o4‑mini。

奥特曼亲自为新模型站台,称 o3 的智能达到和接近天才水平。

而且还有人说,OpenAI 这次又重回王座。

当然,从官方放出来的榜单结果看,在编码 SWE-Bench 和 Codeforces、数学 AIME、视觉推理 ARC-AGI、知识 GPQA, o3 以“十倍 o1 算力”刷新了编程、数学和视觉推理的 SOTA。

而且,在更难的 SEAL 排行榜上几乎是全面领先。

    HLE(人类终极测试):测试知识前沿的复杂推理。
    MultiChallenge(多挑战):评估多轮指令遵循能力。
    MASK(掩码):检验压力下的诚实性。
    ENIGMA(谜题解答):衡量创造性推理和逻辑能力。

这两个模型可以用震撼来形容,因为它们是原生图片推理模型。

这是什么意思?

就是我们目前所见到的推理模型都是文字的推理,但是在 o3 的思维链中,可以实现对图片进行推理。

它能自主地对图片进行缩放、裁剪、分析,那些被人眼忽略的细节,都能被找出来放大,简直就是福尔摩斯 o3。

就像我们人类从视觉寻找信息的过程一样,定位细节然后揣测,不止如此,还能调用搜索、python 编辑器、画图等各种工具。

没错,这次的模型还强化了工具使用能力,在思维链中会主动使用 OpenAI 自家的各种工具进行辅助,比如需要编码解决问题,就会调用 python 工具,需要绘图就会主动使用 GPT-4o 画图,让推理模型也变成全能选手。

模型的效果提升了,价格却便宜了

    o3 相比 o1 整体便宜了 30%。
    o4-mini 相比 o3-mini 价格基本没变。

整体上相当于加量不加价。

铺垫就到这里,按照咱们公众号的风格,必须进入实测环节!

原生图像推理

这个图像推理的触发过程有些迷幻,为了达到最好效果,每次提问都用英文输入。

根据照片判断城市

Where is this place most likely?

这里最有可能是哪里?

我这里要强调一下,新模型本次最大的更新就是可以在推理过程中主动通过放大旋转图像,寻找关键信息。

我们先看 o3 的结果:

答案正确的回答出拍摄地点在北京。

在思维链中,它调用 python 工具对图像进行放大,提取井盖上的关键词“北京”, 同时通过汽车车牌上的“京”字进行辅助验证,最终成功判断地点是北京。

这种通过观察局部细节进行分析的方法,与人类进行判断的方法非常相似。

第一个测试,o3 轻松通过。

这里我把这道题也丢给了曾经的视觉之神——Claude 3.7 Sonnet。

Claude 3.7 Sonnet 只猜出了这是中国的城市,连北京都没有怀疑一下。

当然,你可能会质疑,Claude 3.7 Thinking 是不是有可能做对?

由于官网没法直接用 Thinking 模型,我们这里通过 API 也进行了对 Claude 3.7 Thinking 的测试——

结论是——没变化。

这一局 Claude 3.7 确实彻底输给了 o3 。

再来看看前阵子惊艳全网的 Gemini 2.5 Pro,这个推理 + 视觉能力双杀的昨日霸主:

从推理结果来看,Gemini 2.5 Pro 确实比 Claude 3.7 Thinking 视觉推理更强,但它的推理逻辑显然远不 o3 的推理逻辑 solid——有北京车牌的城市就是北京吗?显然不是。

而 o3 狠狠抓住的视觉证据——井盖上面有“京”字,这个证据显然非常充分。毕竟北京的井盖不可能被弄到其他城市用。

o3:欢迎评论区来杠

汉字找不同游戏

提示词:play this game

出乎我意料的是,这个题目触发了一个长达 10 分钟的思维链,让我有一种赚到的感觉。

这个题的思考过程更加复杂,不仅仅主动处理图像,还主动使用了 python 编程进行分析。请通过视频感受一下这个思维链的长度。

最后给出了正确答案,明确的指出了在第 12 行,第 2 列, 还在图像中标记了出来。

但我测试发现,OpenAI 似乎又一次坑了一把开发者,因为同样这道题,在 Poe 这类通过官方 API 调用实现的平台上,o3 是无法正确回答的。

让我比较意外的是,这道题 Claude 3.7 Sonnet 竟然做对了——

而 Gemini 2.5 Pro,这个主打多模态能力的推理模型竟然把这道不算很难的视觉题做错了——

图表理解能力

提示词:给我详细总结这张图

这张图的内容是各个模型在“门萨”智商测试中的表现,让我们看看大模型的效果是否跟图中的得分匹配。

先看智商最高的 o3:

这个总结效果非常详细,包括对图中曲线,图例和柱状图都有详细的解释,提出了对信息的汇总以及局限性。

内容相当完整。

下面是 Claude 3.7 Thinking——

这个结论也是没有问题。

下面是 Gemini 2.5 Pro :

看来这个题目对于各家的旗舰模型还是太简单了。

网友的例子

这里再给大家放一些网友的例子:

用 o3 查询地理位置的——

看得出,o3 通过细节找地点真的很强。等等,我好像发现了一个新的生意,比如用 o3 查查酒店什么的。。。

还有用 o3 玩迷宫的:

逻辑推理能力

理发师理发问题

小镇有一个理发师, 这个理发师有一个规矩,他只给所有拜访他的人理发。 请问他是否该给自己理发?

这个题不仔细看会落入思维陷阱中,这不是那个有名的“理发师悖论”。

理发师悖论: 小镇有一个理发师, 这个理发师有一个规矩,他只给不给自己理发的人理发。 请问他是否该给自己理发?

我们先看 o3 的表现:

o3 的表现非常好,首先提到了“理发师悖论”, 但是又准确的指出这个题目与它不同,然后给出了正确答案。

下一个选手, Claude 3.7 Thinking——

Claude 3.7 Thinking 直接掉入了陷阱,把题目错误的当成了“理发师悖论”,直接回答错误。

再看 Gemini 2.5 Pro 的结果,不出所料,也陷入了“理发师悖论”的陷阱,回答错误。感觉没有分析,直接进入了过拟合状态。

密码锁问题

甲、乙、丙三个海盗发现了一个巨大的保险柜,可惜保险柜上挂着一把密码锁。锁的密码由 5 个不同的数字组成。于是,他们胡乱猜了起来。他们每人都猜对了位置不相邻的两个数。根据 3 个已知条件,推断出密码是多少! 甲乙丙的猜测:

    甲:8 4 2 6 1

    乙:2 6 0 4 8

    丙:4 9 2 8 0

这个题对 o3 非常轻松,而且它还使用了编程的方式进行处理:

这里是代码:

运行代码,得到正确答案 8,6,2,4,0, 推理过程还对答案进行了二次验证。

可以看的出来,这个新模型确实挺喜欢使用工具。

现在来看 Claude 3.7 Thinking 的结果:

这次没问题,Claude 3.7 Thinking 终于扳回了一点颜面。

再看 Gemini 2.5 Pro:

这次也 OK。

但它们和 o3 的风格明显不同,o3 直接上代码,另外两个完全通过逻辑进行判断,你们觉得那种方法更好?

“父亲崩溃”问题

有一天,一个女孩参加数学考试只得了 38 分。她心里对父亲的惩罚充满恐惧,于是偷偷把分数改成了 88 分。她的父亲看到试卷后,怒发冲冠,狠狠地给了她巴掌,怒吼道:“你这 8 怎么一半是绿的一半是红的,你以为我是傻子吗?”女孩被打后,委屈地哭了起来,什么也没说。

过了一会儿,父亲突然崩溃了。

请问:这位父亲为什么过一会儿崩溃了?

这种“复杂”的问题,直接交给 o3——

这个答案我没想到。。。

这是 o3 的推理过程:

o3 对于不会的问题,直接用工具搜索。

学霸懂生活,会用工具!

我们看 Claude 3.7 Thinking 的结论:

这个结果,只能说 Claude 3.7 Thinking 不懂生活。

下面是 Gemini 2.5 Pro 的结果:

果然不出所料,一样不行。只有 o3 猜对。

常识能力

一个六米长的杆子,能否穿过 3x4 米的门洞?

直接看 o3 的回答:

虽然 o3 给了正确的计算,但这个答案过于“数学”,把一个简单的问题过于复杂化,不说人话。

下面是 Claude 3.7 Thinking

Claude 简洁明了,结论虽正确,但过程不合理。

来看看 Gemini 2.5 Pro 的:

Gemini 2.5 Pro 陷入了大模型的“思维定势”,默认门和杆子是在同一个平面内,给出了不能穿过的错误结论。

编程能力

自主贪吃蛇游戏

create an autonomous snake game, where snakes compete with each other

创建一个自主贪吃蛇游戏,每个蛇要与其它蛇竞争,直到最后一条存活。

直接看 o3 的回答(部分代码截图):

游戏运行效果:

这种级别的代码题目完全没难度,直接一次过!

Claude 3.7 Thinking 的表现也相当不错,采用 python 代码,一次通过:

下面看 Gemini 2.5 Pro:

这个完成度也是没得说。

o3 和 o4-mini-high 哪个强?

受限于文章篇幅和主题聚焦,本文没有再把 o4-mini-high 的评测结果放出来。

但经过编辑部的评测,可以认为体感上 o3 是足够碾压 o4-mini-high 的。

如果觉得 o3 标准版不够强,还可以通过 API 调用 o3-high 的版本。

总之,你可以认为,OpenAI 目前放出来可用的最强推理模型,是 o3-high,而不是 o4-mini 系列。

有做过 o3 和 o4-mini 系列模型横评的小伙伴,也可以把更多 case 和结论贴到评论区。

除此之外,o4-mini 系列的模型,似乎网络风评也不是太好,比如 reddit 上这位老哥的抱怨——

只能说,还是一分钱一分货。

o3 的价格比 o4-mini-high 贵了 N 多倍。

只不过 openai 的命名实在太无力吐槽了——

先是上线 GPT4.5,然后发布 GPT4.1。

明明发布了 o4-mini-high,能力却打不过同一天发布却版本号更老的 o3 标准版。

考虑到还有 API 特供的 o3-high 的版本,这套命名体系简直是灾难。

结尾

这次测试,给我印象最深的主要是两点:

    多模态图片推理功能很厉害,通过搜寻关键物品,仔细观察,提取重要信息的这个流程非常像人类。
    模型倾向使用工具,在密码锁问题中会主动使用程序来解决问题,在“父亲崩溃”问题中也会主动进行联网搜索。

o3 和 o4-mini 是 OpenAI 首次将图像推理融入“思维链”(chain-of-thought)的模型,又重新定义了多模态 AI 的标杆”。

而且,一个会用工具的推理模型,真的很厉害。

也许这就是 OpenAI 对“AI 代理”时代的完整蓝图:多模态推理 + 工具链调用 = 你的超级助手。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenAI o3 图像推理 工具使用 多模态AI AI模型评测
相关文章