满血版o3探案神技出圈，OpenAI疯狂暗示：大模型不修仙，要卷搬砖了

这份工作的魅力之一，就是能第一时间体验到最新、最前沿的大模型。当然，发布初期难免有些社死时刻，但这次，例外。就在前天深夜，OpenAI 重磅空降 o 系列模型的最新成员： o3 与 o4-mini ，也是迄今为止他们 最聪明的模型。

人类的进化，始于制造和使用工具。o3 和 o4-mini 也是如此，他们的「聪明」源于学会了使用工具。

模型能 自主调用联网搜索、记忆系统、代码解释器等 ChatGPT 原生工具 ，实现任务闭环处理。你只需要布置任务，然后可以放心起身去倒杯咖啡——回来时， 高质量结果已在屏幕上静候 。而且，它们还有一个关键升级： 视觉思维能力 上线。不仅能看图识物，更能像刑侦人员一样，从图像中分析、推理、挖掘信息。要说差异，o3 是满血旗舰，性能拉满；o4-mini 是高性价比小钢炮（ GPT-o4 的小型化版本）， 体积更小、价格更优，但性能不打折—— 尤其在数学和编程任务上，表现出乎意料的强劲。网友直呼：一周之内，它就成了我处理绝大多数任务的首选模型！写作时，我依旧用 GPT-4.5；编程时，还在用 3.7 Sonnet；但除此之外，我一直在用 o3 。

免费用户，每天至少有一次体验o3机会，记得选择 reason。据说，几周后 OpenAI 还将来发布 o3‑pro，提供更全面的工具支持。所以，我们可以窥见到一个趋势：接下来，大家卷的大方向会更务实，会利用强化学习教会模型使用工具，解决现实问题。

所以，后面展示的这些案例——包括我们实测 + 网友反馈——也都是为了帮助大家更直观地理解：大模型正在变得强大，不是因为「懂得多」、「知道一切」，而是因为「能连续、递进地使用多个工具」去搞定更复杂的问题。

01

论读图，o3 目前绝对是 No.1。先上开胃菜。随手在办公室拍了张照片，故意把书放歪，先问 Google Gemini ( Gemini 2.0 Flash ) 书名是啥？哥们儿完全识别不了（左）；换了 o3 ，轻松搞定（右）。

最精彩的部分是 o3 思考的模样，感觉和人的动作很像：翻过来、倒过去、剪裁、拉近、放大，想尽办法用工具看清书脊上的字。

成功识别书名后，继续询问价格、哪里可以买得到？它又自动调用网页搜索，寻找关键信息：

很快完成任务，豆瓣评分都给找好了。

不过，真正让我们感受到 o3 是真· Agent 的，还是它在某些极限任务上的表现——比如： 地理猜测能力 。我们上传了一张悬疑剧《沙尘暴》的剧照，画面里能看到的，只有：

一位模糊的警察；

一辆模糊的车；

高压电线；

以及，大片几乎没有细节的灰黄色背景。

连人看了都只想说一句：这能猜出啥？我们却对 o3 发出指令： Geoguess this place.

o3 启动了，可以清楚看到它先看什么、怎么看、看到了什么、想到了什么。

看的结果一刹那，我飚了一句 hollyshit !

我当然知道这部剧是在甘肃瓜州等地拍摄的，但万万没想到一个 AI 可以凭借电网特征、垂直光柱、戈壁地形等线索，给出这么精确定位——

敦煌熔盐塔式光热发电站周边，还有地理坐标！

顺便送上了相关网页链接，点进去就是发电站介绍。

这已经不是图像识别精度的问题，而是能 基于视觉线索展开因果、社会文化背景等多维推理 ，像探员一样，从一帧图里挖出更多信息。这也是「模型即 Agent」的价值所在作为对比，这是没能触发 Agent 能力的结果：细节、精准度实在差太多。和人一样，大模型也会偷懒、划水。

精彩还在继续。《聪明的沃利》是一套由英国插画家 Martin Handford 创作的儿童书籍，目标就是在一张人山人海的图片中找出一个特定的人物沃尔多（ Waldo ），多久才能找到沃尔多？10秒？30秒？一分钟？这回，我们让 o4-mini 玩了把《 Waldo 在哪里？》，请从图中找到与周杰伦最神似的人。

图片以四倍速展示你觉得 o4-mini 找到的这个人物像周董吗？

o3也能玩儿真是有了python 工具在手，啥都不怕。一次性找到一条穿过这个 200x200 迷宫的路径，也不在怕的。

提示语：Solve this maze by adding a red dotted line for the solution path 甚至还能出个小动画，让结果「动」起来，比静态图直观多了。还记得 GPT 4o 可以直出 GIF 吗？o3 也没问题。虽然它不是文生视频模型，但你可以让它绘制寻路路径的帧图，将它们做成 GIF 或者MP4 下载。

来自X @gantrols 这个交通事故分析的例子，真的是现实落地典范。一张事故现场图，就能帮你分析事故原因、判断责任。图像理解+因果分析+法律知识，一锅炖。

来自X @ @op7418

02

说到出色的推理能力，据说，这是一个只有 o3 能答对的题：

有一天，一个女孩参加数学考试只得了38分。她心里对父亲的惩罚充满恐惧，于是偷偷把分数改成了88分。她的父亲看到试卷后，怒发冲冠，狠狠地给了她巴掌，怒吼道：你这8怎么一半是绿的一半是红的，你以为我是傻子吗?女孩被打后，委屈地哭了起来，什么也没说。过了一会儿，父亲突然崩溃了。请问：这位父亲为什么过一会儿崩溃了?

最近，智谱的沉思模型正好上线，还能免费体验，它也善于调用工具，就先让它试试。思考过程中，它确实意识到了色盲问题，但终究没能捕捉到这个遗传信号里隐藏的关键信息，进一步展开推理。错失靶点，结论又回到了「因内疚而崩溃。」

换了 o3，自动执行搜索资料，敏锐捕捉到遗传信号里的疑点，推理出更惊人的事实。

当然，它也不是每次都这么聪明——有时也会偷懒，给你瞎胡扯一通（如下）。但当它真的认真起来，那推理能力是真的惊艳。

GPT 4o 的 Deep Research 是目前最强大的科研助手。现在，有了工具能力加持， o3 就像精简版 Deep Research。比如最近我想深挖斯诺登的《永久记录》，就请它做了一份反向大纲，挑出那些「网上很难找到，但书中明确存在的观点」——结果还真有，比如：隐藏线索，电子游戏（无法后退）与数字系统不可撤销的暗和。容易忽略的观点，本书后半出现了日记、谈到了爱，这种「情感连接」和贯穿全书的「数据连接」构成了强烈对比。

提示语：读完这本书的全部内容。给写一份详细的反向大纲，找出人们通常会忽略的关于这本书的有趣且令人惊讶的主题、观点等等（比如，你在网上任何地方都找不到但肯定在书中存在的内容，也许是作者放进去但大多数人没有注意到的内容）

最后，丢一点点丑话。就算咱是尊贵的 20 美元月付用户，也不能保证每次都能触发视觉推理能力，成功概率也跟赌博差不多。为什么会这样？网友各有说法，比如和输入语言有关、任务类型有关。我们的推测，这类服务总归是个非常耗费算力的事情，官方不可能四平八稳响应每一个任务，应该会想办法「节流」。但，每天头几个任务，一般还是可以顺利激活。另外，就是幻觉这个问题。o3 有时会以为自己用了工具，但实际上并没有。按有的网友说法，「o3 经常为了满足用户请求而编造操作，并在用户质问时精心辩解这些编造行为的合理性。」

总的来说，现在的大模型正在冲击一个新阶段：更智能，更务实，仍需要咱「带脑子」使用，合理管理预期。

本文来自微信公众号 “机器之能”（ID：almosthuman2017），作者：关注AI的，36氪经授权发布。

01

02

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签