OpenAI的“看图思考”，被玩坏了……

虎嗅前天 14:08

OpenAI的“看图思考”，被玩坏了……

文章探讨了GPT-o3在视觉推理方面的能力，重点关注其在图形推理和演绎推理上的表现。通过测试，发现o3在识别图片元素、总结图片特点以及调用外部工具方面有所进步，但准确率和响应时间仍有提升空间。此外，文章还展示了o3在“看工位，猜MBTI”等演绎推理任务中的应用，展现了其agent思维的潜力。文章总结认为，o3在视觉推理方面具有较高的可玩性和潜力，但同时也强调了在应用中应注意伦理问题。

🧐 o3在视觉推理方面展现出一定能力，能够识别图片元素并进行总结，例如识别验证码和分析AI图片的特点。

💡 o3在图形推理方面，通过分析国家公务员考试模拟题，尝试进行归纳推理，但准确率和推理时间有待提高。

🤔 在演绎推理方面，o3尝试“看工位，猜MBTI”的挑战，展现了其agent思维，能够调用不同的工具和方式进行推理，但结果有时存在偏差。

🛠️ o3在推理过程中，会根据需要调用代码工具，如PIL、numpy和skimage，辅助其理解和解决问题。

知道大模型接下来要卷视觉推理，但没想到这么卷——数学试卷都快要不够用了。

常看推理小说的朋友们都知道：推理也分不同的类型，有专注于逻辑的，也有演绎类的。

既然GPT都更新到o3了，还加入了图片推理，那就都-得-有。

逻辑推理，但视觉版

视觉推理并不新鲜，各家都在做。这讲究的不仅仅是从图片中识别元素，还得理解这些元素，并且进一步沿用到与用户的交互、解决工作任务中。

在o3之前，Gemini 2.5在视觉推理上有非常惊人的表现，我们之前也有过测评，速测了一下o3的识图能力。

不过凌晨刚发布的时候，o3可能没睡醒，一个简单的武康大楼认不出来。等到下午再测，“智力”就恢复了。

同时还引用了外链，保证了核查环节。这种识图能力还是很实用的，比如我们做了两个验证码识别。

之前爆火的Manus以及同类型的通用型Agent产品，可以实现自主通过验证码，现在这是一个应用潜力比较大的能力。

不过，在大模型流行之前，传统搜索引擎也可以完成识图的工作。验证码、识图这种小case，不太能准确反映o3的能力。

于是我们找了真-图形推理题：2021年国家公务员考试模拟考题。

建议想考公的朋友们，都别直接滑下去，先自己做一做。这样的图形题，考察的是归纳推理的能力，即根据已有的内容推断出下一步。

果然真题就是不一样，o3的推理超过了六分钟，思维链长达5千字，不仅有图片推理，还结合了代码帮助它自己理解。

然后水灵灵地答错了——正确答案是D，每个图形都有且只有一个封闭区域，故选D。o3想了一大堆，最终错选了C。

虽然题目答错了，不过能看出来o3的确如所承诺的那样，推理是基于图片素材进行的。

这种归纳推理的方式，有什么实用价值吗？——可大了，这下可以用AI对狙AI。

这一阵在小红书上流行的“极其平庸的AI图”挑战，里面都是晃动的镜头、模糊的焦点，“仿佛从口袋中掏出手机时意外按下快门拍下的”。

老实说就上面这些个图，也太难以怀疑了。AI检测AI生成文本很常见了，现在也可以让它检测AI图片。

o3说，它懂GAN生成对抗网络，它还懂分析EXIF，它可以来总结归纳AI图片的特点。

有几分道理。可以看到它的推理分析方式是转换成代码语言——在面对纯逻辑推理的时候，几乎都会转换成代码语言。比如下面这个迷宫解题：

在这个迷宫问题中，o3考虑使用PIL、numpy和skimage来进行形态学处理，并且编写了python来解决。基本上，这等于是在ChatGPT的对话窗口里调用不同的工具来辅助。

迷宫对o3的挑战非常大，推理时间去到了2分钟，效果也比较一般：最后试图生成的路径解法，但是一条无法点击的空连接。

再给其它的迷宫题，o3同样转化成代码语言来理解。不过，这题它也没有解出来，而且直接弃赛了。

总结一下：在归纳推理方面，o3通过识别视觉元素、总结图片特点，并且调用外部工具，进行比对识图，这些能力都覆盖了。

准确率和响应都有待提升，尤其是推理时间久、思维链条长，最后还是错误答案的话，换哪个用户都要不开心的。

基本演绎法，但AI版

除了归纳型推理，还有演绎推理。这需要AI综合上述所有的能力，并且有一点“发散思维”。

这是相当让人兴奋的部分，我们设计了一套“看工位，猜MBTI”的挑战活动，交给o3。

结果相当有意思，虽然到底是I人还是P人，工位未必能完全体现出来——但这不就是o3要挑战的吗？接下来奉上内容部门同事们的桌面，以及o3对他们的“判定”。

【P人主编】

主编的P属性非常明显，还P得非常稳定，桌面两年没有变化，这点o3都发现了：不太花时间收拾。

【J人社媒编辑】

社媒编辑的桌面由于过于系统、技术含量过高，触发了o3调用代码工具——好可怕的J人。

【P人实习生】

实习生的桌面东西不多但信息量不少，尤其是显示屏上贴了一串小纸条，原以为是便利贴，结果全是奶茶标……

这触发了o3的“逐part分解”，每一个细节都放大来看。不过，这样的触发并不是每次都能出现，暂时还没有看到明确的触发方式。

【P人硬件及影像编辑】

工位主人表示o3判错了，他明明是P人——只是没有反映在工位布置上。只能说GPT有时比人更了解人自己。

【J人汽车编辑】

在prompt中，我们没有规定o3的返送方式，不过每次它都会拉成表格，结合MBTI的不同维度，分点给出线索和相对应的推理。

总结一下：演绎推理是o3颇为让人兴奋的地方。尤其是思维链打开，可以看到针对不同的案例，调用不同的工具和方式。

明显可以看到“agent”思维，直接应用在了ChatGPT当中。这是本次大版本更新中，除了模型的基础能力之外，最让人兴奋的地方。

整体上是一个可玩性非常高的版本，尤其是图片推理的潜力，相当值得期待。但是用图片推理来搞赛博开盒什么的，完全不可以啊喂！

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

GPT-o3 视觉推理图形推理演绎推理大模型

相关文章

Import AI 370: 213 AI safety challenges; everything becomes a game; Tesla’s big cluster

回顾我的 prompt 能力从小白到熟练的一些重要节点：防杠叠甲： 1. 仅代表我自己的认知，没啥权威性。 2. 认为提示词那么简单至于搞那么复杂么的朋友，你对 3. ...

SAP大中华区总裁黄陈宏：SAP不做大模型

Robust Visual Reasoning with Adriana Kovashka - #463

李开复：现在对中国大模型创业公司盖棺定论为时尚早，ofo式的补贴逻辑不再适用于AI 2.0

寒武纪：新一代智能处理器微架构和指令集正在研发中

阿里管理层：绝大部分大模型公司追求的方向一致，长期发展方向是图文视频音频融合大模型

大模型一体机是在“卖盒子”吗？

百度文心大模型日处理Tokens文本已达2490亿

万联证券：国产人形机器人行业发展进程不断加速