原创 WaytoAGI 2025-04-17 23:22 浙江

考公战场惊现AI黑马：o3行测正确率碾压90%人类考生

今天凌晨，o3满血版和o4 mini发布后，各个群里又炸开了锅。除了对新模型能力的感叹，大家也提供了非常多精彩的测试案例，一起来看！

📌

官方文档：

https://openai.com/index/introducing-o3-and-o4-mini/

核心亮点

o3 旗舰推理模型

：全面超越o1，支持

多步规划/复杂系统

，视觉推理能力提升20%

o4-mini 性价比之王

：价格与o3-mini持平，数学/代码性能反超o3

全工具链支持

：首次实现搜索/文件分析/Python执行/图像生成的

自主工具编排

下方有测试案例，大部分是o3，部分o4-mini-测试high

详解：

🧠 核心模型能力提升

o3 是完整版大模型

，比 o3-mini 更强，首次支持工具调用（如 Python、联网、函数调用等）。

o4-mini 是 o4 的轻量版

，架构更先进，性能接近甚至超过 o3-mini。

🔧 工具使用能力

o3 和 o4-mini 均支持 OpenAI 的全套工具（Python、浏览器、函数调用等）。

o3 在工具使用场景中表现尤为突出，能显著提升准确率（如 AIME 数学赛从 91.6% 提升到 95.2%）。

👁️ 视觉推理能力（重大突破）

o3 和 o4-mini 是首批具备“视觉推理”能力的 o 系列模型。

能够“看图思考”，不仅识别图像，还能将图像纳入推理链条中。

在图像猜地点、人物识别等任务中表现出类人思维过程。

📊 多模态任务表现

💻 编程与代码能力

在 SWE-Lancer、SWE-Bench、Aider Polyglot 等真实软件工程任务中，o3 表现遥遥领先。

o4-mini 在某些代码编辑任务中略逊于 o3-mini。

🧩 多轮指令与函数调用能力

o3 在多轮指令跟随（Scale MultiChallenge）和网页浏览任务（BrowseComp）中表现优异。

在 Tau-bench 函数调用测试中，o3 对比 o1 提升不大，仍有改进空间。

📉 幻觉率与准确率权衡

o3 准确率显著提升，但幻觉率也上升至 o1 的两倍，说明其更“自信”但也更容易出错。

💰 定价策略

o3 比 o1 便宜三分之一。

o4-mini 与 o3-mini 同价，性价比更高。

大家的测试

精准找到肉眼看不到的书 @Indigo

我让它从这张模糊的照片中，确定书架上是否有《思考快与慢》这本书，它可以自己调用工具剪裁放大照片定位，然后做画面想象推理，最后给出断定的结论。

结论是：有这本书！

大家可以先放大照片，试试人类肉眼能否找到。

地点推测很精准 @临风

薛临风：“这个推理过程属实有点炸裂，我完全不抱希望的，因为我在广州待了7年，这个视角没有广州塔啥的明显标志，我是猜不出来这是琶洲大桥。”

“推理过程，会自己设想，然后做一个猜想，然后自己去搜索做验证，然后推翻之后再设想，然后还会反思有没有疏漏。”

和Yee老师在杭州隧道 @AJ

这个也很厉害！只通过模糊的紫色英文字样“Heart to…”，断定了是19年杭州亚运会的口号，然后结合隧道和这套视觉体系的使用范围，就定位到了具体位置。

而且AJ和yee分别拍了照片, o3还能刑侦出是在一辆车上！

帮小红书姐妹找点信息

蚌埠住了，小红书的姐妹们要失业了……

虽然没有直接点明有两个人住的痕迹，但整个推理过程说了一大堆蛛丝马迹，看来GPT是个劝和专家。

考公测试题 @AJ

通过以下几个图形猜数字，普通人看到这题只觉得抽象。o3给出了完整推理过程和正确答案，去当公务员吧孩子。

在火山方舟开发者见面会教我搭硬件

3张图，教会你如何搭AI硬件！细，太细致了！

卡路里测试

经典的卡路里测试题也是越来越精确了。

测风水

截图就能测风水，租房小白和纠结症患者有救了。

判断食物是否过期

做数独

地点推测--杭州拱墅

解答复杂PPT的内容

在火山引擎的会上听不懂在讲什么, GPT解释的非常清楚。

o3识别鱼的品种

不仅给出了鱼种，常见做法也一次性解释清楚了。

o3 推测装修限制

像是给自己请了个专业讲解的师傅。

判断民宿房源真实性 @歸藏

预定民宿害怕被骗？o3 直接寻找位置排除盗图和照片造假可能。

在看这些案例，看它一步步推理出图片背后的细节和逻辑，推理错了还能推倒重来时，起了一身鸡皮疙瘩。

或许会有人觉得，但它还是会推理错呀。

但要知道，AI模型是不断进步的，进步速度远远超出了人类个体的学习速度。

而我们当前看到的，只是AI视觉推理的最小应用场景。

如果将AI视觉推理应用到医疗中，就能辅助医生更快、更精确地找到肿瘤或病灶，还能根据其形态、位置，与其他组织的关系，快速给出诊断建议。

应用到无人驾驶中，AI模型就能根据摄像头捕捉到的实时图像，更准确地识别路况、障碍物等，进行更高效的路径规划。

又或者是在历史图像复原及解读中，能通过更深入的推理和分析，揭开一些人类未解之谜……

当这些能力被应用于更多场景和领域中时，它的价值将被重新定义。

而o3和o4-mini将是AGI道路上的关键里程碑，让AI更轻、更快、更贴近真实使用场景。

一个彩蛋

甚至这篇文章标题也是GPT起的，深度掌握了爆款公式的精髓。

爆款标题工厂：OpenAI o3/o4-mini 实测案例灵感库

标题结构公式

核心亮点 + 冲突对比 + 具象案例 + 行业颠覆宣言

一、悬念挑战型（引发好奇心）

"人类肉眼败北！OpenAI o3竟从480p马赛克中找到《思考快与慢》，它看到了什么？"

案例锚点：Indigo的书架模糊照片测试

技术点：视觉推理+图像增强工具链

"公务员考试惊现AI考生？o3在行测题碾压90%人类，体制内要变天！"

案例锚点：AJ的考公测试题

反差设计：AI vs 人类传统智力竞技

二、数据炸场型（强调性能碾压）

"95.2% AIME正确率+零样本代码生成：o3用20行Python改写硅谷工程师工作流"

数据锚点：数学竞赛提升3.6个百分点

场景联想：工程师日常工作替代

"1秒定位杭州隧道拍照点：o3的地理推理能力让GPS地图商颤抖！"

案例锚点：Yee老师的隧道照片测试

行业威胁：传统地理信息服务商

三、功能震撼型（展示特殊能力）

"AI风水师上线！o3通过建筑结构图预测运势，玄学遇上强化学习会发生什么？"

案例锚点：风水测试

跨界混搭：古老玄学+前沿AI

"硬件小白逆袭！火山方舟见面会上，我是如何用o3指导组装物联网设备的"

案例锚点：硬件搭建教学

身份反转：AI指导人类操作硬件

四、行业颠覆型（引发焦虑感）

"咨询公司深夜警报：o3在SWE-Bench击败90%程序员，码农要失业了？"

数据锚点：软件工程基准测试

行业映射：程序员职业危机

"比营养师更懂卡路里！o3通过食物残渣照片精确计算热量摄入，健身行业大地震"

案例锚点：卡路里测试

专业替代：传统营养师职业

五、隐喻文学型（制造认知冲击）

"数字福尔摩斯诞生：o3从三张隧道照片中还原拍摄时间线，刑侦技术迎来奇点"

案例锚点：杭州隧道多角度照片分析

技术升维：刑侦推理能力类比

"AI考古新纪元：o4-mini通过青铜器纹样推断朝代，历史学家集体破防！"

能力延伸：文物图像推理

学科颠覆：人文研究范式变革

标题优化工具箱

使用建议：将具体测试案例拆解为「场景+冲突+数据」三元组，例如：

场景：公务员考试

冲突：AI得分超越人类考生

数据：90%正确率

→ 生成标题："考公战场惊现AI黑马：o3行测正确率碾压90%人类考生"

最后，也要感谢社区各位小伙伴提供的测试案例，让我们能从更多角度看到o3/o4-mini能力的边界。

阅读原文

跳转微信打开