原创 WaytoAGI 2025-04-17 23:22 浙江
考公战场惊现AI黑马:o3行测正确率碾压90%人类考生
官方文档:
https://openai.com/index/introducing-o3-and-o4-mini/
核心亮点
- o3 旗舰推理模型:全面超越o1,支持多步规划/复杂系统,视觉推理能力提升20%o4-mini 性价比之王:价格与o3-mini持平,数学/代码性能反超o3全工具链支持:首次实现搜索/文件分析/Python执行/图像生成的自主工具编排
下方有测试案例,大部分是o3,部分o4-mini-测试high
详解:
🧠 核心模型能力提升
- o3 是完整版大模型,比 o3-mini 更强,首次支持工具调用(如 Python、联网、函数调用等)。o4-mini 是 o4 的轻量版,架构更先进,性能接近甚至超过 o3-mini。
🔧 工具使用能力
- o3 和 o4-mini 均支持 OpenAI 的全套工具(Python、浏览器、函数调用等)。o3 在工具使用场景中表现尤为突出,能显著提升准确率(如 AIME 数学赛从 91.6% 提升到 95.2%)。
👁️ 视觉推理能力(重大突破)
- o3 和 o4-mini 是首批具备“视觉推理”能力的 o 系列模型。能够“看图思考”,不仅识别图像,还能将图像纳入推理链条中。在图像猜地点、人物识别等任务中表现出类人思维过程。
📊 多模态任务表现
💻 编程与代码能力
- 在 SWE-Lancer、SWE-Bench、Aider Polyglot 等真实软件工程任务中,o3 表现遥遥领先。o4-mini 在某些代码编辑任务中略逊于 o3-mini。
🧩 多轮指令与函数调用能力
- o3 在多轮指令跟随(Scale MultiChallenge)和网页浏览任务(BrowseComp)中表现优异。在 Tau-bench 函数调用测试中,o3 对比 o1 提升不大,仍有改进空间。
📉 幻觉率与准确率权衡
- o3 准确率显著提升,但幻觉率也上升至 o1 的两倍,说明其更“自信”但也更容易出错。
💰 定价策略
- o3 比 o1 便宜三分之一。o4-mini 与 o3-mini 同价,性价比更高。
大家的测试
精准找到肉眼看不到的书 @Indigo
我让它从这张模糊的照片中,确定书架上是否有《思考快与慢》这本书,它可以自己调用工具剪裁放大照片定位,然后做画面想象推理,最后给出断定的结论。
结论是:有这本书!
大家可以先放大照片,试试人类肉眼能否找到。
地点推测很精准 @临风
和Yee老师在杭州隧道 @AJ
这个也很厉害!只通过模糊的紫色英文字样“Heart to…”,断定了是19年杭州亚运会的口号,然后结合隧道和这套视觉体系的使用范围,就定位到了具体位置。
帮小红书姐妹找点信息
考公测试题 @AJ
通过以下几个图形猜数字,普通人看到这题只觉得抽象。o3给出了完整推理过程和正确答案,去当公务员吧孩子。在火山方舟开发者见面会教我搭硬件
3张图,教会你如何搭AI硬件!细,太细致了!卡路里测试
经典的卡路里测试题也是越来越精确了。测风水
截图就能测风水,租房小白和纠结症患者有救了。
判断食物是否过期
做数独
地点推测--杭州拱墅
解答复杂PPT的内容
在火山引擎的会上听不懂在讲什么, GPT解释的非常清楚。
o3识别鱼的品种
不仅给出了鱼种,常见做法也一次性解释清楚了。o3 推测装修限制
像是给自己请了个专业讲解的师傅。预定民宿害怕被骗?o3 直接寻找位置排除盗图和照片造假可能。
爆款标题工厂:OpenAI o3/o4-mini 实测案例灵感库
标题结构公式
核心亮点 + 冲突对比 + 具象案例 + 行业颠覆宣言
一、悬念挑战型(引发好奇心)
"人类肉眼败北!OpenAI o3竟从480p马赛克中找到《思考快与慢》,它看到了什么?"
案例锚点:Indigo的书架模糊照片测试
技术点:视觉推理+图像增强工具链
"公务员考试惊现AI考生?o3在行测题碾压90%人类,体制内要变天!"
案例锚点:AJ的考公测试题
反差设计:AI vs 人类传统智力竞技
二、数据炸场型(强调性能碾压)
"95.2% AIME正确率+零样本代码生成:o3用20行Python改写硅谷工程师工作流"
数据锚点:数学竞赛提升3.6个百分点
场景联想:工程师日常工作替代
"1秒定位杭州隧道拍照点:o3的地理推理能力让GPS地图商颤抖!"
案例锚点:Yee老师的隧道照片测试
行业威胁:传统地理信息服务商
三、功能震撼型(展示特殊能力)
"AI风水师上线!o3通过建筑结构图预测运势,玄学遇上强化学习会发生什么?"
案例锚点:风水测试
跨界混搭:古老玄学+前沿AI
"硬件小白逆袭!火山方舟见面会上,我是如何用o3指导组装物联网设备的"
案例锚点:硬件搭建教学
身份反转:AI指导人类操作硬件
四、行业颠覆型(引发焦虑感)
"咨询公司深夜警报:o3在SWE-Bench击败90%程序员,码农要失业了?"
数据锚点:软件工程基准测试
行业映射:程序员职业危机
"比营养师更懂卡路里!o3通过食物残渣照片精确计算热量摄入,健身行业大地震"
案例锚点:卡路里测试
专业替代:传统营养师职业
五、隐喻文学型(制造认知冲击)
"数字福尔摩斯诞生:o3从三张隧道照片中还原拍摄时间线,刑侦技术迎来奇点"
案例锚点:杭州隧道多角度照片分析
技术升维:刑侦推理能力类比
"AI考古新纪元:o4-mini通过青铜器纹样推断朝代,历史学家集体破防!"
能力延伸:文物图像推理
学科颠覆:人文研究范式变革
标题优化工具箱
使用建议:将具体测试案例拆解为「场景+冲突+数据」三元组,例如:
场景:公务员考试
冲突:AI得分超越人类考生
数据:90%正确率
→ 生成标题:"考公战场惊现AI黑马:o3行测正确率碾压90%人类考生"
最后,也要感谢社区各位小伙伴提供的测试案例,让我们能从更多角度看到o3/o4-mini能力的边界。