通往AGI之路 前天 14:38
GPT-o3&o4-mini 测试,o3竟从480p马赛克中找到《思考快与慢》可以做侦探
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

o3满血版和o4-mini发布,具有多方面强大能力,如模型能力提升、工具使用能力、视觉推理能力等,在多个领域有出色表现,是AGI道路上的关键里程碑。

o3是完整版大模型,支持工具调用,性能强大

o3和o4-mini具备视觉推理能力,表现出色

o3在多轮指令跟随等任务中表现优异

o3准确率提升但幻觉率也上升

原创 WaytoAGI 2025-04-17 23:22 浙江

考公战场惊现AI黑马:o3行测正确率碾压90%人类考生

今天凌晨,o3满血版和o4 mini发布后,各个群里又炸开了锅。除了对新模型能力的感叹,大家也提供了非常多精彩的测试案例,一起来看!
📌

官方文档:

https://openai.com/index/introducing-o3-and-o4-mini/

核心亮点

    o3 旗舰推理模型:全面超越o1,支持多步规划/复杂系统,视觉推理能力提升20%o4-mini 性价比之王:价格与o3-mini持平,数学/代码性能反超o3全工具链支持:首次实现搜索/文件分析/Python执行/图像生成的自主工具编排

下方有测试案例,大部分是o3,部分o4-mini-测试high

详解:

🧠 核心模型能力提升


🔧 工具使用能力


👁️ 视觉推理能力(重大突破)


📊 多模态任务表现

💻 编程与代码能力


🧩 多轮指令与函数调用能力


📉 幻觉率与准确率权衡


💰 定价策略


大家的测试

精准找到肉眼看不到的书 @Indigo

我让它从这张模糊的照片中确定书架上是否有《思考快与慢》这本书,它可以自己调用工具剪裁放大照片定位,然后做画面想象推理,最后给出断定的结论。

结论是:有这本书!

大家可以先放大照片,试试人类肉眼能否找到。


地点推测很精准 @临风

薛临风:“这个推理过程属实有点炸裂,我完全不抱希望的,因为我在广州待了7年,这个视角没有广州塔啥的明显标志,我是猜不出来这是琶洲大桥。”
“推理过程,会自己设想,然后做一个猜想,然后自己去搜索做验证,然后推翻之后再设想,然后还会反思有没有疏漏。”

和Yee老师在杭州隧道 @AJ

这个也很厉害!只通过模糊的紫色英文字样“Heart to…”,断定了是19年杭州亚运会的口号,然后结合隧道和这套视觉体系的使用范围,就定位到了具体位置。


而且AJ和yee分别拍了照片, o3还能刑侦出是在一辆车上!


帮小红书姐妹找点信息

蚌埠住了,小红书的姐妹们要失业了……
虽然没有直接点明有两个人住的痕迹,但整个推理过程说了一大堆蛛丝马迹,看来GPT是个劝和专家。

考公测试题 @AJ

通过以下几个图形猜数字,普通人看到这题只觉得抽象。o3给出了完整推理过程和正确答案,去当公务员吧孩子。


在火山方舟开发者见面会教我搭硬件

3张图,教会你如何搭AI硬件!细,太细致了!


卡路里测试

经典的卡路里测试题也是越来越精确了。

测风水

截图就能测风水,租房小白和纠结症患者有救了。


判断食物是否过期


做数独


地点推测--杭州拱墅


解答复杂PPT的内容

在火山引擎的会上听不懂在讲什么, GPT解释的非常清楚。


o3识别鱼的品种

不仅给出了鱼种,常见做法也一次性解释清楚了。

o3 推测装修限制

像是给自己请了个专业讲解的师傅。


判断民宿房源真实性 @歸藏

预定民宿害怕被骗?o3 直接寻找位置排除盗图和照片造假可能。

在看这些案例,看它一步步推理出图片背后的细节和逻辑,推理错了还能推倒重来时,起了一身鸡皮疙瘩。
或许会有人觉得,但它还是会推理错呀。
但要知道,AI模型是不断进步的,进步速度远远超出了人类个体的学习速度。
而我们当前看到的,只是AI视觉推理的最小应用场景。
如果将AI视觉推理应用到医疗中,就能辅助医生更快、更精确地找到肿瘤或病灶,还能根据其形态、位置,与其他组织的关系,快速给出诊断建议。
应用到无人驾驶中,AI模型就能根据摄像头捕捉到的实时图像,更准确地识别路况、障碍物等,进行更高效的路径规划。
又或者是在历史图像复原及解读中,能通过更深入的推理和分析,揭开一些人类未解之谜……
当这些能力被应用于更多场景和领域中时,它的价值将被重新定义。
而o3和o4-mini将是AGI道路上的关键里程碑,让AI更轻、更快、更贴近真实使用场景。
一个彩蛋
甚至这篇文章标题也是GPT起的,深度掌握了爆款公式的精髓。

爆款标题工厂:OpenAI o3/o4-mini 实测案例灵感库

标题结构公式

核心亮点 + 冲突对比 + 具象案例 + 行业颠覆宣言


一、悬念挑战型(引发好奇心)

"人类肉眼败北!OpenAI o3竟从480p马赛克中找到《思考快与慢》,它看到了什么?"

案例锚点:Indigo的书架模糊照片测试

技术点:视觉推理+图像增强工具链


"公务员考试惊现AI考生?o3在行测题碾压90%人类,体制内要变天!"

案例锚点:AJ的考公测试题

反差设计:AI vs 人类传统智力竞技


二、数据炸场型(强调性能碾压)

"95.2% AIME正确率+零样本代码生成:o3用20行Python改写硅谷工程师工作流"

数据锚点:数学竞赛提升3.6个百分点

场景联想:工程师日常工作替代


"1秒定位杭州隧道拍照点:o3的地理推理能力让GPS地图商颤抖!"

案例锚点:Yee老师的隧道照片测试

行业威胁:传统地理信息服务商


三、功能震撼型(展示特殊能力)

"AI风水师上线!o3通过建筑结构图预测运势,玄学遇上强化学习会发生什么?"

案例锚点:风水测试

跨界混搭:古老玄学+前沿AI


"硬件小白逆袭!火山方舟见面会上,我是如何用o3指导组装物联网设备的"

案例锚点:硬件搭建教学

身份反转:AI指导人类操作硬件


四、行业颠覆型(引发焦虑感)

"咨询公司深夜警报:o3在SWE-Bench击败90%程序员,码农要失业了?"

数据锚点:软件工程基准测试

行业映射:程序员职业危机


"比营养师更懂卡路里!o3通过食物残渣照片精确计算热量摄入,健身行业大地震"

案例锚点:卡路里测试

专业替代:传统营养师职业


五、隐喻文学型(制造认知冲击)

"数字福尔摩斯诞生:o3从三张隧道照片中还原拍摄时间线,刑侦技术迎来奇点"

案例锚点:杭州隧道多角度照片分析

技术升维:刑侦推理能力类比


"AI考古新纪元:o4-mini通过青铜器纹样推断朝代,历史学家集体破防!"

能力延伸:文物图像推理

学科颠覆:人文研究范式变革


标题优化工具箱

使用建议:将具体测试案例拆解为「场景+冲突+数据」三元组,例如:

场景:公务员考试

冲突:AI得分超越人类考生

数据:90%正确率

→ 生成标题:"考公战场惊现AI黑马:o3行测正确率碾压90%人类考生"

最后,也要感谢社区各位小伙伴提供的测试案例,让我们能从更多角度看到o3/o4-mini能力的边界。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

o3 o4-mini 视觉推理 AGI
相关文章