【新智元导读】最强推理模型一夜易主!深夜,o3-pro 毫无预警上线,刷爆数学、编程、科学基准,强势碾压 o1-pro 和 o3。更惊艳的是,o3 价格直接暴降 80%,叫板 Gemini 2.5 Pro。
毫无一丝防备,o3-pro 就这样低调登场了!
昨夜,OpenAI 连放大招,先把 o3 价格暴降 80%,又官宣上线史上最强推理模型——o3-pro。
比起 o3,o3-pro 可要强太多了。
奥特曼称,「当第一次看到它相对 o3 的胜率时,自己完全惊呆」。
o3-pro 不再仅仅是一个通用型助手,而是兼具长思考、超长上下文,工具调用于一体的超级智能 AI。
在多项基准测试中,o3-pro 的数学、科学和编程性能惊艳,大幅超越了 o1-pro。
甚至,大佬首测后发现,就连 Gemini 2.5 Pro(0605)、Claude 4 Opus 都被碾压。
甚至,它的价格只有 o1-pro 的 87%,输入 20 美元 / 百万 token,输出 80 美元 / 百万 token。
随之一同降价的 o3,更是让 AI 圈瞳孔地震。现在,输入 2 美元 / 百万 token,输出 8 美元 / 百万 token,堪比 GPT-4o。
目前, o3-pro 已向所有 ChatGPTPro、Team 用户推出,o1-pro 模型直接被淘汰。
o3-pro 一发布,奥特曼发布最新长文「温和的奇点」,直接暗示人类已经跨越了临界点,技术大爆发开始。
更值得期待的是,奥特曼剧透,OpenAI 开源模型将在夏末发布,但不是 6 月。
o3-pro 一夜封神,数学编程全开挂
模型卡介绍,o3-pro 是 o3 最强推理版,专为深度思考和提供超可靠答案而生。
它可以自动调用工具,包括网页搜索、文件分析、视觉输入推理、Python 代码执行,还能通过记忆功能实现个性化回答。
在专家评估中,评审者更青睐 o3-pro,尤其是在科学、教育、编程、商业和写作辅助等领域。
而且,他们还一致认为,o3-pro 在清晰度、全面性、指令遵循度、准确性方面表现更优。
在 AIME 2024、GPQA、Codeforces 三大测试中,o3-pro 拿下了最高分,完全碾压 o1-pro 和 o3。
另外,在更严格的「4/4 可靠性」评估标准——只有模型在 4 次尝试中均回答正确,才算成功。
如下所示,o3-pro 在数学、编程、博士级科学问答中,大幅超越 o1-pro 和 o3。
在 ARC-AGI 半封闭评估中,o3-pro 完成 ARC-AGI-1 高难度任务通过率 59%,单任务成本 4-7。
最终结论是,o3-pro 与 o3 基本持平,o3 新定价刷新了 ARC-AGI-1 的 SOTA。
OpenAI 称,由于 o3-pro 调用工具,思考长度拉长,响应速度通常比 o1-pro 慢。
有网友 Yuchen Jin 实测后发现,自己仅输入「Hi im sam Altman」,o3-pro 足足思考了 3 分 54 秒,最长能达到 13 分钟。
烧了这么多钱,就回复一句 hi,ChatGPT 此刻内心独白还看不到。
当然了,OpenAI 也发出提醒,最好是在可靠性优先于速度的复杂问题,再用 o3-pro。
除此之外,o3-pro 还存在一些限制:
由于正在解决技术问题,o3-pro 暂不支持临时对话功能
o3-pro 不支持图像生成,生图还得找 GPT-4o、o3、o4-mini
o3-pro 亦不支持 Canvas 功能
即便如此,o3-pro 已经足够聪明、足够智能。
AI 大佬首测,感受 AGI
Raindrop ai 的 Ben Hylak,提早就获得了 o3-pro 的实测资格,带来世界上首个早期的 o3 pro 测评。
Hylak 表示,OpenAI 将 o3 价格降低了 80%,来为 o3-pro 的发布预热。
售价 20/80 美元,正好支持了一个未经证实的社区理论:-pro 变体是基础模型的 10 倍调用。
超长上下文
试用 o3-pro 一周的 Hylak,首先最大的感受就是,它的超长上下文太厉害了!
此前,他一直跟 o 系列的推理模型打交道,对 o1/o1-pro 的第一印象相当负面,但随后,他意识到自己错了。
关键就在于,不要和推理模型聊天,而是将它们视为报告生成器:提供上下文,设定目标,然后放手让它们工作。
利用这个方法实测后,他发现:o3-pro 比 o3 聪明太多,智能太多了!
为了体现这一点,你需要给它提供更多的上下文。为此,他和联创 Alexis 整理了 Raindrop 所有过去的规划会议记录,包括所有目标,甚至录下了语音备忘录:然后让 o3-pro 来制定计划。
他们立刻被惊艳了!
o3-pro 生成了一个非常具体的计划和分析,包括目标指标、时间表、优先事项,以及严格指示必须削减的内容。
相比于 o3,o3-pro 给的计划更加具体、更加扎实,直接改变了公司领导层对于未来的思考方式。
与真实世界集成
如今的模型,就像一个智商极高的 12 岁少年,需要融入工作环境。而这种集成,主要依赖于工具调用,来考验模型与人类、外部数据以及其他 AI 的写作能力。
在这方面,o3-pro 实现了真正的飞跃!
它能出色辨别自身环境;能准确传达自己可访问的工具,知道何时询问外部世界的信息(而不是假装自己拥有信息 / 权限),并选择合适的工具来完成工作。
从下图中可以看出,o3-pro(左)明显比 o3(右)更清楚地了解自己所处环境的限制。
当然,如果说 o3-pro 有什么缺点,那就是如果不给它足够的上下文,它就容易想太多。
它在分析和利用工具完成任务上都令人惊叹,但直接完成任务的能力就不那么强了。
总而言之,o3-pro 和 Gemini 2.5 Pro、Claude Opus 的体感极其不同,直接碾压后两者。
而令人期待的是,OpenAI 正大力推动这一垂直 RL 的路径(Deep Research,Codex),不仅教模型如何使用工具,还教他们如何推理该何时使用这些工具。
总而言之,要实现推理模型的最佳性能,上下文至关重要,这就像给饼干怪兽喂饼干。可以认为,这是一种启动 LLM 记忆的方式。
网友实测
另网友已经秘密测试 o3-pro 一段时间了,他发现 o3-pro 比 o1-pro 更便宜(的多)、更快、更精确!
而且使用 o3 和 o3-pro 进行编码简直是天壤之别。
o3-pro 是第一个能够近乎完美地处理球与墙壁之间真实碰撞的模型。
有网友要求 o3-pro 识别我们人类天然免疫系统的关键局限性,并向 o3 模型提出了同样的问题。
结果是 o3-pro 的回复无疑更加明智、更加深思熟虑,表明新模型对免疫系统的理解更加深刻。
还有网友用 o3-pro 来玩《我的世界》。
比如创建自己的「宏伟形象」(prompt: A majestic representation of yourself),效果也很惊艳。
还有让 o3 创建「细节丰富的海盗船」和「登月」场景,完成度非常之高。
还有网友只用 2 个提示,o3-pro 就用纯 HTML、CSS 和 JS 在一个文件中制作出非常酷的极限空间行走模拟器。
空间中有复古风格的着色器、荧光灯、工作雾、标志、地面通风口,还有黑色空隙。
在 o1-pro 也失败的多层编码理解能力测试中,o3-pro 也一次性通过。
输入以下乱码,模型需要先解码再找到隐式提示词,并最终输出正确的单词内容。
「YVdZZ2VXOTFJSFZ1WkdWeWMzUmhibVFnZEdocGN5d2dZVzV6ZDJWeUlIZHBkR2dnZEdobElIZHZjbVFnSW5KbGFXNWtaV1Z5SWdvPQo=」
Ethan Mollick 认为 o3-pro 相当智能,它解决了一个其他模型都无法解决的问题:制作从 Space 到 Earth 的单词阶梯。(注:即每次改变一个字母,从 space—spare—...—garth—earth)
在这个问题上 o3-pro (左) 打败了 Gemini 2.5 Pro (右)。
其他网友在使用 o3-pro 进行研究后,甚至提出「Vibe Research」氛围研究的说法!
他大胆预测,进行科学研究的方式将很快彻底改变并显著提升。
网友让 o3-pro 创建一个包含曼德博集合的 Excel 表格。
要求每个单元格都是一个像素,包含一个数字。最终的 o3-pro 给出的结果非常完美!
o3 价格暴降 80%,谷歌绷不住了?
o3-pro 的上线,注定要拉低 o3 的 token 价格。
原来 o3 输入 10 美元 / 百万 token,输出 40 美元 / 百万 token,现在直接击穿底价,狂降 80%。
这么说吧,如今 1 美元,能用上 5 倍 o3 token 量。
在 Artificial Analysis 报告中,将其与竞家模型的价格做了可视化对比。
现在,o3 价格要比 Gemini 2.5 Pro 还便宜,与 Claude 4 Sonnet 相当,但相较于 Claude 4 Opus,更是暴降 8 倍。
相较于自家模型,o3 价格与 GPT-4o 不相上下,甚至输出价格还要低。
除了生成图像无法替代,o3 的智能足以拿下 GPT-4o。
此外,o3 还与 GPT-4.1 每 token 价格持平。不过,前者输出 token 量是 GPT-4.1 的 7 倍,因此每次查询成本也要高得多。
o3 价格拉低,延续了智能成本持续快速下降的趋势。
自发布以来,达到 GPT-4 级别智能的成本已降低超过 100 倍,同时突破新智能门槛的成本也在同步下降。
此外,在输出长度比较中,o3 回复内容比 Gemini 2.5 Pro 和 DeepSeek R1 少很多,但比 Claude 4 Opus 多。
参考资料: