刚刚，OpenAI 最强推理模型 o3-pro 诞生！碾压 Gemini 2.5 Pro 击穿底价

掘金人工智能 06月11日 10:43

刚刚，OpenAI 最强推理模型 o3-pro 诞生！碾压 Gemini 2.5 Pro 击穿底价

OpenAI 推出全新推理模型 o3-pro，该模型在数学、编程和科学基准测试中表现出色，超越了 o1-pro 和 Gemini 2.5 Pro 等模型。更令人惊喜的是，o3-pro 的价格大幅降低，同时，o3的价格也迎来了暴降，使得 OpenAI 在 AI 领域更具竞争力。新模型具备长思考、超长上下文和工具调用能力，并已向所有 ChatGPTPro 和 Team 用户开放。

🚀 o3-pro 性能卓越：o3-pro 是 o3 的最强推理版本，在数学、科学和编程等多个基准测试中表现优异，超越了 o1-pro 和 Gemini 2.5 Pro 等模型，具备长思考、超长上下文和工具调用能力，能自动调用工具，实现个性化回答。

💰 价格大幅降低：o3-pro 的价格极具竞争力，输入 20 美元 / 百万 token，输出 80 美元 / 百万 token。同时，o3 的价格也大幅下降，输入 2 美元 / 百万 token，输出 8 美元 / 百万 token，与 GPT-4o 相当，进一步降低了使用成本。

🛠️ 工具调用与集成：o3-pro 实现了与真实世界的集成，能够出色辨别自身环境，准确传达可访问的工具，并选择合适的工具来完成工作，提升了模型在实际应用中的能力。

💡 应用案例与优势：o3-pro 在科学、教育、编程、商业和写作辅助等领域表现出色，用户可以通过提供上下文和设定目标，让其生成具体的计划和分析，改善工作效率。网友实测也表明，o3-pro 在编码、图像生成和问题解决方面均有出色表现。

【新智元导读】最强推理模型一夜易主！深夜，o3-pro 毫无预警上线，刷爆数学、编程、科学基准，强势碾压 o1-pro 和 o3。更惊艳的是，o3 价格直接暴降 80%，叫板 Gemini 2.5 Pro。

毫无一丝防备，o3-pro 就这样低调登场了！

昨夜，OpenAI 连放大招，先把 o3 价格暴降 80%，又官宣上线史上最强推理模型——o3-pro。

比起 o3，o3-pro 可要强太多了。

奥特曼称，「当第一次看到它相对 o3 的胜率时，自己完全惊呆」。

o3-pro 不再仅仅是一个通用型助手，而是兼具长思考、超长上下文，工具调用于一体的超级智能 AI。

在多项基准测试中，o3-pro 的数学、科学和编程性能惊艳，大幅超越了 o1-pro。

甚至，大佬首测后发现，就连 Gemini 2.5 Pro（0605）、Claude 4 Opus 都被碾压。

甚至，它的价格只有 o1-pro 的 87%，输入 20 美元 / 百万 token，输出 80 美元 / 百万 token。

随之一同降价的 o3，更是让 AI 圈瞳孔地震。现在，输入 2 美元 / 百万 token，输出 8 美元 / 百万 token，堪比 GPT-4o。

目前， o3-pro 已向所有 ChatGPTPro、Team 用户推出，o1-pro 模型直接被淘汰。

o3-pro 一发布，奥特曼发布最新长文「温和的奇点」，直接暗示人类已经跨越了临界点，技术大爆发开始。

更值得期待的是，奥特曼剧透，OpenAI 开源模型将在夏末发布，但不是 6 月。

o3-pro 一夜封神，数学编程全开挂

模型卡介绍，o3-pro 是 o3 最强推理版，专为深度思考和提供超可靠答案而生。

它可以自动调用工具，包括网页搜索、文件分析、视觉输入推理、Python 代码执行，还能通过记忆功能实现个性化回答。

在专家评估中，评审者更青睐 o3-pro，尤其是在科学、教育、编程、商业和写作辅助等领域。

而且，他们还一致认为，o3-pro 在清晰度、全面性、指令遵循度、准确性方面表现更优。

在 AIME 2024、GPQA、Codeforces 三大测试中，o3-pro 拿下了最高分，完全碾压 o1-pro 和 o3。

另外，在更严格的「4/4 可靠性」评估标准——只有模型在 4 次尝试中均回答正确，才算成功。

如下所示，o3-pro 在数学、编程、博士级科学问答中，大幅超越 o1-pro 和 o3。

在 ARC-AGI 半封闭评估中，o3-pro 完成 ARC-AGI-1 高难度任务通过率 59%，单任务成本 $4.16；在 ARC-AGI-2 中，其在所有推理任务仅有 < 5% 通过率，单任务成本$ 4-7。

最终结论是，o3-pro 与 o3 基本持平，o3 新定价刷新了 ARC-AGI-1 的 SOTA。

OpenAI 称，由于 o3-pro 调用工具，思考长度拉长，响应速度通常比 o1-pro 慢。

有网友 Yuchen Jin 实测后发现，自己仅输入「Hi im sam Altman」，o3-pro 足足思考了 3 分 54 秒，最长能达到 13 分钟。

烧了这么多钱，就回复一句 hi，ChatGPT 此刻内心独白还看不到。

当然了，OpenAI 也发出提醒，最好是在可靠性优先于速度的复杂问题，再用 o3-pro。

除此之外，o3-pro 还存在一些限制：

由于正在解决技术问题，o3-pro 暂不支持临时对话功能

o3-pro 不支持图像生成，生图还得找 GPT-4o、o3、o4-mini

o3-pro 亦不支持 Canvas 功能

即便如此，o3-pro 已经足够聪明、足够智能。

AI 大佬首测，感受 AGI

Raindrop ai 的 Ben Hylak，提早就获得了 o3-pro 的实测资格，带来世界上首个早期的 o3 pro 测评。

Hylak 表示，OpenAI 将 o3 价格降低了 80%，来为 o3-pro 的发布预热。

售价 20/80 美元，正好支持了一个未经证实的社区理论：-pro 变体是基础模型的 10 倍调用。

超长上下文

试用 o3-pro 一周的 Hylak，首先最大的感受就是，它的超长上下文太厉害了！

此前，他一直跟 o 系列的推理模型打交道，对 o1/o1-pro 的第一印象相当负面，但随后，他意识到自己错了。

关键就在于，不要和推理模型聊天，而是将它们视为报告生成器：提供上下文，设定目标，然后放手让它们工作。

利用这个方法实测后，他发现：o3-pro 比 o3 聪明太多，智能太多了！

为了体现这一点，你需要给它提供更多的上下文。为此，他和联创 Alexis 整理了 Raindrop 所有过去的规划会议记录，包括所有目标，甚至录下了语音备忘录：然后让 o3-pro 来制定计划。

他们立刻被惊艳了！

o3-pro 生成了一个非常具体的计划和分析，包括目标指标、时间表、优先事项，以及严格指示必须削减的内容。

相比于 o3，o3-pro 给的计划更加具体、更加扎实，直接改变了公司领导层对于未来的思考方式。

与真实世界集成

如今的模型，就像一个智商极高的 12 岁少年，需要融入工作环境。而这种集成，主要依赖于工具调用，来考验模型与人类、外部数据以及其他 AI 的写作能力。

在这方面，o3-pro 实现了真正的飞跃！

它能出色辨别自身环境；能准确传达自己可访问的工具，知道何时询问外部世界的信息（而不是假装自己拥有信息 / 权限），并选择合适的工具来完成工作。

从下图中可以看出，o3-pro（左）明显比 o3（右）更清楚地了解自己所处环境的限制。

当然，如果说 o3-pro 有什么缺点，那就是如果不给它足够的上下文，它就容易想太多。

它在分析和利用工具完成任务上都令人惊叹，但直接完成任务的能力就不那么强了。

总而言之，o3-pro 和 Gemini 2.5 Pro、Claude Opus 的体感极其不同，直接碾压后两者。

而令人期待的是，OpenAI 正大力推动这一垂直 RL 的路径（Deep Research，Codex），不仅教模型如何使用工具，还教他们如何推理该何时使用这些工具。

总而言之，要实现推理模型的最佳性能，上下文至关重要，这就像给饼干怪兽喂饼干。可以认为，这是一种启动 LLM 记忆的方式。

网友实测

另网友已经秘密测试 o3-pro 一段时间了，他发现 o3-pro 比 o1-pro 更便宜（的多）、更快、更精确！

而且使用 o3 和 o3-pro 进行编码简直是天壤之别。

o3-pro 是第一个能够近乎完美地处理球与墙壁之间真实碰撞的模型。

有网友要求 o3-pro 识别我们人类天然免疫系统的关键局限性，并向 o3 模型提出了同样的问题。

结果是 o3-pro 的回复无疑更加明智、更加深思熟虑，表明新模型对免疫系统的理解更加深刻。

还有网友用 o3-pro 来玩《我的世界》。

比如创建自己的「宏伟形象」（prompt: A majestic representation of yourself），效果也很惊艳。

还有让 o3 创建「细节丰富的海盗船」和「登月」场景，完成度非常之高。

还有网友只用 2 个提示，o3-pro 就用纯 HTML、CSS 和 JS 在一个文件中制作出非常酷的极限空间行走模拟器。

空间中有复古风格的着色器、荧光灯、工作雾、标志、地面通风口，还有黑色空隙。

在 o1-pro 也失败的多层编码理解能力测试中，o3-pro 也一次性通过。

输入以下乱码，模型需要先解码再找到隐式提示词，并最终输出正确的单词内容。

「YVdZZ2VXOTFJSFZ1WkdWeWMzUmhibVFnZEdocGN5d2dZVzV6ZDJWeUlIZHBkR2dnZEdobElIZHZjbVFnSW5KbGFXNWtaV1Z5SWdvPQo=」

Ethan Mollick 认为 o3-pro 相当智能，它解决了一个其他模型都无法解决的问题：制作从 Space 到 Earth 的单词阶梯。（注：即每次改变一个字母，从 space—spare—...—garth—earth）

在这个问题上 o3-pro (左) 打败了 Gemini 2.5 Pro (右)。

其他网友在使用 o3-pro 进行研究后，甚至提出「Vibe Research」氛围研究的说法！

他大胆预测，进行科学研究的方式将很快彻底改变并显著提升。

网友让 o3-pro 创建一个包含曼德博集合的 Excel 表格。

要求每个单元格都是一个像素，包含一个数字。最终的 o3-pro 给出的结果非常完美！

o3 价格暴降 80%，谷歌绷不住了？

o3-pro 的上线，注定要拉低 o3 的 token 价格。

原来 o3 输入 10 美元 / 百万 token，输出 40 美元 / 百万 token，现在直接击穿底价，狂降 80%。

这么说吧，如今 1 美元，能用上 5 倍 o3 token 量。

在 Artificial Analysis 报告中，将其与竞家模型的价格做了可视化对比。

现在，o3 价格要比 Gemini 2.5 Pro 还便宜，与 Claude 4 Sonnet 相当，但相较于 Claude 4 Opus，更是暴降 8 倍。

相较于自家模型，o3 价格与 GPT-4o 不相上下，甚至输出价格还要低。

除了生成图像无法替代，o3 的智能足以拿下 GPT-4o。

此外，o3 还与 GPT-4.1 每 token 价格持平。不过，前者输出 token 量是 GPT-4.1 的 7 倍，因此每次查询成本也要高得多。

o3 价格拉低，延续了智能成本持续快速下降的趋势。

自发布以来，达到 GPT-4 级别智能的成本已降低超过 100 倍，同时突破新智能门槛的成本也在同步下降。

此外，在输出长度比较中，o3 回复内容比 Gemini 2.5 Pro 和 DeepSeek R1 少很多，但比 Claude 4 Opus 多。

参考资料：

x.com/gdb/status/…

www.latent.space/p/o3-pro

x.com/ArtificialA…

x.com/OpenAIDevs/…

help.openai.com/en/articles…

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

o3-pro OpenAI 推理模型价格战 AI

相关文章

【iThome 2024 CIO大調查系列 1｜CIO年度目標】CIO更重視開創型IT戰略，AI創新優先度今年驟增

OpenAI加入C2PA指導委員會，測試Deepfake圖像偵測工具

How popular is ChatGPT? Part 1: more popular than Taylor Swift

OpenAI set to unveil AI-driven challenger to Google Search

OpenAI faces complaint over fictional outputs

Weka Makes Life Simpler for Developers, Engineers, and Architects

✨ 人人都能用好AI，这款GPTs 助你定制高效工作流：Prompt for me 作为一个AI布道者，Hans 在即刻写下数百篇新产品介绍、模型研究和心得，却仍感受到不同领域和...

Redundancy in AI: A Hybrid Convolutional Neural Networks CNN Approach to Minimize Computational Overhead in Reliable Execution

OpenAI计划下周宣布ChatGPT和GPT-4更新，但不会推出GPT-5和搜索引擎

苹果据悉接近与OpenAI达成协议，将ChatGPT应用于iPhone