4 月 17 日消息,在今日凌晨的直播中,OpenAI 正式发布了o3 和 o4-mini 模型。 OpenAI 官方介绍称,这是其在 o 系列模型中最新训练的成果,可以在回答前进行更长时间的思考,也宣称是“迄今为止 OpenAI 发布的最智能的模型”,代表了 ChatGPT 能力的一次重大飞跃,从好奇的用户到高级研究人员都将因此受益。 首次,新的推理模型可以智能地使用和结合 ChatGPT 中的每一个工具 —— 包括搜索网络、使用 Python 分析上传的文件和其他数据、深入推理视觉输入,甚至生成图像。 关键的是,这些模型被训练来推理何时以及如何使用工具来产生详细和深思熟虑的答案,通常在不到一分钟内,以解决更复杂的问题。这使得它们能够更有效地处理多方面的问题,朝着更智能、能够独立执行任务的 ChatGPT 迈进。性能表现 o3 是 OpenAI 最强大的推理模型,它在编码、数学、科学、视觉感知等领域号称处于前沿,在包括 Codeforces、SWE-bench 和 MMMU 在内的基准测试中实现了新的 SOTA。 OpenAI 称,o3 非常适合需要多方面分析和答案可能不明显的高级查询。它在分析图像、图表和图形等视觉任务上表现尤为出色。在外部专家的评估中,o3 在困难、现实世界的任务上比 OpenAI o1 少犯 20% 的重大错误 —— 特别是在编程、商业 / 咨询和创意构思等领域表现出色。 早期测试者强调了其作为思维伙伴的分析严谨性,并强调了其生成和批判性地评估新颖假设的能力 —— 特别是在生物学、数学和工程背景下。 OpenAI o4-mini 是一个针对快速、成本效益推理进行优化的较小模型 —— 它在其大小和成本方面取得了“令人瞩目的性能”,尤其是在数学、编码和视觉任务上。在 AIME 2025 上,当提供 Python 解释器时,o4-mini 得分 99.5%。在专家评估中,它还在非 STEM 任务以及数据科学等领域相比前辈 o3-mini 表现更出色。得益于其效率,o4-mini 支持比 o3 高得多的使用限制,使其成为推理受益问题的强大高容量、高吞吐量选项。 与 OpenAI 的前几代推理模型相比,这两个模型也支持更加自然的对话,尤其是在它们参考记忆和过去的对话来使响应更加个性化和相关时。 能够推理图片 在整个 OpenAI o3 的开发过程中,OpenAI 发现大规模强化学习表现出与 GPT 系列预训练中观察到的相同的 从下面这个实例可以看到, 人们可以上传白板照片、教科书图表或手绘草图,即使图像模糊、颠倒或质量很低,模型也可以解读它们。通过使用工具, OpenAI 最强推理模型、能够“思考”图片,o3 和 o4-mini 正式发布