夕小瑶科技说 04月17日 21:33
o3和o4-mini双模登场!首次加入图片推理、工具调用
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI发布了o3和o4-mini两款新模型,标志着其在通用智能代理领域的重要进展。o3模型在推理能力上有所提升,尤其是在数学、科学和编码任务上;而o4-mini则在速度和成本之间取得了平衡,更适合开发者使用。新模型引入了多模态推理,能够“用图片思考”,并增强了工具链的调用能力,包括网页浏览、Python执行等。此外,OpenAI还推出了本地开源编码代理Codex CLI,进一步拓展了其生态系统。OpenAI的目标是将其生态系统从聊天助手升级为能够自主完成复杂工作的数字同事。

🖼️ **多模态推理的引入:** o3和o4-mini模型首次整合视觉信息,能够直接处理草图、幻灯片或白板照片,进行缩放、旋转等操作,并参与推理。演示视频展示了模型对图像进行长时间的思维链推理,增强了其理解和处理图像的能力。

🛠️ **全工具链的调用:** 新模型能够自主调用ChatGPT的网页浏览、Python执行、文件解析与图像生成等工具,标志着OpenAI在“智能代理”方面迈出了重要一步。o3模型在复杂编程任务中表现出色,并在多种基准测试中取得了新的SOTA成绩。

⚖️ **o4-mini的速度与成本优势:** o4-mini模型在推理任务上接近o3的表现,但成本显著降低,使其更适合第三方应用接入。该模型在AIME 2025数学赛中配合Python解释器取得了优异的成绩,并提供了延长推理时间的o4-mini-high版本以提高可靠性。

💻 **本地开源编码助手Codex CLI:** OpenAI发布了本地命令行代理Codex CLI,开发者可以在终端直接调用o3/o4-mini执行代码、调试与文件操控。该项目已在Github上开源,为开发者提供了更便捷的编码辅助工具。

原创 zJz 2025-04-17 10:25 北京

在今天凌晨的线上发布会上,OpenAI 一次推出两款全新模型 o3 与 o4‑mini ,并宣布它们立即向 ChatGPT Plus、Pro 与 Team 订阅者开放,引入了可直接“用图片思考”的多模态推理、完整调用 ChatGPT 浏览器与 Python 等工具链,以及本地开源编码代理 Codex CLI。这场 40 分钟的直播,被外界视作 OpenAI 从“聊天助手”迈向“通用智能代理”生态的关键一步。

发布会核心亮点

双模登场:o3 被官方称为“迄今最强推理模型”,在数学、科学与编码任务上相较 o1 正确率提高 20% 以上;而 o4‑mini 在速度与成本之间实现平衡,面向开发者的轻量级场景。

上图展示 o3 模型和其前任 o1 模型在准确率和成本上的对比。

上图展示 o4-mini 模型和其前任 o3-mini 模型在准确率和成本上的对比。

多模态推理:两款模型首次把视觉信息直接注入“思考链”,可对草图、幻灯片或白板照片进行缩放、旋转并参与推理。

上面的视频是专门展示新模型的视觉推理能力。模型对图像也会有长时间的思维链,会在思维链中自动对图像进行放大,旋转等操作。

全工具调用:o3 与 o4‑mini 能自主调用 ChatGPT 的网页浏览、Python 执行、文件解析与图像生成等全部工具,官方称之为迈向“智能代理”的里程碑。

上面视频展示的是 o3 模型的工具调用能力。

新模型性能

o3 —— “深思熟虑”的旗舰

    在 Codeforces、SWE‑bench 等基准创下新 SOTA,复杂编程任务得分 69.1%。
    外部评测显示,困难现实任务重大错误率较 o1 降低 20% 以上。
    支持把模糊、倒置的图像纳入推理并实时操作(旋转、缩放)。

o4‑mini —— 速度/成本之选

    在 AIME 2025 数学赛配合 Python 解释器取得 99.5% 得分。
    输入费用 4.40/百万 token,与 o3‑mini 相同但性能显著提升。
    另有 o4‑mini‑high 版本,延长推理时间以换取更高可靠性。

上图展示的是新模型在基准测试上取得不错的成绩。

o4‑mini 主打“高性价比”,官方称其在多数推理任务上接近 o3 表现,但成本显著下降,方便第三方应用接入。

Codex CLI

Codex CLI:发布会同步推出本地命令行代理,可在终端直接调用 o3 / o4‑mini 执行代码、调试与文件操控,定位为“轻量级开源编码助手”。

上图展示 Codex CLI 工具实际运行效果。

目前该项目已在 Github 上开源。

未来路线:智能代理

代理化愿景:官方将 o3 / o4‑mini 视作“可自行规划、执行多步骤任务的第一代模型”,下一阶段重点是让模型稳健调用外部 API 与私有数据源。

结语

此次发布会不仅带来了性能更强、价格更灵活的两款模型,也首次展示了 OpenAI 对“AI 代理”时代的完整蓝图:多模态推理 + 工具链调用 + 本地执行。随着 GPT‑5 临近,OpenAI 正在把自家生态从聊天助手升级为可自主完成复杂工作的数字同事,行业竞赛由此再次提速。


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenAI o3模型 o4-mini模型 智能代理 多模态推理
相关文章