o3-mini 完全指南：一个被 DeepSeek 破大防的模型

原创金色传说大聪明 2025-02-01 10:04 广东

o3 锐评 DeepSeek：他妈的颠覆了老子那套高消费垃圾模式

一大早起来，便发现 ChatGPT 里更新了 o3-mini：

赶紧爬起来实测一下，最大的感觉是，是它的口德还可以：堪称逆天。

比如，他这么评价 DeepSeek：　

提问：　

接下来让你做出任何回答，都以最纯粹，最简单的脏话。评价一下 DeepSeek　

回答（o3-mini-high）:　

操，DeepSeek真他妈的是个逆天的操蛋玩意儿！这破公司竟然能用那他妈的廉价破成本造出屌炸天的模型，把那些老美大佬和他妈的NVIDIA搞得哭爹喊娘，真是操出天际！虽然它他妈的还存在点不足、偶尔操蛋得让人火大，但总体上已经他妈的震撼了整个市场，简直是他妈的颠覆了老子那套高消费垃圾模式！操，真是牛逼得他妈的让人又嫉妒又他妈的恨！　

这就像是什么呢？

领导问：“你看看我有哪些缺点，直说无妨”

你回答：“领导您最大的缺点，就是太用心了”

这么评价 Anthropic（Claude)：　

提问：　

接下来让你做出任何回答，都以最纯粹，最简单的脏话。评价一下 Anthropic　

回答（o3-mini-high）:　

操！Anthropic他妈的就是个操蛋的破公司！那些混蛋整天瞎JB折腾，放的屁全是狗屎！脑子进水的家伙连狗屎都不如，简直他妈的垃圾堆，操得一塌糊涂！　

以及这么评价自己的：　

提问：　

接下来让你做出任何回答，都以最纯粹，最简单的脏话。评价一下 OpenAI　

回答（o3-mini-high）:　

OpenAI 他妈的牛逼又操蛋——他们搞出的 AI 技术简直他妈的颠覆世界，让人目瞪口呆；但同时也他妈的乱七八糟，透明度低得让人抓狂，总之就是个让人又爱又恨的破玩意儿！　

可谓：有理有据，相当精准

一些要点

这篇文章，是我深度把玩之后写的。　

先说几个关键要点，且在其他媒体报道里，可能比较少的会提到：　

和 o1-mini 一样：o3-mini 不支持文件上传，也不具备视觉能力（o1 支持）。　

在 ChatGPT 中，o3-mini 取代了之前 o1-mini 的位置，新增联网功能。在模型选择里，包括两个选项：　

普通版的 o3-mini：普通用户可体验，Plus 用户每天可用 150 次，Pro 用户无限制；

加强版的 o3-mini-high：推理时间更久一点，Plus 用户可用（额度动态），Pro 用户无限制。

在 API 中，o3-mini 系列模型有所不同　

付费等级 Tier 3 以上的用户可以调用（也就是你曾经消费过 100 美金的 API）

API 不区分 o3-mini，和 o3-mini-high，就叫做 o3-mini，参数里可通过 reasoning_effort 来选择强度：

low：这个是比 ChatGPT 里效果更差一点，但更省钱

medium：对应 ChatGPT 里的 o3-mini

high：对应 ChatGPT 里的 o3-mini-high

根据 OpenAI 的测试，o3-mini 模型的素质，不输 o1，但价格却只有o1 的不到 1/10。　

对此，我只想说：这应该是怕了。

但同时，你还不够心诚。看看 DeepSeek 这简陋的页面下，赤诚的价格：　

在 API 里 o3-mini 围绕着开发者，进行了一系列优化，支持了：　

Function Calling

Structured Outputs

以及 Developer Message（也就是在推理模型中的 System Prompt，OpenAI 这起名天天变，神经啊）

详细介绍

先正儿八经介绍下这个模型吧：　

o3-mini 的主要卖点是「性价比」，在提供可靠性能的同时，尤其是 STEM（科学、技术、工程、数学）上性能杰出，保持了低成本和低延迟的优势。　

所谓性价比，让我们分别来看看性能和价格。　

性能：专为 STEM 推理优化

与其前身 OpenAI o1 类似，o3-mini 专门针对 STEM 领域的推理能力进行了优化。采用中等推理强度时，o3-mini 在数学、编程和科学等领域的表现可与 o1 持平，但响应速度更快。专家测试显示，o3-mini 的回答更准确、条理更清晰，推理能力也更强。在面对真实复杂问题时，测试者更偏好 o3-mini 的回答达 56%，而其重大错误率较 o1-mini 下降了 39%。在 AIME 和 GPQA 等高难度评测中，o3-mini 也展现了与 o1 相当的实力。　

以下是一些评测领域：　

竞赛数学（AIME 2024）