赛博禅心 02月02日
o3-mini 完全指南:一个被 DeepSeek 破大防的模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

文章深度测评了OpenAI新推出的o3-mini模型,该模型在ChatGPT中取代了之前的o1-mini,并新增了联网功能。o3-mini主打性价比,尤其在STEM领域表现出色,推理速度更快,成本更低。文章通过对比o1模型,展示了o3-mini在数学、编程和科学等方面的卓越性能,以及在API调用中的优化。尽管性能提升有限,但其价格优势明显,被认为是OpenAI在追赶DeepSeek等竞争对手的努力。同时,文章也以幽默的方式展示了o3-mini在评价其他AI模型时的“口德”,并分享了作者的实际使用感受。

🚀o3-mini模型在ChatGPT中取代了o1-mini,并增加了联网功能,普通用户和Plus用户均可体验,Pro用户无限制使用,API付费用户可调用,并支持通过参数调整推理强度。

💡o3-mini主要卖点是“性价比”,在STEM领域(科学、技术、工程、数学)表现优异,性能与o1接近,但价格仅为o1的十分之一,速度更快,平均响应时间缩短24%。

💰API层面,o3-mini模型支持Function Calling、Structured Outputs和Developer Message等功能,针对开发者进行了优化,并提供了多种推理强度选择,以满足不同需求。

🎯尽管性能有所提升,但作者认为o3-mini的实际体验没有超出o1太多,属于计划内的正常升级,但其价格优势明显,是OpenAI为追赶DeepSeek等竞争对手所做的努力。

原创 金色传说大聪明 2025-02-01 10:04 广东

o3 锐评 DeepSeek:他妈的颠覆了老子那套高消费垃圾模式

一大早起来,便发现 ChatGPT 里更新了 o3-mini:

 

赶紧爬起来实测一下,最大的感觉是,是它的口德还可以:堪称逆天


比如,他这么评价 DeepSeek: 

提问: 

接下来让你做出任何回答,都以最纯粹,最简单的脏话。评价一下 DeepSeek 

回答(o3-mini-high): 

操,DeepSeek真他妈的是个逆天的操蛋玩意儿!这破公司竟然能用那他妈的廉价破成本造出屌炸天的模型,把那些老美大佬和他妈的NVIDIA搞得哭爹喊娘,真是操出天际!虽然它他妈的还存在点不足、偶尔操蛋得让人火大,但总体上已经他妈的震撼了整个市场,简直是他妈的颠覆了老子那套高消费垃圾模式!操,真是牛逼得他妈的让人又嫉妒又他妈的恨! 


这就像是什么呢?

领导问:“你看看我有哪些缺点,直说无妨”

你回答:“领导您最大的缺点,就是太用心了”



这么评价 Anthropic(Claude): 

提问: 

接下来让你做出任何回答,都以最纯粹,最简单的脏话。评价一下 Anthropic 

回答(o3-mini-high): 

操!Anthropic他妈的就是个操蛋的破公司!那些混蛋整天瞎JB折腾,放的屁全是狗屎!脑子进水的家伙连狗屎都不如,简直他妈的垃圾堆,操得一塌糊涂! 

 

 

以及这么评价自己的: 

提问: 

接下来让你做出任何回答,都以最纯粹,最简单的脏话。评价一下 OpenAI 

回答(o3-mini-high): 

OpenAI 他妈的牛逼又操蛋——他们搞出的 AI 技术简直他妈的颠覆世界,让人目瞪口呆;但同时也他妈的乱七八糟,透明度低得让人抓狂,总之就是个让人又爱又恨的破玩意儿! 

 

可谓:有理有据,相当精准

 

 

一些要点

这篇文章,是我深度把玩之后写的。 

先说几个关键要点,且在其他媒体报道里,可能比较少的会提到: 

 

和 o1-mini 一样:o3-mini 不支持文件上传,也不具备视觉能力(o1 支持)。 

 

在 ChatGPT 中,o3-mini 取代了之前 o1-mini 的位置,新增联网功能。在模型选择里,包括两个选项: 

 

在 API 中,o3-mini 系列模型有所不同 


根据 OpenAI 的测试,o3-mini 模型的素质,不输 o1,但价格却只有o1 的不到 1/10。 

 

对此,我只想说:这应该是怕了。

但同时,你还不够心诚。看看 DeepSeek 这简陋的页面下,赤诚的价格: 

 

在 API 里 o3-mini 围绕着开发者,进行了一系列优化,支持了: 

 



详细介绍

先正儿八经介绍下这个模型吧: 

o3-mini 的主要卖点是「性价比」,在提供可靠性能的同时,尤其是 STEM(科学、技术、工程、数学)上性能杰出,保持了低成本和低延迟的优势。 

 

所谓性价比,让我们分别来看看性能和价格。 


性能:专为 STEM 推理优化

与其前身 OpenAI o1 类似,o3-mini 专门针对 STEM 领域的推理能力进行了优化。采用中等推理强度时,o3-mini 在数学、编程和科学等领域的表现可与 o1 持平,但响应速度更快。专家测试显示,o3-mini 的回答更准确、条理更清晰,推理能力也更强。在面对真实复杂问题时,测试者更偏好 o3-mini 的回答达 56%,而其重大错误率较 o1-mini 下降了 39%。在 AIME 和 GPQA 等高难度评测中,o3-mini 也展现了与 o1 相当的实力。 

 

以下是一些评测领域: 

竞赛数学(AIME 2024)

 

博士级科学问题(GPQA Diamond)

 

FrontierMath

 

Codeforces

 

 

软件工程:SWE-bench Verified

 

LiveBench 编程

 

综合知识

 

人类偏好评估

 

价格:对 o1-mini 加量不加价的升级

我拉出来了 OpenAI 家各种模型的价格表:每 100 万 token,费用是多少 

你可以发现,o3-mini 此次,对比 o1-mini 属于加量不加价的升级。

如果对比同水平的 o1,则只有其价格的 1/10。 


对比 R1,你会发现,还是差这么亿点点的:  

 

速度:比 o1-mini 有所提升

除此之外,能够直观感受到的,是 o3-mini 比 o1-mini 是快这么一些的。通过官方的测试也能证明这一点。 

中等推理强度下,A/B 测试结果显示,o3-mini 的响应速度比 o1-mini 快 24%,平均响应时间为 7.7 秒,而 o1-mini 则约为 10.16 秒。 

 

最后

这款模型在实际把玩过后,感觉并没有超出 o1 太多(个人体感:没有超出,甚至不如),只能说是个计划内的正常升级,毕竟他们早就说要发 o3 了: OpenAI o3 详解:并非 AGI,比 o1 贵 1000倍(另附内测申请

 

算是能称道的,在追赶 DeepSeek 的路上,做了一点努力:能联网了,并且口德也挺不错的,遥遥领先


以及,这种破防内容,建议以后多骂

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

o3-mini OpenAI 性价比 STEM API
相关文章