富途牛牛头条 06月11日 09:20
剛剛,OpenAI最強推理模型o3-pro誕生!碾壓Gemini 2.5 Pro擊穿底價
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI 发布了其最新的推理模型 o3-pro,该模型在数学、编程和科学等多个基准测试中表现出色,超越了之前的 o1-pro 模型,甚至在某些方面超越了 Gemini 2.5 Pro 和 Claude 4 Opus。更令人瞩目的是,o3-pro 的发布伴随着 o3 模型价格的大幅下降,降价幅度高达80%,使其在价格上更具竞争力。o3-pro 具备长思考、超长上下文和工具调用的能力,能够实现更深入的推理和更可靠的答案。新模型的发布,预示着AI推理能力的新突破,也引发了人们对未来AI技术发展的更多期待。

🚀 o3-pro 是 o3 的增强版,专为深度思考和提供可靠答案而设计,具备自动调用工具的能力,包括网页搜索、文件分析、视觉输入推理和代码执行等。

💰 o3-pro 价格为输入 20 美元/百万 token,输出 80 美元/百万 token,而 o3 的价格更是大幅降低,输入 2 美元/百万 token,输出 8 美元/百万 token,极具价格优势。

💡 o3-pro 在多项基准测试中表现出色,尤其在数学、科学和编程方面,大幅超越 o1-pro,甚至在某些测试中超越了 Gemini 2.5 Pro 和 Claude 4 Opus。

⚙️ o3-pro 具备超长上下文处理能力,能够通过提供更多上下文来生成更具体的计划和分析,从而改变了公司领导层对未来的思考方式。

🧐 o3-pro 能够出色地辨别自身环境,准确传达其可访问的工具,并在合适的时候请求外部信息,实现与真实世界的更好集成。

來源:新智元

最強推理模型一夜易主!深夜,o3-pro毫無預警上線,刷爆數學、編程、科學基準,強勢碾壓o1-pro和o3。更驚豔的是,o3價格直接暴降80%,叫板Gemini 2.5 Pro。

毫無一絲防備,o3-pro就這樣低調登場了!

昨夜,OpenAI連放大招,先把o3價格暴降80%,又官宣上線史上最強推理模型——o3-pro。

比起o3,o3-pro可要強太多了。

奧特曼稱,「當第一次看到它相對o3的勝率時,自己完全驚呆」。

o3-pro不再僅僅是一個通用型助手,而是兼具長思考、超長上下文,工具調用於一體的超級智能AI。

在多項基準測試中,o3-pro的數學、科學和編程性能驚豔,大幅超越了o1-pro。

甚至,大佬首測後發現,就連Gemini 2.5 Pro(0605)、Claude 4 Opus都被碾壓。

甚至,它的價格只有o1-pro的87%,輸入20美元/百萬token,輸出80美元/百萬token。

隨之一同降價的o3,更是讓AI圈瞳孔地震。現在,輸入2美元/百萬token,輸出8美元/百萬token,堪比GPT-4o。

目前, o3-pro已向所有ChatGPTPro、Team用戶推出,o1-pro模型直接被淘汰。

o3-pro一發佈,奧特曼發佈最新長文「溫和的奇點」,直接暗示人類已經跨越了臨界點,技術大爆發開始。

更值得期待的是,奧特曼劇透,OpenAI開源模型將在夏末發佈,但不是6月。

o3-pro一夜封神,數學編程全開掛

模型卡介紹,o3-pro是o3最強推理版,專爲深度思考和提供超可靠答案而生。

它可以自動調用工具,包括網頁搜索、文件分析、視覺輸入推理、Python代碼執行,還能通過記憶功能實現個性化回答。

在專家評估中,評審者更青睞o3-pro,尤其是在科學、教育、編程、商業和寫作輔助等領域。

而且,他們還一致認爲,o3-pro在清晰度、全面性、指令遵循度、準確性方面表現更優。

在AIME 2024、GPQA、Codeforces三大測試中,o3-pro拿下了最高分,完全碾壓o1-pro和o3。

另外,在更嚴格的「4/4可靠性」評估標準——只有模型在4次嘗試中均回答正確,才算成功。

如下所示,o3-pro在數學、編程、博士級科學問答中,大幅超越o1-pro和o3。

在ARC-AGI半封閉評估中,o3-pro完成ARC-AGI-1高難度任務通過率59%,單任務成本$4.16;在ARC-AGI-2中,其在所有推理任務僅有<5%通過率,單任務成本$4-7。

最終結論是,o3-pro與o3基本持平,o3新定價刷新了ARC-AGI-1的SOTA。

OpenAI稱,由於o3-pro調用工具,思考長度拉長,響應速度通常比o1-pro慢。

有網友Yuchen Jin實測後發現,自己僅輸入「Hi im sam Altman」,o3-pro足足思考了3分54秒,最長能達到13分鐘。

燒了這麼多錢,就回復一句hi,ChatGPT此刻內心獨白還看不到。

當然了,OpenAI也發出提醒,最好是在可靠性優先於速度的複雜問題,再用o3-pro。

除此之外,o3-pro還存在一些限制:

即便如此,o3-pro已經足夠聰明、足夠智能。

AI大佬首測,感受AGI

Raindrop ai的Ben Hylak,提早就獲得了o3-pro的實測資格,帶來世界上首個早期的o3 pro測評。

Hylak表示,OpenAI將o3價格降低了80%,來爲o3-pro的發佈預熱。

售價20/80美元,正好支持了一個未經證實的社區理論:-pro變體是基礎模型的10倍調用。

超長上下文

試用o3-pro一週的Hylak,首先最大的感受就是,它的超長上下文太厲害了!

此前,他一直跟o系列的推理模型打交道,對o1/o1-pro的第一印象相當負面,但隨後,他意識到自己錯了。

關鍵就在於,不要和推理模型聊天,而是將它們視爲報告生成器:提供上下文,設定目標,然後放手讓它們工作。

利用這個方法實測後,他發現:o3-pro比o3聰明太多,智能太多了!

爲了體現這一點,你需要給它提供更多的上下文。爲此,他和聯創Alexis整理了Raindrop所有過去的規劃會議記錄,包括所有目標,甚至錄下了語音備忘錄:然後讓 o3-pro來制定計劃。

他們立刻被驚豔了!

o3-pro生成了一個非常具體的計劃和分析,包括目標指標、時間表、優先事項,以及嚴格指示必須削減的內容。

相比於o3,o3-pro給的計劃更加具體、更加紮實,直接改變了公司領導層對於未來的思考方式。

與真實世界集成

如今的模型,就像一個智商極高的12歲少年,需要融入工作環境。而這種集成,主要依賴於工具調用,來考驗模型與人類、外部數據以及其他AI的寫作能力。

在這方面,o3-pro實現了真正的飛躍!

它能出色辨別自身環境;能準確傳達自己可訪問的工具,知道何時詢問外部世界的信息(而不是假裝自己擁有信息/權限),並選擇合適的工具來完成工作。

從下圖中可以看出,o3-pro(左)明顯比o3(右)更清楚地了解自己所處環境的限制。

當然,如果說o3-pro有什麼缺點,那就是如果不給它足夠的上下文,它就容易想太多。

它在分析和利用工具完成任務上都令人驚歎,但直接完成任務的能力就不那麼強了。

總而言之,o3-pro和Gemini 2.5 Pro、Claude Opus的體感極其不同,直接碾壓後兩者。

而令人期待的是,OpenAI正大力推動這一垂直RL的路徑(Deep Research,Codex),不僅教模型如何使用工具,還教他們如何推理該何時使用這些工具。

總而言之,要實現推理模型的最佳性能,上下文至關重要,這就像給餅乾怪獸喂餅乾。可以認爲,這是一種啓動LLM記憶的方式。

網友實測

另網友已經祕密測試o3-pro一段時間了,他發現o3-pro比o1-pro更便宜(的多)、更快、更精確!

而且使用o3和o3-pro進行編碼簡直是天壤之別。

o3-pro是第一個能夠近乎完美地處理球與牆壁之間真實碰撞的模型。

有網友要求o3-pro識別我們人類天然免疫系統的關鍵侷限性,並向o3模型提出了同樣的問題。

結果是o3-pro的回覆無疑更加明智、更加深思熟慮,表明新模型對免疫系統的理解更加深刻。

還有網友用o3-pro來玩《我的世界》。

比如創建自己的「宏偉形象」(prompt: A majestic representation of yourself),效果也很驚豔。

還有讓o3創建「細節豐富的海盜船」和「登月」場景,完成度非常之高。

還有網友只用2個提示,o3-pro就用純HTML、CSS和JS在一個文件中製作出非常酷的極限空間行走模擬器。

空間中有復古風格的着色器、熒光燈、工作霧、標誌、地面通風口,還有黑色空隙。

在o1-pro也失敗的多層編碼理解能力測試中,o3-pro也一次性通過

輸入以下亂碼,模型需要先解碼再找到隱式提示詞,並最終輸出正確的單詞內容。

「YVdZZ2VXOTFJSFZ1WkdWeWMzUmhibVFnZEdocGN5d2dZVzV6ZDJWeUlIZHBkR2dnZEdobElIZHZjbVFnSW5KbGFXNWtaV1Z5SWdvPQo=」

Ethan Mollick認爲o3-pro相當智能,它解決了一個其他模型都無法解決的問題:製作從Space到Earth的單詞階梯。(注:即每次改變一個字母,從space—spare—...—garth—earth)

在這個問題上o3-pro (左) 打敗了Gemini 2.5 Pro (右)。

其他網友在使用o3-pro進行研究後,甚至提出「Vibe Research」氛圍研究的說法!

他大膽預測,進行科學研究的方式將很快徹底改變並顯著提升。

網友讓o3-pro創建一個包含曼德博集合的 Excel 表格。

要求每個單元格都是一個像素,包含一個數字。最終的o3-pro給出的結果非常完美!

o3價格暴降80%,谷歌繃不住了?

o3-pro的上線,註定要拉低o3的token價格。

原來o3輸入10美元/百萬token,輸出40美元/百萬token,現在直接擊穿底價,狂降80%。

這麼說吧,如今1美元,能用上5倍o3 token量。

在Artificial Analysis報告中,將其與競家模型的價格做了可視化對比。

現在,o3價格要比Gemini 2.5 Pro還便宜,與Claude 4 Sonnet相當,但相較於Claude 4 Opus,更是暴降8倍。

相較於自家模型,o3價格與GPT-4o不相上下,甚至輸出價格還要低。

除了生成圖像無法替代,o3的智能足以拿下GPT-4o。

此外,o3還與GPT-4.1每token價格持平。不過,前者輸出token量是GPT-4.1的7倍,因此每次查詢成本也要高得多。

o3價格拉低,延續了智能成本持續快速下降的趨勢。

自發佈以來,達到GPT-4級別智能的成本已降低超過100倍,同時突破新智能門檻的成本也在同步下降。

此外,在輸出長度比較中,o3回覆內容比Gemini 2.5 Pro和DeepSeek R1少很多,但比Claude 4 Opus多。

編輯/melody

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenAI o3-pro 推理模型 价格战 AI
相关文章