硅星人Pro 2024年12月25日
o3曝智商高达157,比肩爱因斯坦碾压99%人类!陶哲轩水平AI或出现
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI最新模型o3在智商测试中表现惊人,达到157,与爱因斯坦相当。该模型在编程竞赛Codeforces中得分超过2700,达到国际大师水平,并在数学基准FrontierMath中表现出色。o3的核心创新在于实现了token空间内自研语言程序搜索和执行,本质是一种深度学习引导的程序搜索形式。尽管o3性能强大,但OpenAI研究员表示它并非AGI,仍有很长的路要走。同时,o3在ARC-AGI测试中被质疑作弊,但其高智商表现为其性能正名。未来,或有更强模型Orion现身,而推理模型的超进化迭代将持续,2025年值得期待。

🧠o3模型智商高达157,在编程竞赛Codeforces中表现卓越,达到国际大师水平,并且在数学基准FrontierMath中表现惊艳,甚至击穿了陶哲轩的预言。

💡o3的核心创新点在于实现了token空间内自研语言程序搜索和执行,这是一种深度学习引导的程序搜索形式,类似于AlphaZero的蒙特卡洛树搜索。

🤔尽管o3在ARC-AGI测试中被质疑“作弊”,但其高智商表现为其性能正名,OpenAI研究员表示,o3并非AGI,未来还有很长的路要走。

🚀OpenAI研究员表示,从o1到o3仅用了3个月时间,这表明在新范式下,进展远快于预训练范式,推理模型的优势在于利用更多计算资源思考,能够弥补预训练的放缓速度。

💰o3的推理代价高昂,每个高计算任务成本超过1000美金,这也解释了OpenAI博士级AI助手每月2000美元的原因,同时谷歌也在积极推出推理模型,竞争激烈。

2024-12-25 09:21 北京

o3智商竟有157,堪比爱因斯坦?

文章转载于新智元

o3智商竟有157,堪比爱因斯坦?

今天,一张OpenAI模型智商图,在全网传遍了。

基于编程竞赛Codeforces排名评分

图中清晰可见,能够达到o3智商水平的人类大约占比仅有0.0075%。

13333人当中,也仅有1人IQ是o3级别的。对于GPT-4o,6人当中就有1人能够达到IQ 115的水平。

从GPT-4o、到o1系,再到o3系,模型IQ逐渐递增,也仅用了1年时间,实现了质的飞跃。即便是最强o1 pro(IQ为139),o3完全领先近20分。

有网友表示,用不了多久,我们口袋里就会拥有一个IQ 157的智能。

还有人称,陶哲轩智商大约在225-230之间,未来模型很快就能达到这个水平。

1

o3超高智商背后

o3发布之后,很多人都认为AGI实现了。

从o1到o3,OpenAI仅用了3个月;从o1 pro到o3,仅用了1个月。种种迹象表明,Scaling Law并未终结。

过去五年,OpenAI模型在ARC-AGI上的得分,也说明了一切。

OpenAI研究员Nat McAleese在o3发布当天,分享了一些关于模型的介绍。

他表示,o3代表着通过强化学习在通用领域的巨大进步。

o1是首个大规模推理模型,也仅仅是一个通过RL训练的大模型。o3是通过在o1基础上,进一步scaling强化学习而开发的。

我们已经看到,o3在世界上最具竞争的编程基准CodeForces中得分超2700,完全达到了国际大师的水平。

与此同时,o3在数学基准FrontierMath惊艳表现令人生畏,甚至击穿了陶哲轩的预言。

在Keras之父François Chollet转写的报告中,也解释了o3与以往旧模型之间的区别:

o3的核心创新点在于,实现了token空间内自研语言程序搜索和执行。在测试时,它会搜索可能的CoT空间,并寻描述解决任务所需的步骤,由评估模型引导搜索过程。

而且,他表示,这种方式与AlphaZero的蒙特卡洛树搜索并无太大差异。

本质上,o3是一种深度学习引导的程序搜索形式。

不过,即便o3进化速度如此疯狂,OpnenAI研究员Will depue表示,这还不是AGI,我们还有很长的路要走。

1

o3 ARC-AGI测试被曝「作弊」?

而且就在最近,o3的ARC-AGI测试结果,在圈内引起了不小的争议。

要知道,这个基准设立的初衷,就是专门找到那些对人类很容易,对AI来说却很难的题目。

根据OpenAI的说法,在ARC-AGI这个基准测试中,o3在低计算模式下,在半私有评估中的得分为75.7%;在高计算模式下,得分为87.5%。

而人类在该任务上的表现通常在85%的水平,也就是说,o3在高计算模式下,已经超越了人类。

这个结果,引起了多人的质疑:OpenAI不会专门针对这个任务做过训练吧?

要知道,在直播的第12天,奥特曼专门强调过,「并未对模型做过特殊处理」。

对此,心细的网友们纷纷展开调查。

比如这位名为Knight Lee的网友,就表示o3在ARC-AGI上的分数是经过微调的,而之前的AI分数并没有被微调。

他表示,o3的一个主要优势,就是接受过示例测试问题的明确训练而已。

之所以有这样的观点,是他引用了ARC-AGI设计师François Chollet的说法——

OpenAI分享说,他们测试的o3是在公共训练集75%的数据上进行训练的。他们尚未透露更多细节。我们尚未测试未经ARC数据训的模型,因此尚不清楚其性能有多少归因于ARC-AGI数据。

这个这个说法为真,那o3所取得的分数,显然占了很大便宜。

OpenAI研究员Zach Stein-Perlman反驳说,他们没有针对ARC对o3做过微调。

不过今天出来的o3智商157的结果,至少可以为它的性能稍稍正名了。

1

o4才是Orion?

而且,在o3之后,或许还会有IQ更强的模型现身。

Information独家爆料称,o3并不是代号为Orion的模型。相对的,Orion可能会作为o4的基础模型。

但华尔街日报在此前的报道中表示,Orion是GPT-5……

OpenAI研究员Jason Wei称,从o1到o3仅用了3个月的时间,这表明在新范式下,进展远快于预训练范式每1-2年更新一次模型的速度。

推理模型的优势在于,利用更多计算资源思考之后,能够弥补预训练的放缓速度。

也正因此,o3推理代价是高昂的。ARC-AGI基准测试报告中,已经披露了o3在每个高计算任务中的成本会超过1000美金。

这也充分解释了,OpenAI博士级AI助手能达到每月2000美元的原因。

另一位OpenAI研究员John Hallman对此表示,当Sam和我们研究人员说AGI即将到来时,我们不是为了给你画大饼,不是为了推2000美元的订阅,也不是为了诱骗你投资我们的下一轮融资。它真的要来了。

目前,不清楚的是,o3对普通ChatGPT用户能带来多大帮助。

o3可能在编程、数学、科学领域表现,对编程、数学和科学领域的人员帮助最大,包括那些研究极其困难问题(如核聚变能源)的研究人员。

而对于普通用户而言,新模型可能有点「大材小用」。

虽然o3表现出色,其他科技巨头也不甘示弱。

谷歌强势推出了Gemini 2.0 Flash、视频模型Veo 2,以及由耗资30亿美金聘请AI研究员Noam Shazeer开发的推理模型。

一些对价格敏感的开发者,纷纷转向了谷歌Flash模型。

可以看出,推理模型仍将继续超进化迭代,2025年也将会如今年一样令人兴奋。

参考资料:

https://x.com/i_dg23/status/1871135348069482993

https://x.com/kimmonismus/status/1871162085675253977

https://x.com/SmokeAwayyy/status/1871273888191221922

https://www.theinformation.com/articles/openai-wows-the-crowd-as-new-scaling-law-passes-its-first-test?rc=epv9gi


点个在看,再走吧

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenAI o3 人工智能 智商 推理模型 ARC-AGI
相关文章