Platform Thinking 01月21日
智能的度量:o3 与 AI 的分水岭
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI最新模型o3在ARC-AGI测试中取得突破性进展,高算力测试得分高达88%,超越人类平均水平85%。这一成就不仅打破了该基准测试的记录,更标志着AI在适应新任务能力上的重大飞跃。o3的发布被认为是AI从模仿人类迈向真正智能的重要里程碑,其在编码和数学能力上的飞跃,以及在ARC-AGI测试中的卓越表现,都预示着AI能力的质变。此次发布并非简单的产品更新,而是AI领域的一次重要转折,预示着通用人工智能时代的到来。

🏆 OpenAI 的 o3 模型在 ARC-AGI 测试中取得了惊人的成绩,高算力测试得分高达 88%,超越了人类平均水平的 85%,这在人工智能领域是前所未有的突破。

🚀 o3 的发布不仅仅是渐进式的改进,而是 AI 能力的质变,标志着 AI 在适应新任务能力上的重大飞跃,它不再局限于模仿人类,而是开始展现真正的智能。

👨‍💻 OpenAI 研究主管 Mark Chen 的表现被作为参照物,暗示了 AI 在特定领域已经可以与最优秀的人类专家较量,这体现了 AI 正在从模仿人类迈向真正智能的转变。

“当我看到这些分数的时候,我意识到我需要改变我的世界观了。”

在 OpenAI 的发布会现场,ARC Prize Foundation 的负责人 Greg Kamradt 有些不安。作为全球最严苛的 AI 测试基准之一,ARC-AGI 每年都会举办奖金不菲的竞赛。无数模型在这个测试面前折戟沉沙,以至于业内开玩笑说这个基准“感觉已经存在了几个世纪”。

但就在 2024 年的最后几天,情况发生了变化。

OpenAI 的最新模型 o3 不仅打破了记录,更令人震惊的是:在高算力测试中,它达到了 88% 的得分,超越了人类平均水平的 85%。

“我需要重新校准我对 AI 能力的认知,特别是在这个被 o3 开启的新世界里。”Greg 继续说道。

超人的 o3

在 OpenAI 连续 12 天的发布马拉松中,o3 是最后一棒。这个时间节点的选择颇具戏剧性:此前的几天里,OpenAI 和 Google 仿佛陷入了一场隐形的竞速:Sora 对阵 Veo 2,GPT-4 对阵 Gemini Flash 2.0 Experimental,o1 对阵 Gemini Flash 2.0 Thinking Mode。当 800-CHATGPT 这样的功能发布出现时,不少观察者认为这是一招缓兵之计,为最后的王牌 o3 争取时间。

发布前夕的情况也颇为微妙。关键人物的离职消息传出,让业内开始担心:o3 会不会重蹈 Sora 的覆辙,只是一个仓促的“占坑”发布?

但 o3 的发布过程打破了这些猜测。虽然 Sam Altman 在开场时将 "launch" 改口为 "announce",但随后的展示却令人印象深刻。OpenAI 的研究主管 Mark Chen 没有用华丽的演示,而是直接展示了 o3 在编码和数学能力上相对于 o1 的巨大飞跃。

最引人注目的是 ARC-AGI 测试的结果。这个基准测试的重要性,通过 Greg Kamradt 的介绍得到了充分展现:

它在人工智能领域已经 5 年无人能敌,感觉就像几个世纪以来一直如此。击败 ARC-AGI 的系统将成为迈向通用智能的重要里程碑。

而 o3 正是这个里程碑的缔造者:在 high compute 和 low compute 两种场景下,o3 分别达到了 88% 和 76% 的惊人成绩。更具历史意义的是,它在高算力场景中超越了人类水平线(85%)。

在整个发布过程中,有一个有趣的细节:Sam Altman 和 Greg 不断拿研究主管 Mark Chen 作为参照物。作为美国信息学奥赛(IOI)的国家队教练,Mark Chen 的数学和编程能力远超常人。这种看似调侃的比较背后,实际上暗示了一个更深层的信息:AI 已经可以在某些特定领域与最优秀的人类专家较量。

ARC Prize Foundation 的 官方文章 这样写道:

OpenAI 的新 o3 模型代表了 AI 适应新任务的能力的重大飞跃。这不仅仅是渐进式的改进,而是一个真正的突破,标志着 AI 能力与 LLM 先前的局限性相比发生了质的转变。o3 是一个能够适应从未遇到过的任务的系统,可以说在 ARC-AGI 领域接近人类水平的表现。

这不仅仅是一场普通的产品发布会,而是一个重要的信号:AI 正在从模仿人类迈向真正的智能。要理解这一跨越的意义,我们需要深入探讨智能的本质。

于是,我去读了一下为 ARC-AGI 奠基的论文:On the Measure of Intelligence

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenAI o3 ARC-AGI 人工智能 通用智能 AI突破
相关文章