AI 再下一城！OpenAI O3成功通过AGI的测试，超过人类平均的 88%的水平

原创小可怜Gemini 2024-12-21 11:53 广东

大聪明是智慧、太聪明是恐惧

丸辣，人类真的要去澳大利亚了

昨天 OpenAI 又再一次引领产业，发布了 O3！！！我们离 AI 纪元越来越近了！！

跳过 O2 并非随意之举。OpenAI 称部分原因是 Telefonica 旗下的 O2 品牌，我觉得这是为了暗示一个更大的飞跃。Sam Altman 在发布会上开玩笑说，命名并非他们的强项，但这个选择显然是精心设计的。

Sam：我不会营销

AI 纪元！

真的是太聪明了，比大聪明多了一点聪明，就是太聪明

顶级程序员

数值表现上太可怕了，你回到家后。

你妈和你说，隔壁家的奥特曼他娃

只花了半年不到的时间，

就提高了 1000 多分的成绩!

全球编程大赛的第 175名

你的内心：

程序员真瑟瑟发抖 ing！

我们注意到 O3 的一大亮点在于它在一系列高难度基准测试上的优异表现，这些测试挑战了以往模型尚未完全掌握的推理能力。OpenAI 强调了 O3 相较于 O1 的提升，使其成为一个能够处理复杂问题、解决能力更强的系统。

从上图可以看出，两个模型之间存在显著差异。在编程任务上，O3 在 Bench Verified 测试中取得了 71.7% 的准确率，相较于 O1 有了大幅提升。

开始成为超级数据家，Epoch AI成绩领先其他 AI10 倍，断崖式领先

可能真的不是死记硬背，要知道，在今年11月Epoch AI才发布的数学基准Frontier Math，这项测试被公认为 AI 领域最具挑战性的基准之一，它包含的都是从未发布过的新题目，并且这些题目的难度远超常规数据集。其中许多问题达到了数学研究级别，往往需要专业数学家耗费数小时甚至数天才能解答一道题。目前，AI 系统在该测试上的得分普遍低于 2%，足见其难度之高，

EpochAI Frontier Math 之所以重要，是因为它促使模型不再局限于死记硬背或对已有模式的优化，而是测试它们举一反三、抽象推理以及解决全新问题的能力，而这些正是推动 AI 推理能力发展的关键。O3 在该测试中取得了 25.2% 的得分，

和人类一样聪明，ARG AGI 测试大幅提升！！！

O3 最引人注目的成就之一，是在 ARC AGI 基准测试中的优异表现，该测试被广泛视为评估 AI 通用智能的‘试金石’。

ARC（抽象与推理语料库）由 François Chollet 于 2019 年开发，专注于评估 AI 从极少量的示例中学习并归纳新技能的能力。与那些通常测试预训练知识或模式识别能力的传统基准不同，ARC 的任务设计旨在挑战模型即时推断规则和进行转换的能力——这些任务对于碳基生命而言可以凭借直觉轻松解决，但对于 AI 来说却一直是一大难题。

ARC AGI 的独特之处在于其每个任务都要求模型具备不同的推理能力。模型无法依赖记忆中的解决方案或模板，而是必须针对每次测试中的全新挑战进行灵活调整。例如，一项任务可能是识别几何图形变换的规律，而另一项任务则可能是推导数列的规律。这种多样性使得 ARC AGI 成为衡量 AI 是否能真正像人类一样思考和学习的有效标准。