机器之心 2024年12月29日
一道题烧几千美元,OpenAI新模型o3:这34道题我真不会
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI最新推出的推理模型o3及o3-mini在ARC-AGI基准测试中取得突破性进展,成为首个突破该基准的AI模型。o3的最低性能达到75.7%,在高计算资源下甚至可达87.5%,远超上一代模型o1的25%-32%。尽管o3在适应新任务能力上取得重大飞跃,但仍有部分任务无法解决,显示其与人类智能存在根本差异。测试中,o3在一些简单任务上失败,如空间思维和俄罗斯方块类型题目,暴露出其在二维物体识别和记忆重复行方面的不足。这表明,人工智能在实现通用人工智能的道路上仍面临挑战。

🚀o3模型在ARC-AGI基准测试中取得突破,最低性能达75.7%,高计算资源下可达87.5%,远超上一代模型o1。

🧠o3在适应新任务能力上实现质的飞跃,但仍有部分任务无法解决,表明其与人类智能存在根本差异。

🤔测试发现,o3在空间思维和二维物体识别方面存在不足,难以处理俄罗斯方块类型的题目,在记忆重复行方面也存在困难。

🚧o3在一些简单任务上失败,揭示了其在推理能力上的局限性,表明实现通用人工智能仍面临挑战。

2024-12-29 13:17 韩国

思考16小时后……o3选择了交白卷。

机器之心报道

编辑:佳琪、蛋酱

翻车,但微翻,翻了 12.5% 吧。


前几天,OpenAI 已经完成了 12 连更的最后一更 —— 如外界所料,是新的推理系列模型 o3 和 o3-mini 。


从 o1 开始,OpenAI 所指出的推理 Scaling Law 似乎带来了全新的实现 AGI 的希望。此次被用来验证 o3 推理能力的基准是 ARC-AGI,这项基准已经提出了 5 年时间,但一直未被攻克。


而新模型 o3 是首个突破 ARC-AGI 基准的 AI 模型:最低性能可达 75.7%,如果让其使用更多计算资源思考更长时间,甚至可以达到 87.5% 的水平。


对于 o1 来说,此前在这项基准中能达到的准确率仅在 25% 到 32% 之间。



在 ARC-AGI 基准中,AI 需要根据配对的「输入 - 输出」示例寻找规律,然后再基于一个输入预测输出。ARC-AGI 发起者、Keras 之父 François Chollet 在测试报告中表示,虽然成本高昂,但仍然表明新任务的性能确实随着计算量的增加而提高。o3 在低计算量模式下每个任务需要 17-20 美元,高计算量模式下每个任务数千美元。但这些数字不仅仅是将暴力计算应用于基准测试的结果。OpenAI 的新 o3 模型代表了人工智能适应新任务的能力的重大飞跃。


「这不仅仅是渐进式的改进,而是真正的突破,标志着与 LLM 之前的局限性相比,人工智能能力发生了质的转变。o3 能够适应以前从未遇到过的任务,可以说在 ARC-AGI 领域接近人类水平的表现。」


比如,对于同一道题,Llama 系列的模型就会因为参数量的提高,从而推测出更加准确的答案。



但大家也注意到了,在 ARC-AGI 的 400 个任务中,还有 34 个任务是 o3 无法解决的,即使思考了 16 小时也没能给出正确答案。正如 François Chollet 所说:「事实上,我认为 o3 还不是 AGI。o3 在一些非常简单的任务上仍然失败,这表明其与人类智能存在根本差异。」


这些任务是什么,难点又在哪里,接下来让我们一起看看。


人们惊讶于 o3 无法解决它(没有看到尝试)。实际上,这些样本可能没有详细说明,并且 o3 的第一个解决方案是正确的。


这个任务是整个数据集中唯一一个模型无法输出网格的样本 —— 在某些列上添加了错误的额外方块。在 ARC 上,使用较小的 LLM 时经常会看到这种情况。


这个题目看似简单,其实很有挑战性。



o3 的第一次尝试就是完全照搬了输入,啥都没改,相当于在答题卡上照抄了一遍题干。


这也能理解,对于一个只能一维思考的模型来说,识别二维物体确实很难。François Chollet 表示,之前就发现过一维推理的局限性,有意思的是,如果在第二次尝试时给大语言模型看旋转或翻转后的题目,它们的表现会明显提升。




这道题主要考验空间思维能力,不像其他题目那样需要对网格做复杂的改动,不过也不影响最后做错的结果......


这次算是一个不错的尝试 —— 虽然还是出了点问题。有意思的是,在输出第二个答案时,o3 虽然做了一堆推理,最后却只是简单画了几条重复的线(这明显不对)。说实话,感觉它就像是「算了算了,我不玩了!」




测试样本比训练样本大得多,这一点很有意思。


可以看到,和标准答案相比,o3 的结果不仅一点边都没沾上,第二次还直接「摆烂了」,交了白卷。


François Chollet 指出:「这恐怕是最不理想的一次测试案例。模型的表现难以解释,o3 似乎在这里直接放弃了尝试。不过还不确定这是否是因为第一次模型已经意识到自己的错误,从而触发了 OpenAI 预设的某种机制。」






每一行都是正确的,但在整个网格上却错位了。





o3 在两个答案中都漏了一些行、列。







o3 对俄罗斯方块类型的题完全没招,我们可以在前面的任务 [1acc24af] 中看到同样的情况。






这两次,o3 都在答案中少生成了一行。看来,它很难记住还有多少相同重复的行要输出。



参考链接:https://x.com/mikb0b/status/1870622741029941545

https://anokas.substack.com/p/o3-and-arc-agi-the-unsolved-tasks


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com



阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenAI o3模型 ARC-AGI 人工智能 AGI
相关文章