一道题烧几千美元，OpenAI新模型o3：这34道题我真不会

2024-12-29 13:17 韩国

思考16小时后……o3选择了交白卷。

机器之心报道

编辑：佳琪、蛋酱

翻车，但微翻，翻了 12.5% 吧。

前几天，OpenAI 已经完成了 12 连更的最后一更 —— 如外界所料，是新的推理系列模型 o3 和 o3-mini 。

从 o1 开始，OpenAI 所指出的推理 Scaling Law 似乎带来了全新的实现 AGI 的希望。此次被用来验证 o3 推理能力的基准是 ARC-AGI，这项基准已经提出了 5 年时间，但一直未被攻克。

而新模型 o3 是首个突破 ARC-AGI 基准的 AI 模型：最低性能可达 75.7%，如果让其使用更多计算资源思考更长时间，甚至可以达到 87.5% 的水平。

对于 o1 来说，此前在这项基准中能达到的准确率仅在 25% 到 32% 之间。

在 ARC-AGI 基准中，AI 需要根据配对的「输入 - 输出」示例寻找规律，然后再基于一个输入预测输出。ARC-AGI 发起者、Keras 之父 François Chollet 在测试报告中表示，虽然成本高昂，但仍然表明新任务的性能确实随着计算量的增加而提高。o3 在低计算量模式下每个任务需要 17-20 美元，高计算量模式下每个任务数千美元。但这些数字不仅仅是将暴力计算应用于基准测试的结果。OpenAI 的新 o3 模型代表了人工智能适应新任务的能力的重大飞跃。

「这不仅仅是渐进式的改进，而是真正的突破，标志着与 LLM 之前的局限性相比，人工智能能力发生了质的转变。o3 能够适应以前从未遇到过的任务，可以说在 ARC-AGI 领域接近人类水平的表现。」

比如，对于同一道题，Llama 系列的模型就会因为参数量的提高，从而推测出更加准确的答案。

但大家也注意到了，在 ARC-AGI 的 400 个任务中，还有 34 个任务是 o3 无法解决的，即使思考了 16 小时也没能给出正确答案。正如 François Chollet 所说：「事实上，我认为 o3 还不是 AGI。o3 在一些非常简单的任务上仍然失败，这表明其与人类智能存在根本差异。」

这些任务是什么，难点又在哪里，接下来让我们一起看看。