OpenAI o3 详解：并非 AGI，比 o1 贵 1000倍（另附内测申请）

原创金色传说大聪明 2024-12-21 07:58 广东

支付 3500 美金，可解答「9.09 和 9.11 谁更大」

今日发布

o3 - 更强的 o1

按计算量：1000 倍的成本

（o3-high 对比 o1-high）

根据 ARC-AGI 测试标准

单任务成本，大概 3500 美金

问一句「9.09 和 9.11 谁更大」

2万人民币就没了

模型的代号为 α

也可以叫他猎户座

OpenAI「草莓」今秋发布，随后是「猎户座」

模型尚未开放

可在这里申请内测

https://openai.com/index/early-access-for-safety-testing/

之后会有一个缩水版的 o3-mini

预计明年 1 月底开放

接下来

我们先谈成绩

再说问题

很会编程

在编程领域，非常优秀

Codeforces 2727 分

2727 分

相当于 CF 编程大神榜单 175 名

怎么评价呢

OpenAI 现任首席科学家

以前也是玩 Codeforces 的

历史最高得分是 2655

很会数学

在数学难题解答上

也是遥遥领先

Frontier Math

包含一个数据集

里面都是未发布的超高难度数学问题

即便是优秀的专业人员

解答其中的一个问题

也需要数小时到数天

在之前的测试中

AI 的最好成绩是解决了 2% 的问题

而 o3 解决了 25.2% 的问题

再说问题

很贵

非常离谱的贵

o 系列模型

会有多种算力模式

OpenAI 新货详解：o1 正式版 /ChatGPT Pro

比如：low/medium/high

在 ARC-AGI 测试中

对于 o3 - low

单任务成本约 20 美金

是 o1 - low 的 10 倍

对于 o3 - high

单任务成本约 3500 美金

是 o1-high 的 2000 倍

以上数据，来源 ARC

注意：o3-high 价格尚未确定，根据计算量进行成本推算

并非 AGI

上面提到的 ARC

是 OpenAI 的新晋测试伙伴

提供关于 AGI 的测试基准

（马上我会详细讲）

虽然 o3 在这个测试中

取得了不错的成绩

但远达不到 AGI 的标准

ARC 的官方说法是这样

I don't think o3 is AGI yet

我不认为 o3 是 AGI

o3 still fails on some very easy tasks

o3 在很多简单问题上，做得很差。

indicating fundamental differences with human intelligence

这说明他和人类之间还是有根本性差距的

同时，ARC 官方也表示

在第2版榜单里

人类的基准成绩是 95%

而 o3 的成绩会跌到不到 30%

说说 ARC-AGI

这是 Keras 创始人 Chollet，在 2019 年搞出来的一个基准测试，来测测 AI 到底有多会"学习"。最开始发表在论文《On the Measure of Intelligence》。

https://arxiv.org/abs/1911.01547

怎么测的

给被测试的 AI，一些彩色网格的示例对。然后再给一个新的输入，让他预测输出。

每个格子可以是十种颜色之一，网格大小从 1x1 到 30x30 不等。

目前，o1 的正确率在 30% 左右，o3-high 则达到了 88%。

在定向任务的团队中，目前的最好成绩是 the ARChitects，正确率 53.5%。

代码：

https://www.kaggle.com/code/gregkamradt/arc-prize-v8?scriptVersionId=211457842

论文：

https://github.com/da-fr/arc-prize-2024/blob/main/the_architects.pdf

为啥有这个测试

对于 AGI 是啥，有很多种表述，一个主流的说法是"能把大部分有经济价值工作，进行自动化的系统"。

Chollet 觉得，这个定义有点偏离：真正的智能不是你会多少技能，而是你有多会学习。毕竟，现在的大模型，你只要给他足够的数据，他就会有对应的技能，看不出到底有多聪明。

于是 Chollet 搞出来了这个 ARC-AGI 的基准测试，用来评估那些 “没有出现过的问题”，也是目前唯一一个专门测量 AGI 进展的测试。

o3 的测试

测试在两个数据集上进行：

一个是 100 道私密题目

另一个是 400 道公开题目

o3-low 的成绩是 75.7%，而 o3-high（172 倍消耗）则能达到 87.5%。在公开数据集上的表现更好，分别达到了 82.8% 和 91.5%。而之前最好的大模型成绩，是 30%。

这个事儿也证明了一点，对于创新性任务，只靠碓数据和加大算力（Scaling Laws），是不够的，毕竟给 GPT-4 再多的算力也不行。

顺道说一下，找外包来处理这些题目，人力成本大概是... 5 美金/题（放在国内，相信能卷到 1 块钱一题），而即便是最便宜的 o3-low，也需要 20 美金。

所以，就目前来说：由于人工队工资低，饭碗还能保住。（什么逆天言论）

你比 o3 更聪明

这里有几个 o3 没有解决的难题，可以来试试。相信你比 o3 更聪明

Task ID: c6e1b8da

Task ID: 0d87d2a6

Task ID: b457fec5

一定要注意

即便某个 AI 完美通过 ARC-AGI，并不意味着已经实现 AGI。

另外的：由于 o3 在很多简单问题上，做得很差，这说明他和人类之间还是有根本性差距的，更不能说 o3 探明了 AGI 之路。

此外，ARC-AGI-2 的测试标准即将亮相。即便是 o3-high，其得分也只不到 30% ，而聪明的人类则在在 95%，这还是基于无任何训练的前提。

以及，Claude 和 OpenAI 在 ARC-AGI 的测试结果，可以在这里看到：

https://github.com/arcprizeorg/model_baseline/tree/main/results

OpenAI 的12天发布

美国时间 12 月 4 日，山姆奥特曼在推特上表示，要连发 12 天的货。赛博禅心为此做了全程记录，让我们一起来回顾下。

Day 1：o1 / ChatGPT Pro

Plus 用户，每月支付 20 美金：o1 会获得更新，支持图片上传

Pro 用户，每月支付 200 美金：无限使用 o1，并且可用 o1 pro mode

Day 2：强化微调

开发者向：给 o1 用的微调方法

Day 3：Sora

年初展示的 Sora，终于发货了，同时带来的，还有一整套在线编辑工具。

顺道：《中学生能看懂：Sora 原理解读》

Day 4：o1 / ChatGPT Pro

ChatGPT 中的画板功能获得更新，可在其中直接运行 Python，类似 Jupyter/Colab

Day 5：在苹果设备中，用 AI

这是个期货，终于上线了：《Apple：属于每个人的 AI，在这里》

但国内的苹果设备，不出意外的用不了

Day 6：高级语音模式更新

手机版 ChatGPT 支持和 AI 进行视频通话了，还可以和 AI 共享屏幕。

顺道说下，网页版之后也会更新：《独家信息：ChatGPT 的 2 个待发布功能》

Day 7：Projects

ChatGPT 有了“文件夹”，在对话之间，可以共享文件。

Day 8：o1 / ChatGPT Pro

ChatGPT 的搜索功能，更新了交互样式，并且在语音对话的过程中，也能用。

Day 9：API 接口更新

对于开发者来说，这是一个海量更新，包括不仅限于：o1 支持了 Function Call， Realtime API 新货调价 & 发布 SDK，新增模型微调，新增 Java 和 Go 的 SDK...

Day 10：电话接入

拨打 +1 800 242 8478，可以和 ChatGPT 聊天了。也可以通过 WhatsAPP 和 ChatGPT 发短信

在下面这篇里，我做了一个非常好玩的 SVG 👇

Day 11：ChatGPT 的新玩法

ChatGPT 桌面版，能读到别的应用信息了，在语音模式下更丝滑。

这是一个冷饭级别的发布（之前就更新了）

Day 12：o3

也就是本篇：一个遥遥领先，但贵但匪夷所思的模型，期待调价。

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签