原创 金色传说大聪明 2024-12-21 07:58 广东
支付 3500 美金,可解答「9.09 和 9.11 谁更大」
今日发布
o3
o3 - 更强的 o1
按计算量:1000 倍的成本
(o3-high 对比 o1-high)
根据 ARC-AGI 测试标准
单任务成本,大概 3500 美金
问一句「9.09 和 9.11 谁更大」
2万人民币就没了
模型的代号为 α
也可以叫他猎户座
模型尚未开放
可在这里申请内测
https://openai.com/index/early-access-for-safety-testing/
之后会有一个缩水版的 o3-mini
预计明年 1 月底开放
接下来
我们先谈成绩
再说问题
在编程领域,非常优秀
Codeforces 2727 分
2727 分
相当于 CF 编程大神榜单 175 名
怎么评价呢
OpenAI 现任首席科学家
以前也是玩 Codeforces 的
历史最高得分是 2655
在数学难题解答上
也是遥遥领先
Frontier Math
包含一个数据集
里面都是未发布的超高难度数学问题
即便是优秀的专业人员
解答其中的一个问题
也需要数小时到数天
在之前的测试中
AI 的最好成绩是解决了 2% 的问题
而 o3 解决了 25.2% 的问题
很贵
非常离谱的贵
o 系列模型
会有多种算力模式
OpenAI 新货详解:o1 正式版 /ChatGPT Pro
比如:low/medium/high
在 ARC-AGI 测试中
对于 o3 - low
单任务成本约 20 美金
是 o1 - low 的 10 倍
对于 o3 - high
单任务成本约 3500 美金
是 o1-high 的 2000 倍
以上数据,来源 ARC
注意:o3-high 价格尚未确定,根据计算量进行成本推算
上面提到的 ARC
是 OpenAI 的新晋测试伙伴
提供关于 AGI 的测试基准
(马上我会详细讲)
虽然 o3 在这个测试中
取得了不错的成绩
但远达不到 AGI 的标准
ARC 的官方说法是这样
I don't think o3 is AGI yet
我不认为 o3 是 AGI
o3 still fails on some very easy tasks
o3 在很多简单问题上,做得很差。
indicating fundamental differences with human intelligence
这说明他和人类之间还是有根本性差距的
同时,ARC 官方也表示
在第2版榜单里
人类的基准成绩是 95%
而 o3 的成绩会跌到不到 30%
说说 ARC-AGI
这是 Keras 创始人 Chollet,在 2019 年搞出来的一个基准测试,来测测 AI 到底有多会"学习"。最开始发表在论文《On the Measure of Intelligence》。
https://arxiv.org/abs/1911.01547
怎么测的
给被测试的 AI,一些彩色网格的示例对。然后再给一个新的输入,让他预测输出。
每个格子可以是十种颜色之一,网格大小从 1x1 到 30x30 不等。
目前,o1 的正确率在 30% 左右,o3-high 则达到了 88%。
在定向任务的团队中,目前的最好成绩是 the ARChitects,正确率 53.5%。
代码:
https://www.kaggle.com/code/gregkamradt/arc-prize-v8?scriptVersionId=211457842
论文:
https://github.com/da-fr/arc-prize-2024/blob/main/the_architects.pdf
为啥有这个测试
对于 AGI 是啥,有很多种表述,一个主流的说法是"能把大部分有经济价值工作,进行自动化的系统"。
Chollet 觉得,这个定义有点偏离:真正的智能不是你会多少技能,而是你有多会学习。毕竟,现在的大模型,你只要给他足够的数据,他就会有对应的技能,看不出到底有多聪明。
于是 Chollet 搞出来了这个 ARC-AGI 的基准测试,用来评估那些 “没有出现过的问题”,也是目前唯一一个专门测量 AGI 进展的测试。
o3 的测试
测试在两个数据集上进行:
一个是 100 道私密题目
另一个是 400 道公开题目
o3-low 的成绩是 75.7%,而 o3-high(172 倍消耗) 则能达到 87.5%。在公开数据集上的表现更好,分别达到了 82.8% 和 91.5%。而之前最好的大模型成绩,是 30%。
这个事儿也证明了一点,对于创新性任务,只靠碓数据和加大算力(Scaling Laws),是不够的,毕竟给 GPT-4 再多的算力也不行。
顺道说一下,找外包来处理这些题目,人力成本大概是... 5 美金/题(放在国内,相信能卷到 1 块钱一题),而即便是最便宜的 o3-low,也需要 20 美金。
所以,就目前来说:由于人工队工资低,饭碗还能保住。(什么逆天言论)
你比 o3 更聪明
这里有几个 o3 没有解决的难题,可以来试试。相信你比 o3 更聪明
Task ID: c6e1b8da
Task ID: 0d87d2a6
Task ID: b457fec5
一定要注意
即便某个 AI 完美通过 ARC-AGI,并不意味着已经实现 AGI。
另外的:由于 o3 在很多简单问题上,做得很差,这说明他和人类之间还是有根本性差距的,更不能说 o3 探明了 AGI 之路。
此外,ARC-AGI-2 的测试标准即将亮相。即便是 o3-high,其得分也只不到 30% ,而聪明的人类则在在 95%,这还是基于无任何训练的前提。
以及,Claude 和 OpenAI 在 ARC-AGI 的测试结果,可以在这里看到:
https://github.com/arcprizeorg/model_baseline/tree/main/results
OpenAI 的12天发布
美国时间 12 月 4 日,山姆奥特曼在推特上表示,要连发 12 天的货。赛博禅心为此做了全程记录,让我们一起来回顾下。
Day 1:o1 / ChatGPT Pro
Plus 用户,每月支付 20 美金:o1 会获得更新,支持图片上传
Pro 用户,每月支付 200 美金:无限使用 o1,并且可用 o1 pro mode
Day 2:强化微调
开发者向:给 o1 用的微调方法
Day 3:Sora
年初展示的 Sora,终于发货了,同时带来的,还有一整套在线编辑工具。
顺道:《中学生能看懂:Sora 原理解读》
Day 4:o1 / ChatGPT Pro
ChatGPT 中的画板功能获得更新,可在其中直接运行 Python,类似 Jupyter/Colab
Day 5:在苹果设备中,用 AI
这是个期货,终于上线了:《Apple:属于每个人的 AI,在这里》
但国内的苹果设备,不出意外的用不了
Day 6:高级语音模式更新
手机版 ChatGPT 支持和 AI 进行视频通话了,还可以和 AI 共享屏幕。
顺道说下,网页版之后也会更新:《独家信息:ChatGPT 的 2 个待发布功能》
Day 7:Projects
ChatGPT 有了“文件夹”,在对话之间,可以共享文件。
Day 8:o1 / ChatGPT Pro
ChatGPT 的搜索功能,更新了交互样式,并且在语音对话的过程中,也能用。
Day 9:API 接口更新
对于开发者来说,这是一个海量更新,包括不仅限于:o1 支持了 Function Call, Realtime API 新货调价 & 发布 SDK,新增模型微调,新增 Java 和 Go 的 SDK...
Day 10:电话接入
拨打 +1 800 242 8478,可以和 ChatGPT 聊天了。也可以通过 WhatsAPP 和 ChatGPT 发短信
在下面这篇里,我做了一个非常好玩的 SVG 👇
Day 11:ChatGPT 的新玩法
ChatGPT 桌面版,能读到别的应用信息了,在语音模式下更丝滑。
这是一个冷饭级别的发布(之前就更新了)
Day 12:o3
也就是本篇:一个遥遥领先,但贵但匪夷所思的模型,期待调价。