赛博禅心 2024年12月21日
OpenAI o3 详解:并非 AGI,比 o1 贵 1000倍(另附内测申请)
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI发布了代号为“猎户座”的新模型o3,其在编程和数学难题解答方面表现卓越,但在ARC-AGI测试中,虽然单项任务成本高达3500美元,但成绩与人类仍有差距。o3系列模型有多种算力模式,价格昂贵,即使是低算力版本也比人工成本高。ARC-AGI测试由Keras创始人提出,旨在评估AI的学习能力而非技能数量,o3在该测试中取得较高得分,但仍未达到AGI标准。OpenAI近期还发布了一系列更新,包括o1模型升级、Sora视频编辑工具、以及ChatGPT的多种功能增强等。

🚀 o3模型在编程领域表现出色,在Codeforces上的得分达到2727分,相当于大神榜单的175名,超越了OpenAI首席科学家历史最高分。

🧮 在数学难题解答上,o3模型在Frontier Math数据集上的表现遥遥领先,解决了25.2%的问题,而之前的AI最好成绩仅为2%。该数据集包含未发布的超高难度数学问题。

💰 o3模型价格昂贵,高算力版本单任务成本高达3500美元,是o1-high的2000倍以上。即使是低算力版本也比人工成本高,这表明AI在创新性任务上仍需突破。

🧪 ARC-AGI测试旨在评估AI的学习能力,o3-high在该测试中取得了88%的正确率,但与人类95%的基准成绩仍有差距,表明AI与人类智能之间仍存在根本性差异。

📅 OpenAI在12天内连续发布多项更新,包括o1模型升级、Sora视频编辑工具、ChatGPT的多种功能增强,以及API接口的更新,体现了其在AI领域的持续创新。

原创 金色传说大聪明 2024-12-21 07:58 广东

支付 3500 美金,可解答「9.09 和 9.11 谁更大」

今日发布

o3


o3 - 更强的 o1

按计算量:1000 倍的成本

(o3-high 对比 o1-high)


根据 ARC-AGI 测试标准

单任务成本,大概 3500 美金

问一句「9.09 和 9.11 谁更大」

2万人民币就没了


模型的代号为 α

也可以叫他猎户座

OpenAI「草莓」今秋发布,随后是「猎户座」


模型尚未开放

可在这里申请内测

https://openai.com/index/early-access-for-safety-testing/


之后会有一个缩水版的 o3-mini

预计明年 1 月底开放


接下来

我们先谈成绩

再说问题





很会编程


在编程领域,非常优秀

Codeforces 2727 分




2727 分

相当于 CF 编程大神榜单 175 名



怎么评价呢

OpenAI 现任首席科学家

以前也是玩 Codeforces 的

历史最高得分是 2655







很会数学


在数学难题解答上

也是遥遥领先


Frontier Math

包含一个数据集

里面都是未发布的超高难度数学问题


即便是优秀的专业人员

解答其中的一个问题

也需要数小时到数天


在之前的测试中

AI 的最好成绩是解决了 2% 的问题

而 o3 解决了 25.2% 的问题






再说问题


很贵

非常离谱的贵


o 系列模型

会有多种算力模式

OpenAI 新货详解:o1 正式版 /ChatGPT Pro

比如:low/medium/high



在 ARC-AGI 测试中

对于 o3 - low

单任务成本约 20 美金

是 o1 - low 的 10 倍


对于 o3 - high

单任务成本约 3500 美金

是 o1-high 的 2000 倍



以上数据,来源 ARC

注意:o3-high 价格尚未确定,根据计算量进行成本推算





并非 AGI


上面提到的 ARC

是 OpenAI 的新晋测试伙伴

提供关于 AGI 的测试基准

(马上我会详细讲)


虽然 o3 在这个测试中

取得了不错的成绩

但远达不到 AGI 的标准


ARC 的官方说法是这样

I don't think o3 is AGI yet

我不认为 o3 是 AGI

o3 still fails on some very easy tasks

o3 在很多简单问题上,做得很差。

indicating fundamental differences with human intelligence

这说明他和人类之间还是有根本性差距的


同时,ARC 官方也表示

在第2版榜单里

人类的基准成绩是 95%

而 o3 的成绩会跌到不到 30%


说说 ARC-AGI

这是 Keras 创始人 Chollet,在 2019 年搞出来的一个基准测试,来测测 AI 到底有多会"学习"。最开始发表在论文《On the Measure of Intelligence》。

https://arxiv.org/abs/1911.01547




怎么测的


给被测试的 AI,一些彩色网格的示例对。然后再给一个新的输入,让他预测输出。



每个格子可以是十种颜色之一,网格大小从 1x1 到 30x30 不等。


目前,o1 的正确率在 30% 左右,o3-high 则达到了 88%。


在定向任务的团队中,目前的最好成绩是 the ARChitects,正确率 53.5%。

代码:

https://www.kaggle.com/code/gregkamradt/arc-prize-v8?scriptVersionId=211457842

论文:

https://github.com/da-fr/arc-prize-2024/blob/main/the_architects.pdf




为啥有这个测试


对于 AGI 是啥,有很多种表述,一个主流的说法是"能把大部分有经济价值工作,进行自动化的系统"。


Chollet 觉得,这个定义有点偏离:真正的智能不是你会多少技能,而是你有多会学习。毕竟,现在的大模型,你只要给他足够的数据,他就会有对应的技能,看不出到底有多聪明。 


于是 Chollet 搞出来了这个 ARC-AGI 的基准测试,用来评估那些 “没有出现过的问题”,也是目前唯一一个专门测量 AGI 进展的测试。





o3 的测试

测试在两个数据集上进行:


o3-low 的成绩是 75.7%,而 o3-high(172 倍消耗) 则能达到 87.5%。在公开数据集上的表现更好,分别达到了 82.8% 和 91.5%。而之前最好的大模型成绩,是 30%。



这个事儿也证明了一点,对于创新性任务,只靠碓数据和加大算力(Scaling Laws),是不够的,毕竟给 GPT-4 再多的算力也不行。


顺道说一下,找外包来处理这些题目,人力成本大概是... 5 美金/题(放在国内,相信能卷到 1 块钱一题),而即便是最便宜的 o3-low,也需要 20 美金。


所以,就目前来说:由于人工队工资低,饭碗还能保住。(什么逆天言论)





你比 o3 更聪明


这里有几个 o3 没有解决的难题,可以来试试。相信你比 o3 更聪明


Task ID: c6e1b8da


Task ID: 0d87d2a6


Task ID: b457fec5





一定要注意


即便某个 AI 完美通过 ARC-AGI,并不意味着已经实现 AGI。


另外的:由于 o3 在很多简单问题上,做得很差,这说明他和人类之间还是有根本性差距的,更不能说 o3 探明了 AGI 之路


此外,ARC-AGI-2 的测试标准即将亮相。即便是 o3-high,其得分也只不到 30% ,而聪明的人类则在在 95%,这还是基于无任何训练的前提。


以及,Claude 和 OpenAI 在 ARC-AGI 的测试结果,可以在这里看到:

https://github.com/arcprizeorg/model_baseline/tree/main/results



OpenAI 的12天发布

美国时间 12 月 4 日,山姆奥特曼在推特上表示,要连发 12 天的货。赛博禅心为此做了全程记录,让我们一起来回顾下。






Day 1:o1 / ChatGPT Pro


Plus 用户,每月支付 20 美金:o1 会获得更新,支持图片上传

Pro 用户,每月支付 200 美金:无限使用 o1,并且可用 o1 pro mode






Day 2:强化微调


开发者向:给 o1 用的微调方法






Day 3:Sora


年初展示的 Sora,终于发货了,同时带来的,还有一整套在线编辑工具。

顺道:《中学生能看懂:Sora 原理解读






Day 4:o1 / ChatGPT Pro


ChatGPT 中的画板功能获得更新,可在其中直接运行 Python,类似 Jupyter/Colab






Day 5:在苹果设备中,用 AI


这是个期货,终于上线了:《Apple:属于每个人的 AI,在这里

但国内的苹果设备,不出意外的用不了






Day 6:高级语音模式更新


手机版 ChatGPT 支持和 AI 进行视频通话了,还可以和 AI 共享屏幕。

顺道说下,网页版之后也会更新:《独家信息:ChatGPT 的 2 个待发布功能






Day 7:Projects


ChatGPT 有了“文件夹”,在对话之间,可以共享文件。






Day 8:o1 / ChatGPT Pro


ChatGPT 的搜索功能,更新了交互样式,并且在语音对话的过程中,也能用。






Day 9:API 接口更新


对于开发者来说,这是一个海量更新,包括不仅限于:o1 支持了 Function Call, Realtime API 新货调价 & 发布 SDK,新增模型微调,新增 Java 和 Go 的 SDK...






Day 10:电话接入


拨打 +1 800 242 8478,可以和 ChatGPT 聊天了。也可以通过 WhatsAPP 和 ChatGPT 发短信

在下面这篇里,我做了一个非常好玩的 SVG 👇






Day 11:ChatGPT 的新玩法


ChatGPT 桌面版,能读到别的应用信息了,在语音模式下更丝滑。

这是一个冷饭级别的发布(之前就更新了)






Day 12:o3


也就是本篇:一个遥遥领先,但贵但匪夷所思的模型,期待调价。



跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenAI 猎户座模型 ARC-AGI 人工智能 o3模型
相关文章