原创 小可怜Gemini 2024-12-21 11:53 广东
大聪明是智慧、太聪明是恐惧
丸辣,人类真的要去澳大利亚了
昨天 OpenAI 又再一次引领产业,发布了 O3!!! 我们离 AI 纪元越来越近了!!
跳过 O2 并非随意之举。OpenAI 称部分原因是 Telefonica 旗下的 O2 品牌,我觉得这是为了暗示一个更大的飞跃。Sam Altman 在发布会上开玩笑说,命名并非他们的强项,但这个选择显然是精心设计的。
Sam: 我不会营销
AI 纪元!
真的是太聪明了,比大聪明多了一点聪明,就是太聪明
顶级程序员
数值表现上太可怕了,你回到家后。
你妈和你说,隔壁家的奥特曼他娃
只花了半年不到的时间,
就提高了 1000 多分的成绩!
全球编程大赛的第 175名
你的内心:
程序员真瑟瑟发抖 ing!
我们注意到 O3 的一大亮点在于它在一系列高难度基准测试上的优异表现,这些测试挑战了以往模型尚未完全掌握的推理能力。OpenAI 强调了 O3 相较于 O1 的提升,使其成为一个能够处理复杂问题、解决能力更强的系统。
从上图可以看出,两个模型之间存在显著差异。在编程任务上,O3 在 Bench Verified 测试中取得了 71.7% 的准确率,相较于 O1 有了大幅提升。
开始成为超级数据家,Epoch AI成绩领先其他 AI10 倍,断崖式领先
可能真的不是死记硬背,要知道,在今年11月Epoch AI才发布的数学基准Frontier Math,这项测试被公认为 AI 领域最具挑战性的基准之一,它包含的都是从未发布过的新题目,并且这些题目的难度远超常规数据集。其中许多问题达到了数学研究级别,往往需要专业数学家耗费数小时甚至数天才能解答一道题。目前,AI 系统在该测试上的得分普遍低于 2%,足见其难度之高,
EpochAI Frontier Math 之所以重要,是因为它促使模型不再局限于死记硬背或对已有模式的优化,而是测试它们举一反三、抽象推理以及解决全新问题的能力,而这些正是推动 AI 推理能力发展的关键。O3 在该测试中取得了 25.2% 的得分,
和人类一样聪明,ARG AGI 测试大幅提升!!!
O3 最引人注目的成就之一,是在 ARC AGI 基准测试中的优异表现,该测试被广泛视为评估 AI 通用智能的‘试金石’。
ARC(抽象与推理语料库)由 François Chollet 于 2019 年开发,专注于评估 AI 从极少量的示例中学习并归纳新技能的能力。与那些通常测试预训练知识或模式识别能力的传统基准不同,ARC 的任务设计旨在挑战模型即时推断规则和进行转换的能力——这些任务对于碳基生命而言可以凭借直觉轻松解决,但对于 AI 来说却一直是一大难题。
ARC AGI 的独特之处在于其每个任务都要求模型具备不同的推理能力。模型无法依赖记忆中的解决方案或模板,而是必须针对每次测试中的全新挑战进行灵活调整。例如,一项任务可能是识别几何图形变换的规律,而另一项任务则可能是推导数列的规律。这种多样性使得 ARC AGI 成为衡量 AI 是否能真正像人类一样思考和学习的有效标准。
您能猜到输入转换为输出的逻辑吗?
O3 在 ARC AGI 测试中的出色表现标志着一个重要的里程碑。在低算力设置下,O3 在半私有保留集上取得了 76% 的得分,远超此前的任何模型。
而在高算力设置下,O3 的得分更是高达 88%,超过了通常被认为是达到人类水平的 85%这一阈值。这是 AI 首次在该基准测试中超越人类,为推理类任务树立了新的标杆。
我们认为这些结果意义非凡,因为它们证明了 O3 具备处理那些需要灵活应变和举一反三能力的任务,而非仅仅依靠死记硬背或暴力计算。这清晰地表明,O3 正朝着真正的通用人工智能迈进,它不再局限于特定领域的能力,而是开始涉足那些过去被认为是人类专属的领域。
当然好消息是 ARC-AGI-2 基准测试仍然对 o3 构成重大挑战,其得分可能降至 30%以下(而一个聪明的人类即使没有训练也能得分超过 95%)
人类只要等着被淘汰,但是 AI 要想的事情就太多啦
后世人应该会评价这是一段历史垃圾时间吧,人类天天要想的事情是,什么时候会被淘汰。
做机器人,一个扫地机器人等于 2 个保洁阿姨。
做自动驾驶,不用司机师傅。
写代码不用程序员
出发吧,提前去澳大利亚,勇敢者先享受了
But 现在 优势在我
回答一个问题只要 14000元就可以了,相当于3 台mac4 min
文章参考翻译 https://www.datacamp.com/blog/o3-openai
欢迎一键三连,添加公众号为星标~第一时间获取新鲜推文
关注FishAI公众号,欢迎扫码交流群
THE END