FishAI官方 2024年12月21日
AI 再下一城!OpenAI O3成功通过AGI的测试,超过人类平均的 88%的水平
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI发布的O3模型在多项基准测试中表现卓越,特别是其在推理能力上的大幅提升,预示着AI技术正迈向新的纪元。O3不仅在编程任务中取得了显著进步,还在Epoch AI的数学基准测试中展现了强大的抽象推理能力。更令人瞩目的是,O3在ARC AGI测试中首次超越人类水平,标志着AI在通用智能领域取得了重要突破。这些成就表明,O3已经具备了处理复杂问题和解决新挑战的能力,不再仅仅依赖于死记硬背或模式识别,而是真正开始像人类一样思考和学习。

🚀O3模型在编程任务上表现突出,在Bench Verified测试中准确率高达71.7%,相较于O1有了显著提升,展示了其在实际应用中的强大潜力。

🧠Epoch AI的Frontier Math测试被认为是AI领域最具挑战性的基准之一,O3在该测试中获得了25.2%的得分,展现了其在抽象推理和解决全新问题方面的能力,这远超其他AI模型。

🏆O3在ARC AGI测试中,低算力设置下得分76%,高算力设置下更是高达88%,首次超越了人类水平,表明其已具备了处理需要灵活应变和举一反三能力的任务。

💡O3的成功不仅体现在数据上的突破,更重要的是它标志着AI正朝着真正的通用人工智能迈进,不再局限于特定领域,而是开始涉足那些过去被认为是人类专属的领域。

原创 小可怜Gemini 2024-12-21 11:53 广东

大聪明是智慧、太聪明是恐惧

 


丸辣,人类真的要去澳大利亚了

昨天 OpenAI 又再一次引领产业,发布了 O3!!! 我们离 AI 纪元越来越近了!!

跳过 O2 并非随意之举。OpenAI 称部分原因是 Telefonica 旗下的 O2 品牌,我觉得这是为了暗示一个更大的飞跃。Sam Altman 在发布会上开玩笑说,命名并非他们的强项,但这个选择显然是精心设计的。

Sam: 我不会营销

AI 纪元!

真的是太聪明了,比大聪明多了一点聪明,就是太聪明

顶级程序员

数值表现上太可怕了,你回到家后。

你妈和你说,隔壁家的奥特曼他娃

只花了半年不到的时间,

就提高了 1000 多分的成绩!

全球编程大赛的第 175名

你的内心:

程序员真瑟瑟发抖 ing!

我们注意到 O3 的一大亮点在于它在一系列高难度基准测试上的优异表现,这些测试挑战了以往模型尚未完全掌握的推理能力。OpenAI 强调了 O3 相较于 O1 的提升,使其成为一个能够处理复杂问题、解决能力更强的系统。

O1 与 o3 在编码方面的对比

从上图可以看出,两个模型之间存在显著差异。在编程任务上,O3 在 Bench Verified 测试中取得了 71.7% 的准确率,相较于 O1 有了大幅提升。

开始成为超级数据家,Epoch AI成绩领先其他 AI10 倍,断崖式领先

可能真的不是死记硬背,要知道,在今年11月Epoch AI才发布的数学基准Frontier Math,这项测试被公认为 AI 领域最具挑战性的基准之一,它包含的都是从未发布过的新题目,并且这些题目的难度远超常规数据集。其中许多问题达到了数学研究级别,往往需要专业数学家耗费数小时甚至数天才能解答一道题。目前,AI 系统在该测试上的得分普遍低于 2%,足见其难度之高,

O3 在 EpochAI Frontier Math 上的表现

EpochAI Frontier Math 之所以重要,是因为它促使模型不再局限于死记硬背或对已有模式的优化,而是测试它们举一反三、抽象推理以及解决全新问题的能力,而这些正是推动 AI 推理能力发展的关键。O3 在该测试中取得了 25.2% 的得分,

和人类一样聪明,ARG AGI 测试大幅提升!!!

O3 最引人注目的成就之一,是在 ARC AGI 基准测试中的优异表现,该测试被广泛视为评估 AI 通用智能的‘试金石’。

ARC(抽象与推理语料库)由 François Chollet 于 2019 年开发,专注于评估 AI 从极少量的示例中学习并归纳新技能的能力。与那些通常测试预训练知识或模式识别能力的传统基准不同,ARC 的任务设计旨在挑战模型即时推断规则和进行转换的能力——这些任务对于碳基生命而言可以凭借直觉轻松解决,但对于 AI 来说却一直是一大难题。

ARC AGI 的独特之处在于其每个任务都要求模型具备不同的推理能力。模型无法依赖记忆中的解决方案或模板,而是必须针对每次测试中的全新挑战进行灵活调整。例如,一项任务可能是识别几何图形变换的规律,而另一项任务则可能是推导数列的规律。这种多样性使得 ARC AGI 成为衡量 AI 是否能真正像人类一样思考和学习的有效标准。

ARC AGI 测试中的任务示例

您能猜到输入转换为输出的逻辑吗?

O3 在 ARC AGI 测试中的出色表现标志着一个重要的里程碑。在低算力设置下,O3 在半私有保留集上取得了 76% 的得分,远超此前的任何模型。

而在高算力设置下,O3 的得分更是高达 88%,超过了通常被认为是达到人类水平的 85%这一阈值。这是 AI 首次在该基准测试中超越人类,为推理类任务树立了新的标杆。

O 系列在 ARC AGI 上的表现

我们认为这些结果意义非凡,因为它们证明了 O3 具备处理那些需要灵活应变和举一反三能力的任务,而非仅仅依靠死记硬背或暴力计算。这清晰地表明,O3 正朝着真正的通用人工智能迈进,它不再局限于特定领域的能力,而是开始涉足那些过去被认为是人类专属的领域。

当然好消息是 ARC-AGI-2 基准测试仍然对 o3 构成重大挑战,其得分可能降至 30%以下(而一个聪明的人类即使没有训练也能得分超过 95%)

人类只要等着被淘汰,但是 AI 要想的事情就太多啦

后世人应该会评价这是一段历史垃圾时间吧,人类天天要想的事情是,什么时候会被淘汰。

做机器人,一个扫地机器人等于 2 个保洁阿姨。

做自动驾驶,不用司机师傅。

写代码不用程序员

出发吧,提前去澳大利亚,勇敢者先享受了

But 现在 优势在我

回答一个问题只要 14000元就可以了,相当于3 台mac4 min

文章参考翻译 https://www.datacamp.com/blog/o3-openai




欢迎一键三连,添加公众号为星标~第一时间获取新鲜推文

关注FishAI公众号,欢迎扫码交流群


THE END











跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenAI O3模型 人工智能 ARC AGI 通用智能
相关文章