OpenAI发布MLE-Bench：是AGI奇点的先兆还是炒作？

机器之心 2024年10月20日

OpenAI发布MLE-Bench：是AGI奇点的先兆还是炒作？

本期通讯探讨了OpenAI发布的MLE-Bench及相关问题，还涉及Ilya Sutskever对ChatGPT及AI未来的思考，包括AGI奇点、模型能力、AI发展关键等内容

💻OpenAI发布MLE-bench，这是用于评估AI智能体在机器学习工程中表现的基准测试，由75个机器学习工程任务组成，涉及多种核心日常技能，其设计考虑了挑战性和与人类水平表现的比较

🎖️MLE-bench实验中，基于AIDE开源框架的o1-preview在部分竞赛中获奖，且当智能体有更多尝试次数和时间时，获奖百分比提高，但智能体性能未随GPU资源变化而显著变化

🌌OpenAI认为能解决MLE-bench的模型可能带来积极影响，如加速多领域科学进步等，同时引发了关于AGI奇点及AGI、ASI概念混淆的探讨

原创 Pro会员通讯 2024-10-20 12:36 北京

本期通讯 26516 字，可免费试读至 8%。

机器之心PRO · 会员通讯 Week 42

---- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 ----

1. OpenAI发布MLE-Bench：是AGI奇点的先兆还是炒作？

OpenAI 提出的 MLE-bench 是什么？MLE-bench 暗示了什么？为什么 OpenAI 认为能够解决 MLE-bench 的模型可能会导致奇点？AGI 和 ASI 的定义又变了？用 AI 改进 AI 真的已经实现了吗？从 AGI 到 ASI 转变的关键是什么？...

2. Ilya Sutskever：对 ChatGPT 的深层理解与对 AI 未来的思考

为何 Ilya Sutskever 的访谈再度引起关注？Ilya 在访谈中讲了哪些核心观点？为什么说 ChatGPT 不仅仅是一个 LLM？为什么 Ilya 认为确保输出内容的可靠性才是 AI 未来发展的关键？...

...本期完整版通讯含 2 项专题解读 + 27 项本周 AI & Robotics 赛道要事速递，其中技术方面 10 项，国内方面 9 项，国外方面 8 项。

本期通讯总计 26516 字，可免费试读至 8%

消耗 99 微信豆即可兑换完整本期解读（约合人民币 9.9 元）

要事解读① OpenAI发布MLE-Bench：是AGI奇点的先兆还是炒作？

日期：10 月 11 日

事件：近日，在社交媒体平台 Reddit 的「Singularity（奇点）」板块，一个名为「OpenAI 最新研究论文中关于 AGI 的摘录」的帖子引发大量关注。「Singularity」板块聚集了诸多对 AI 技术奇点等话题关心的网友，在该帖子下，网友们对于「AI 智能体能够解决 MLE-bench 所有问题就可能会带来奇点」的说法展开了探讨。

OpenAI 提出这个的 MLE-bench 基准测试是什么？[1]

近日，OpenAI 发表论文《MLE-Bench: Evaluating Machine Learning Agents on Machine Learning Engineering》，提出了一个用于评估 AI 智能体在机器学习工程中表现的基准测试「MLE-bench」。在论文的「Impact on AGI Preparedness」部分，OpenAI 提到，「能够解决 MLE-bench 中大部分任务的模型很可能具备执行许多开放式机器学习任务的能力」。

1、MLE-bench 由从 Kaggle 手动筛选了不同领域的 75 个机器学习工程任务组成，包括训练模型、准备数据集和运行实验等，涉及了机器学习领域工程师在前沿实验室中使用的核心日常技能。

2、在设计上，MLE-bench 考虑了两个要素：一是选择具有挑战性且代表现代 MLE 工程工作的任务；二是能够将评估结果与人类水平的表现进行比较。

3、MLE-bench 参考「Kaggle 根据参赛者相对于排行榜的表现向优胜的参赛者颁发铜牌、银牌和金牌」的方式，将实验中 AI 智能体提交的结果与私有排行榜进行比较，为 AI 智能体颁奖。实验结果显示，

① 基于专为 Kaggle 竞赛构建的 AIDE 开源框架，o1-preview 在 16.9%的竞赛中至少获得了 Kaggle 铜牌奖牌；

② 同时，研究发现当智能体被允许有更多的尝试次数时，获得奖牌的百分比显著增加。例如，o1-preview 当从 1 次尝试增加到 8 次尝试时，得分从 16.9%翻倍到 34.1%；

② 每项竞赛的时间上限为 24 小时，时间限制增加后，当智能体有更多的时间迭代解决方案，获得奖牌的百分比有所提高；

③ 研究者比较了 GPT-4o（AIDE）在三种不同硬件设置下的性能，结果显示，GPT-4o（AIDE）在所有实验中表现相似。这表示智能体的性能并没有随 GPU 资源的变化而显著变化，没有有效地利用额外的计算资源。

OpenAI 认为能够解决 MLE-bench 的模型可能会导致奇点？

1、OpenAI 在 MLE-bench 论文的「Impact on AGI Preparedness」章节提到，「如果我们的 AI 智能体能够自主执行机器学习研究，它们可能会带来许多积极的影响，比如加速医疗保健、气候科学等领域的科学进步，加速模型的安全和对齐研究，并通过开发新产品促进经济增长。智能体执行高质量研究的能力可能标志着经济的一个转型步骤。」这部分内容，引发了 Reddit 网友的热议。[1]

2、AI 智能体能够解决 MLE-bench 所有问题，就可能会带来奇点吗？雷·库兹韦尔定义「奇点」为加速回报定律达到了极限，技术进步以近乎无限的速度发展，而奇点之后我们将在一个完全不同的世界生活。

3、在「OpenAI 最新研究论文中关于 AGI 的摘录」的帖子下，一类探讨是针对于 AGI、ASI 两者概念的混淆。[2]

跳转微信打开

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenAI MLE-bench AGI奇点 AI未来

相关文章

OpenAI加入C2PA指導委員會，測試Deepfake圖像偵測工具

How popular is ChatGPT? Part 1: more popular than Taylor Swift

OpenAI set to unveil AI-driven challenger to Google Search

OpenAI faces complaint over fictional outputs

OpenAI计划下周宣布ChatGPT和GPT-4更新，但不会推出GPT-5和搜索引擎

苹果据悉接近与OpenAI达成协议，将ChatGPT应用于iPhone

OpenAI据悉正开发AI语音助手

Comment on What should the UK’s £100 million Foundation Model Taskforce do? by Government-issued digital money gets closer - The World News Papers

Comment on What should the UK’s £100 million Foundation Model Taskforce do? by Il denaro digitale emesso dal governo si sta avvicinando - Darios Cafe Blogs

Codex, OpenAI’s Automated Code Generation API with Greg Brockman - #509