特工宇宙 04月09日 18:48
OpenAI 刚刚开源了 PaperBench,用于评估 Agent 复现顶尖论文能力!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI 发布了 PaperBench 基准测试,旨在评估 AI Agent 复现尖端 AI 研究的能力。该基准测试要求 AI Agent 从头开始复制 20 篇 ICML 2024 Spotlight 和 Oral 论文,涉及理解论文、开发代码和执行实验。PaperBench 包含 8,316 个可单独评分的任务,并与论文作者共同开发了客观评分标准。测试结果显示,Claude 3.5 Sonnet 表现最佳,但尚未超越人类基线。

💡PaperBench 的核心目标是评估 AI Agent 复现尖端 AI 研究的能力。它关注 Agent 是否能够理解研究论文、独立开发代码并执行实验以复现研究结果。

📝PaperBench 包含 20 篇 ICML 2024 Spotlight 和 Oral 论文,Agent 必须从头开始复制这些论文。复制过程包括理解论文贡献、开发代码库以及成功执行实验。

📊为了进行客观评估,OpenAI 开发了评分标准,将每个复制任务分层分解为 8,316 个可单独评分的任务。评分标准是与每篇 ICML 论文的作者共同开发的,以确保准确性和真实性。

🤖在 PaperBench 上测试了几个前沿模型,Claude 3.5 Sonnet 表现最佳,平均复现得分为 21.0%。

👨‍🔬OpenAI 招募了顶尖的 ML 博士来尝试 PaperBench,结果显示模型的表现尚未超越人类基线。

原创 宇宙编辑部 2025-04-03 08:03 浙江

论文地址:https://cdn.openai.com/papers/22265bac-3191-44e5-b057-7aaacd8e90cd/paperbench.pdf
开源地址:https://github.com/openai/preparedness

PaperBench 是一个由 OpenAI 开发的基准测试,旨在评估 AI Agent 复现尖端 AI 研究的能 力。它专注于测试 AI 是否能理解研究论文、独立开发代码并执行实验以复现研究结果。

Agent 必须从头开始复制 20 篇 ICML 2024 Spotlight 和 Oral 论文,包括了解论文贡献、开发代码库以及成功执行实验。为了进行客观评估,OpenAI 开发了评分标准,将每个复制任务分层分解为具有明确评分标准的较小子任务。PaperBench 总共包含 8,316 个可单独评分的任务。评分标准是与每篇 ICML 论文的作者共同开发的,以确保准确性和真实性。

为了实现可扩展的评估,OpenAI 还开发了一个基于评分标准的评判者,可以自动根据评分标准对复制尝试进行评分,并通过为评判者创建单独的基准来评估评判者的表现。

在 PaperBench 上评估了几个前沿模型,发现性能最佳的测试 Agent 是 Claude 3.5 Sonnet(新)并采用开源脚手架,平均复现得分为 21.0%。

最后,OpenAI 招募了顶尖的 ML 博士也来尝试 PaperBench,发现模型的表现尚未超越人类基线。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

PaperBench AI Agent ICML 2024 OpenAI 机器学习
相关文章