OpenAI推出PaperBench,这是一个用于评估AI Agents复制最新AI研究成果能力的基准测试。该基准测试开源,旨在衡量AI Agents在理解论文贡献、开发代码库以及成功执行实验方面的能力。测试涉及从零开始复制ICML 2024会议上的Spotlight和Oral论文,并提供详细的评分标准,确保客观评估。Claude 3.5 Sonnet表现最佳,人类基线测试结果也作为参考。PaperBench包含8,316个可单独评分的任务,为AI Agents的评估提供了新的视角。
💡PaperBench 旨在评估AI Agents复制AI研究成果的能力,特别是针对ICML 2024会议的论文。
🔑评估流程包括三个关键步骤:AI代理从头开始开发代码库,执行代码库以验证结果,以及基于LLM的评分员根据评分标准进行评分。
✅PaperBench 包含8,316个可单独评分的任务,每个任务由一篇研究论文和一个详细的评分标准组成,评分标准被设计成树状结构,逐层分解为更小的子任务。
🥇Claude 3.5 Sonnet 在测试中表现最佳,人类基线也参与了评估,为AI Agents的表现提供了参考。
💻为了简化评分过程,开发了一个基于LLM的评分系统,并使用辅助评估(JudgeEval)来比较自动评分系统与人类专家评分的结果,以评估自动评分系统的性能。
2025-04-03 21:02 湖北
冲!OpenAI开源用于AI Agents评测的PaperBench

OpenAI推出并开源了PaperBench,用于评估AI Agents复制最新 AI 研究成果能力的基准测试。评估了GPT-4o、o1、o3-mini、DeepSeek-R1、Claude 3.5 Sonnet和Gemini 2.0 FlashClaude 3.5 Sonnet(New)表现最佳,平均复制得分为21.0%。其他模型的表现较差,得分均低于10%。还招募了8名ML博士生作为人类基线,在4篇论文的子集上进行了尝试。人类基线在48小时后达到了41.4%的最佳得分,而Claude 3.5 Sonnet在相同子集上得分为26.6%。
AI Agents需要从零开始复制20篇ICML 2024(AI顶会)会议上的Spotlight和Oral论文,这包括理解论文的贡献、开发代码库以及成功执行实验。为了实现客观评估,开发了评分标准(rubrics),这些评分标准将每个复制任务逐层分解为更小的子任务,并提供了明确的评分标准。PaperBench总共包含8,316个可单独评分的任务。这些评分标准与每篇ICML论文的作者共同开发,以确保其准确性和现实性。PaperBench概览:每个样本包括一篇研究论文和一个评分标准,该标准详细说明了完整复现所需的评估标准。Agent需要从头开始创建一个代码库作为提交内容(1),然后执行该代码库以验证结果是否能够复现(2),并由基于 LLM 的评分员根据评分标准进行评分(3)。PaperBench的评估详细流程包括以下几个关键步骤:
任务设定:AI代理需要根据提供的论文内容和澄清说明,从头开始开发一个代码库,以重现论文的实验结果。
代码开发:代理需要编写代码并将其组织成一个代码库,代码库中必须包含一个reproduce.sh
脚本,作为执行所有必要代码以重现论文结果的入口点。
结果复现:代理的代码库将在一个干净的虚拟机环境中执行,以验证结果是否能够被成功复现。
评分标准:每篇论文都配备了一个详细的评分标准,这些标准被设计成树状结构,将主要结果分解为越来越细粒度的要求。评分标准的每个叶子节点都有一个明确的通过/失败标准,并且每个节点都被手动分配了权重,以反映其相对于其他节点的重要性。
自动评分:为了简化评分过程,开发了一个基于LLM的评分系统,该系统可以自动根据评分标准对复制尝试进行评分。此外,他们还创建了一个辅助评估(JudgeEval),用于比较自动评分系统与人类专家评分的结果,以评估自动评分系统的性能。
Claude 3.5 Sonnet(New)表现最佳,平均复制得分为21.0%。其他模型的表现较差,得分均低于10%。
还招募了8名ML博士生作为人类基线,在4篇论文的子集上进行了尝试。人类基线在48小时后达到了41.4%的最佳得分,而Claude 3.5 Sonnet在相同子集上得分为26.6%。
获取更多信息:《动手设计AI Agents:CrewAI版》、《高级RAG之36技》、新技术实战:中文Lazy-GraphRAG/Manus+MCP/GRPO+Agent、大模型日报/月报、最新技术热点追踪解读(GPT4-o/数字人/MCP/Gemini 2.5 Pro)
欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。
阅读原文
跳转微信打开