实测完R1/o3/Claude复刻顶会论文，OpenAI发现: 人类博士还是No.1，还顺带开源了～

2025-04-03 21:02 湖北

冲！OpenAI开源用于AI Agents评测的PaperBench

OpenAI推出并开源了PaperBench，用于评估AI Agents复制最新 AI 研究成果能力的基准测试。评估了GPT-4o、o1、o3-mini、DeepSeek-R1、Claude 3.5 Sonnet和Gemini 2.0 Flash

Claude 3.5 Sonnet（New）表现最佳，平均复制得分为21.0%。其他模型的表现较差，得分均低于10%。

还招募了8名ML博士生作为人类基线，在4篇论文的子集上进行了尝试。人类基线在48小时后达到了41.4%的最佳得分，而Claude 3.5 Sonnet在相同子集上得分为26.6%。

AI Agents需要从零开始复制20篇ICML 2024（AI顶会）会议上的Spotlight和Oral论文，这包括理解论文的贡献、开发代码库以及成功执行实验。

为了实现客观评估，开发了评分标准（rubrics），这些评分标准将每个复制任务逐层分解为更小的子任务，并提供了明确的评分标准。

PaperBench总共包含8,316个可单独评分的任务。这些评分标准与每篇ICML论文的作者共同开发，以确保其准确性和现实性。

PaperBench概览：每个样本包括一篇研究论文和一个评分标准，该标准详细说明了完整复现所需的评估标准。Agent需要从头开始创建一个代码库作为提交内容（1），然后执行该代码库以验证结果是否能够复现（2），并由基于 LLM 的评分员根据评分标准进行评分（3）。

PaperBench的评估详细流程包括以下几个关键步骤：

任务设定：AI代理需要根据提供的论文内容和澄清说明，从头开始开发一个代码库，以重现论文的实验结果。

代码开发：代理需要编写代码并将其组织成一个代码库，代码库中必须包含一个reproduce.sh脚本，作为执行所有必要代码以重现论文结果的入口点。

结果复现：代理的代码库将在一个干净的虚拟机环境中执行，以验证结果是否能够被成功复现。

评分标准：每篇论文都配备了一个详细的评分标准，这些标准被设计成树状结构，将主要结果分解为越来越细粒度的要求。评分标准的每个叶子节点都有一个明确的通过/失败标准，并且每个节点都被手动分配了权重，以反映其相对于其他节点的重要性。

自动评分：为了简化评分过程，开发了一个基于LLM的评分系统，该系统可以自动根据评分标准对复制尝试进行评分。此外，他们还创建了一个辅助评估（JudgeEval），用于比较自动评分系统与人类专家评分的结果，以评估自动评分系统的性能。

Claude 3.5 Sonnet（New）表现最佳，平均复制得分为21.0%。其他模型的表现较差，得分均低于10%。

获取更多信息：《动手设计AI Agents：CrewAI版》、《高级RAG之36技》、新技术实战：中文Lazy-GraphRAG/Manus+MCP/GRPO+Agent、大模型日报/月报、最新技术热点追踪解读（GPT4-o/数字人/MCP/Gemini 2.5 Pro）

https://arxiv.org/pdf/2504.01848PaperBench: Evaluating AI’s Ability to Replicate AI Researchhttps://github.com/openai/preparedness

Fish AI Reader