PaperAgent 04月09日 18:32
实测完R1/o3/Claude复刻顶会论文,OpenAI发现: 人类博士还是No.1,还顺带开源了~
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI推出PaperBench,这是一个用于评估AI Agents复制最新AI研究成果能力的基准测试。该基准测试开源,旨在衡量AI Agents在理解论文贡献、开发代码库以及成功执行实验方面的能力。测试涉及从零开始复制ICML 2024会议上的Spotlight和Oral论文,并提供详细的评分标准,确保客观评估。Claude 3.5 Sonnet表现最佳,人类基线测试结果也作为参考。PaperBench包含8,316个可单独评分的任务,为AI Agents的评估提供了新的视角。

💡PaperBench 旨在评估AI Agents复制AI研究成果的能力,特别是针对ICML 2024会议的论文。

🔑评估流程包括三个关键步骤:AI代理从头开始开发代码库,执行代码库以验证结果,以及基于LLM的评分员根据评分标准进行评分。

✅PaperBench 包含8,316个可单独评分的任务,每个任务由一篇研究论文和一个详细的评分标准组成,评分标准被设计成树状结构,逐层分解为更小的子任务。

🥇Claude 3.5 Sonnet 在测试中表现最佳,人类基线也参与了评估,为AI Agents的表现提供了参考。

💻为了简化评分过程,开发了一个基于LLM的评分系统,并使用辅助评估(JudgeEval)来比较自动评分系统与人类专家评分的结果,以评估自动评分系统的性能。

2025-04-03 21:02 湖北

冲!OpenAI开源用于AI Agents评测的PaperBench

OpenAI推出并开源了PaperBench,用于评估AI Agents复制最新 AI 研究成果能力的基准测试。评估了GPT-4o、o1、o3-mini、DeepSeek-R1、Claude 3.5 Sonnet和Gemini 2.0 Flash
AI Agents需要从零开始复制20篇ICML 2024(AI顶会)会议上的Spotlight和Oral论文,这包括理解论文的贡献、开发代码库以及成功执行实验。
为了实现客观评估,开发了评分标准(rubrics),这些评分标准将每个复制任务逐层分解为更小的子任务,并提供了明确的评分标准。
PaperBench总共包含8,316个可单独评分的任务。这些评分标准与每篇ICML论文的作者共同开发,以确保其准确性和现实性。
PaperBench概览:每个样本包括一篇研究论文和一个评分标准,该标准详细说明了完整复现所需的评估标准。Agent需要从头开始创建一个代码库作为提交内容(1),然后执行该代码库以验证结果是否能够复现(2),并由基于 LLM 的评分员根据评分标准进行评分(3)。

PaperBench的评估详细流程包括以下几个关键步骤:

    任务设定:AI代理需要根据提供的论文内容和澄清说明,从头开始开发一个代码库,以重现论文的实验结果。

    代码开发:代理需要编写代码并将其组织成一个代码库,代码库中必须包含一个reproduce.sh脚本,作为执行所有必要代码以重现论文结果的入口点。

    结果复现:代理的代码库将在一个干净的虚拟机环境中执行,以验证结果是否能够被成功复现。

    评分标准:每篇论文都配备了一个详细的评分标准,这些标准被设计成树状结构,将主要结果分解为越来越细粒度的要求。评分标准的每个叶子节点都有一个明确的通过/失败标准,并且每个节点都被手动分配了权重,以反映其相对于其他节点的重要性。

    自动评分:为了简化评分过程,开发了一个基于LLM的评分系统,该系统可以自动根据评分标准对复制尝试进行评分。此外,他们还创建了一个辅助评估(JudgeEval),用于比较自动评分系统与人类专家评分的结果,以评估自动评分系统的性能。


获取更多信息:《动手设计AI Agents:CrewAI版》、《高级RAG之36技》、新技术实战:中文Lazy-GraphRAG/Manus+MCP/GRPO+Agent、大模型日报/月报、最新技术热点追踪解读(GPT4-o/数字人/MCP/Gemini 2.5 Pro)
    https://arxiv.org/pdf/2504.01848PaperBench: Evaluating AI’s Ability to Replicate AI Researchhttps://github.com/openai/preparedness

    推荐阅读


      欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

      阅读原文

      跳转微信打开

      Fish AI Reader

      Fish AI Reader

      AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

      FishAI

      FishAI

      鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

      联系邮箱 441953276@qq.com

      相关标签

      OpenAI PaperBench AI Agents 评估 ICML 2024
      相关文章