OpenAI 的 PaperBench：AI 研究复现基准测试工具

掘金人工智能 04月03日 11:42

OpenAI 的 PaperBench：AI 研究复现基准测试工具

OpenAI 发布 PaperBench，这是一个用于评估 AI 模型复现前沿 AI 研究能力的基准测试工具。该工具要求 AI 从零开始复现 2024 年 ICML 上的重要论文，涵盖理解论文贡献、开发代码库以及成功执行实验等环节。PaperBench 将复现过程分解为 8316 个具体任务，并引入基于大型语言模型的自动评分系统，以提高评分效率。该工具还提供了轻量级评估变体 PaperBench Code-Dev，降低了评估门槛。测试结果显示，即使是表现最好的 AI 模型也未能超越人类基线。OpenAI 已开源 PaperBench 的代码，鼓励社区参与。

💡 PaperBench 将每篇论文的复现过程细化为 8316 个具体任务，以确保评估的准确性和细致性，每个任务都有详细的评分标准。

🤖 PaperBench 引入了基于大型语言模型的自动评分系统，以提高评分效率和可扩展性，并通过与人类专家的评分结果进行比较来验证自动评分系统的准确性。

⚖️ 为了确保评估过程的公平性，PaperBench 规定了智能体在执行任务时可以使用的资源，并限制使用论文作者的原始代码库或其他在线复制资源。

🚀 PaperBench Code-Dev 是一种降低评估门槛的变体，通过跳过代码执行步骤，仅评估代码开发能力，更适合广泛的社区使用。

🥇 在测试中，表现最好的模型是 Claude 3.5 Sonnet，平均复现分数达到 21.0%，但即使是最好的 AI 模型也未能超越人类基线。

OpenAI 的 PaperBench：AI 研究复现基准测试工具

简介

OpenAI 的 PaperBench 是一个用于评估 AI 模型复现前沿 AI 研究能力的工具。它要求 AI 从零开始复现 2024 年国际机器学习大会（ICML）上的重要论文，涵盖理解论文贡献、开发代码库以及成功执行实验等环节。

主要特点

任务模块

任务分解

评分标准

评分系统

自动评分

人机对比

规则模块

公平性

限制

轻量级评估变体

PaperBench Code-Dev

测试结果

表现最好的模型

与人类基线比较

开源与社区参与

开源代码

社区参与

示例代码

虽然 PaperBench 本身的代码是开源的，但我们可以通过一个简单的 Python 例子来理解如何评估 AI 模型的代码开发能力。以下是一个基本的代码评估框架示例：

import osdef evaluate_code_development(task_id, code_path):        task_description = read_task_description(task_id)            score = assess_code_against_task(task_description, code_path)        return scoredef read_task_description(task_id):            return "实现一个简单的线性回归模型"def assess_code_against_task(task_description, code_path):            return 0.8task_id = "example_task"code_path = "path/to/example_code.py"score = evaluate_code_development(task_id, code_path)print(f"任务 {task_id} 的评分：{score}")

这个示例展示了如何定义一个基本的代码评估框架，包括读取任务描述和评估代码是否满足任务要求。实际的 PaperBench 会涉及更复杂的评分系统和任务管理逻辑。

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenAI PaperBench AI 模型复现

相关文章

【iThome 2024 CIO大調查系列 1｜CIO年度目標】CIO更重視開創型IT戰略，AI創新優先度今年驟增

OpenAI加入C2PA指導委員會，測試Deepfake圖像偵測工具

How popular is ChatGPT? Part 1: more popular than Taylor Swift

OpenAI set to unveil AI-driven challenger to Google Search

OpenAI faces complaint over fictional outputs

Weka Makes Life Simpler for Developers, Engineers, and Architects

✨ 人人都能用好AI，这款GPTs 助你定制高效工作流：Prompt for me 作为一个AI布道者，Hans 在即刻写下数百篇新产品介绍、模型研究和心得，却仍感受到不同领域和...

Redundancy in AI: A Hybrid Convolutional Neural Networks CNN Approach to Minimize Computational Overhead in Reliable Execution

OpenAI计划下周宣布ChatGPT和GPT-4更新，但不会推出GPT-5和搜索引擎

苹果据悉接近与OpenAI达成协议，将ChatGPT应用于iPhone