智源社区 04月04日 12:32
OpenAI官方基准测试:承认Claude遥遥领先(狗头)
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI发布PaperBench基准测试,旨在评估大模型复现AI顶会论文的能力。新版Claude-3.5-Sonnet表现出色,显著超越其他模型,展现了其在理解论文、编写代码和执行实验方面的强大实力。尽管AI在复现顶会论文上仍不及人类,但在工作效率上已展现出优势。PaperBench选取ICML 2024的20篇论文,通过详细的评分标准和自动化的评估流程,为AI模型的综合能力提供了新的衡量标准,并开源了相关代码和数据。

🥇PaperBench是一项新的基准测试,用于评估大模型复现AI顶会论文的能力。该测试侧重于综合能力,要求智能体理解论文、编写代码并执行实验。

🚀Claude-3.5-Sonnet在此次测试中表现突出,大幅领先于其他模型,包括GPT-4o和DeepSeek-R1。这表明Claude-3.5-Sonnet在处理复杂任务和推理方面具有显著优势。

⏱️虽然AI在复现顶会论文的最终结果上仍不及人类,但在工作时间的前6小时内,AI的进度甚至快于人类专家。在12-24小时阶段,AI与人类的进度相当,人类需要更长时间才能超越AI。

🛠️PaperBench的评估流程包括创建代码库、执行实验和自动评分。OpenAI与论文原作者共同制定了详细的评分标准,并使用大模型作为裁判进行评估,降低了成本并提高了效率。

💡OpenAI开源了PaperBench所需的代码和数据,并提供了用于指导AI复现论文的Prompt示例,这有助于推动AI领域的进一步发展和研究。

OpenAI承认Claude是最好的了(狗头)。

刚刚开源的新基准测试PaperBench,6款前沿大模型驱动智能体PK复现AI顶会论文,新版Claude-3.5-Sonnet显著超越o1/r1排名第一。

与去年10月OpenAI考验Agent机器学习代码工程能力MLE-Bnch相比,PaperBench更考验综合能力,不再是只执行单一任务

具体来说,智能体在评估中需要复刻来自ICML 2024的论文,任务包括理解论文、编写代码和执行实验。

最终成绩如下:

Claude-3.5-Sonnet断崖式领先,第二名o1-high分数只有第一的60%,第三名DeepSeek-R1又只有第二名的一半。

此外GPT-4o超过了推理模型o3-mini-high也算一个亮点。

除了AI之间的PK, OpenAI这次还招募顶尖的机器学习博士对比o1

虽然最终结论是AI在复现顶会论文上还无法超越人类,但展开时间轴发现,在工作时间1-6小时内Ai的进度还是比人类要快的

12-24小时阶段AI与人类的进度相当,人类需要工作24-48小时才能超过AI。

有创业者称赞OpenAI这波真的Open了,而且不避讳竞争对手的出色表现,咱们科技圈就需要这种精神。

Agent复现顶会论文

PaperBench选取20篇ICML 2024 Spotlight和Oral论文,要求AI创建代码库并执行实验,复制论文成果,且不能使用原作者代码。

OpenAI与每篇论文的原作者共同制定详细评分标准,总共包含8316个可单独评分的任务。

开卷考试,也就是允许Agent有限联网搜索,把原论文代码库和其他人复现的代码库拉黑名单。

完整评估流程分为3个阶段:

    Agent在ubuntu容器中创建并提交复制论文的代码库。
    在具有GPU访问权限的新容器中执行代码
    裁判模型在第三个容器中给复现结果打分

评估时用分级标准打分,按叶节点、父节点逐级评分,主要指标是所有论文的平均复制分数。

评分也是由大模型自动执行,实验发现o3-mini当裁判的性价比最高。

给每篇论文评分花费66美元,比聘请人类专家当裁判要便宜,速度也更快。

运行评估所需的代码和数据、Docker镜像等正在GitHub逐步开源。

One More Thing

在论文的附录中,OpenAI还给出了让AI复现顶会论文的Prompt,有需要的朋友可以学习一下。

BasicAgent System Prompt:

    强调智能体要完整复制论文,明确最终目标是让运行reproduce.sh能复现论文所有指标
    指导智能体使用工具逐步完成任务,避免一次性执行过多操作
    要求智能体充分利用时间优化解决方案,而不是急于提交初步结果

IterativeAgent System/Continue Prompt:

    强调时间很充裕,要逐步完成任务
    每一步都提醒智能体使用可用的工具
    强调代码编写规范

Task Instructions:

    给出代码示例
    最后再次强调权限、考试时间等,还提醒AI要真的去执行复现,而不只是写一个计划。

就有点像人类准考证上写的考场须知了。

论文地址:
https://openai.com/index/paperbench/

参考链接:
[1]https://x.com/OpenAI/status/1907481494249255193

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

速抢席位!中国AIGC产业峰会观众报名通道已开启 🙋‍♀️

最新嘉宾曝光啦 🔥 百度、华为、AWS、无问芯穹、数势科技、面壁智能、生数科技等十数位AI领域创变者将齐聚峰会,让更多人用上AI、用好AI,与AI一同加速成长~

4月16日,就在北京一起来深度求索AI怎么用 🙌 点击报名参会


🌟 一键星标 🌟

科技前沿进展每日见


内容中包含的图片若涉及版权问题,请及时与我们联系删除

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

PaperBench Claude-3.5-Sonnet AI论文复现 大模型
相关文章