红杉汇 前天 09:54
xbench评测集正式开源
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

红杉中国正式开源其内部使用的AI基准测试工具xbench,旨在量化AI系统在真实场景中的效用,并采用长青评估机制。该测试包含xbench-ScienceQA和xbench-DeepSearch两个评测集,分别侧重于科学与工程问答以及AI Agent的深度搜索能力。红杉中国希望通过开源,吸引更多AI人才和项目参与,共同推动AI社群的发展。

🧠 xbench是红杉中国开源的AI基准测试工具,用于量化AI系统在真实场景中的效用。

🔬 xbench包含xbench-ScienceQA和xbench-DeepSearch两个评测集,前者关注科学与工程问答,后者侧重AI Agent的深度搜索能力。

📚 xbench-ScienceQA由顶级院校博士生和行业专家构建,题目专业,区分度高,并采用黑盒机制避免过拟合。

🔍 xbench-DeepSearch专为评估Agent的深度搜索能力设计,涵盖规划、搜索、推理和总结等端到端能力。

🤝 红杉中国希望通过开源xbench,吸引更多评测爱好者、开发者和研究者参与,共同推动AI发展。

原创 洪杉 2025-06-18 08:04 北京

欢迎更多评测爱好者、Agent开发者和AI研究者参与

三周前,我们正式推出了xbench,一款致力于量化AI系统在真实场景的效用价值,以及采用长青评估机制的AI基准测试。

这期间,从大厂到创业公司,从大模型研究者到AI Agent开发者,我们收到了来自海内外的大量咨询,特别是希望使用xbench评测集对他们的产品进行测试的需求与日俱增。

把红杉投资团队进行内部测评的工具打造成一款公开的AI基准测试,用公开透明的方式吸引更多AI人才和项目的共创,是我们打造xbench的初衷。我们相信开源精神可以让xbench更好地进化,为AI社群创造更大的价值。

因此,红杉中国今天正式开源xbench的两个评测集xbench-ScienceQA和xbench-DeepSearch。未来,我们将基于大模型和AI Agent的发展情况不断动态更新评测集,并且采用“黑白盒”机制,既保证xbench的发展可以服务更多的大模型和Agent开发者,同时尽力避免静态评测集经常出现的过拟合问题,确保xbench的长期有效。

开源地址

1. website:

https://xbench.org/

2. github:

https://github.com/xbench-ai/xbench-evals

3. huggingface:

https://huggingface.co/datasets/xbench/ScienceQA

https://huggingface.co/datasets/xbench/DeepSearch

、评测集xbench-ScienceQA和xbench-DeepSearch的特

01

随着推理模型的飞速发展,经典学科评测集如MMLU、MATH等已接近满分,无法继续度量模型能力的进展。博士研究生水平的学科知识和推理能力评测集如GPQA、SuperGPQA、HLE等成为新的评测标准,获得了业界的认可与关注。考虑到研究生水平的题目数量少,出题难,答案验证困难,且发布后缺少定期更新的机制,无法有效检查评估集污染的程度,红杉中国邀请了来自顶级院校的博士研究生以及资深行业专家,收集整理了来源可靠、多学科、搜索引擎未收录、答案明确的高质量题库,并将此成果开源发布为xbench-ScienceQA评测集。这个评测集的特点是:

02

自主规划(Planning)→信息收集(Search)→推理分析(Reasoning)→总结归纳(Summarization)的深度搜索能力,是AI Agent通向AGI的核心能力之一。然而,这一能力的复杂性也为评估工作带来了更高的挑战。当前,业界主流评测集侧重于基座模型的能力评估,高质量的Agent评测集相对稀缺。为了更好地考察Agent的深度搜索能力,红杉中国推出并开源了xbench-DeepSearch评测集。这个评测集的特点是:

二、ScienceQA和DeepSearch的详细介绍

1. xbench-ScienceQA

一个动态更新、持续汇报评估结果的科学与工程问答Benchmarks

题目构建方法

学科和难度分布

2. xbench-DeepSearch

一个无污染的衡量AI Agent深度搜索能力的基准测试工具

题目构建方法

主题和难度分布

三、例题分析

1. ScienceQA例题及解析

示例1:

示例2:

示例3:

2. DeepSearch例题及解析

示例:出一道考察搜索广度的题目

步骤一:先确定谜底为两位诺贝尔奖获得者大卫・贝克(David Baker)和大卫・维因兰德(David Jeffrey Wineland)

步骤二:设计有限的限制条件,引导模型在一个合理的搜索空间内进行深度搜索。这两位诺贝尔奖获得者,一位获得了物理学奖,一位获得了化学奖;两位都曾就职于华盛顿大学;最后加上两者的出生日期差别以保证答案的唯一性,这样一道搜索广度的题目就构建完成。

最终构建的题目为:一位诺贝尔物理学奖得主同一位诺贝尔奖化学奖得主的年龄相差6799天,他们两位有相同的first name,曾就职于同一所位于美国西岸的大学,请问这两位诺贝尔奖得主是谁?

示例:出一道考察推理深度的题目

步骤一:先确定一个出题者感兴趣的主题,如一件历史文物“赵怀满夏田契

步骤二:为了考察推理深度,可以设计多层递进的条件。这件文物中记载了一个年份贞观十七年(公元643年),然后搜索该年份有什么重大的历史事件,可以搜到唐朝的名相魏徵去世,然后搜索魏徵,找到关于他的一个小众的事实点进行考察。

最终构建的题目为:有一个被剪做鞋样的历史文物,对研究唐代均田制起到了重要的作用,这个文物中记载的年份,有一位唐朝的一代名相去世,请问这位名相有几个儿子?

示例1:

示例2:

四、欢迎加入xbench,一起探索AI发展的最前沿

从2016年AlphaGo在围棋比赛中击败韩国名将李世石,到2022年ChatGPT的横空出世,AI在近些年迎来了一波高速发展的爆发期。

正所谓“AI一天,人间一年”,AI自我迭代的效率,已经远远超过人类过去大多数技术更新的速度。今天,在我们开源xbench的同时,希望号召更多评测爱好者、Agent开发者和AI研究者参与其中,一起去观察、试验和应用AI发展最前沿的技术和产品。

欢迎联系team@xbench.org,我们会尽快反馈。

推荐阅读

今天,我们推出xbench

链接高校人才,赋能创业企业 | 红杉联合校园招聘企业报名开始

当“万年难遇”的气候事件,成为日常的一部分 | 红杉爱科学

责任、专注、自律……聪明人这样做能量管理 | 红杉Library

AI医疗最真实的需求,藏在超400个医疗机构的调研里 | Healthcare View

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

xbench AI基准测试 开源 AI Agent ScienceQA DeepSearch
相关文章