掘金 人工智能 10小时前
SciMaster:无需微调,在人类最后考试上刷新 SOTA
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了一种名为X-Master的工具增强型通用推理Agent,它利用Python代码作为与外部环境交互的语言,能够调用计算库、网络搜索等多种工具。在此基础上,X-Masters工作流通过分散-堆叠式代理协作,实现了多阶段的解答优化。该系统在“人类最后考试”(HLE)这一高难度跨领域科学挑战中取得了32.1%的领先成绩,首次突破30%大关,展现了开源AI在科学智能领域的巨大潜力。

✨ **X-Master:工具增强的通用推理Agent** X-Master通过将Python代码作为与外部环境交互的语言,实现了对计算库、网络搜索、科学论文解析等工具的调用。这种设计使得Agent能够主动获取和验证信息,无需进行微调,仅通过上下文控制即可完成复杂科学任务,为开源模型在科学研究中赋能。

🚀 **X-Masters:分散-堆叠式工作流提升推理能力** X-Masters工作流进一步扩展了X-Master的能力,通过Solver、Critic、Rewriter和Selector四个环节,实现了对多个解答的并行探索、评估、融合与优化。这种结构兼顾了解答的广度和深度,显著提升了AI在复杂问题上的推理准确性和鲁棒性。

🏆 **HLE上的SOTA表现与生物医学领域的领先** X-Masters在“人类最后考试”(HLE)上取得了32.1%的突破性成绩,首次超越了OpenAI和Google DeepMind等闭源系统,证明了其在通用科学智能方面的领先地位。在生物医学领域,X-Masters也表现出色,准确率显著优于现有方法,显示了其在专业科学领域的应用潜力。

💡 **无需训练的代理行为诱导机制** 针对基础开源模型在工具调用方面的不足,X-Master设计了“初始引导”机制。通过在思考过程中添加第一人称自述提示,并声明所有工具都使用Python实现调用,有效地引导模型进行工具交互,克服了模型本身缺乏工具调用训练的限制。

摘要

随着 AI Agent的发展,人们期待其在科学发现中发挥关键作用。本文提出 X-Master,一种工具增强型通用推理Agent(tool-augmented reasoning agent) ,通过将 Python 代码作为与外部环境交互的语言,实现对计算库、网络搜索等工具的调用。为进一步增强推理能力,本文构建了一个分散–堆叠式代理工作流 X-Masters,实现解答过程的多阶段协作与优化。系统在 Humanity’s Last Exam(HLE)上首次突破 30% 得分,超过 OpenAI 与 Google DeepMind 的闭源系统,展示出开源代理系统在科学智能领域的领先潜力。

1 引言

“人类最后考试(Humanity’s Last Exam, HLE)” 是一个由全球近 1000 位领域专家共同打造的评估基准,涵盖来自超过 500 个机构的多学科知识前沿任务。它被视为 AI 系统在应对科学性、高复杂度、跨领域问题方面的终极挑战,其中的问题都非常复杂,例如下图展示了其中的几个样例:

目前,尽管 OpenAI 和 Google DeepMind 等闭源系统在 HLE 上分别取得一定的成绩,但这类系统的封闭性严重限制了社区理解、复现与创新的能力。

为应对这一挑战,本文提出一个无需微调、基于推理时增强的开源Agent系统 X-Master,旨在通过结构性地引导开源模型完成复杂科学任务。X-Master 将 Python 代码作为与外部环境交互的语言,调用包括网页搜索、科学论文解析等工具,在推理过程中主动获取和验证信息。

在此基础上,本文进一步构建一个分散–堆叠式代理工作流 X-Masters,使Agent在多个解法之间并行探索并逐步优化,显著提升了推理广度与深度。该系统最终在 HLE 上取得了32.1%的领先成绩,成为首个突破 30% 阈值的系统,且完整开源。

2 方法

2.1 工具增强型推理代理:X-Master

基于开源模型(如 DeepSeek-R1),通过代码调用工具获取实时信息;推理过程为多轮:生成 <code> 片段 → 工具调用 → 获取结果 <execution_results> → 继续推理;实现方式无需训练,只通过上下文控制代理行为。

2.2 代码即交互语言

使用 Python 代码作为与外部环境交互的统一接口,具备三大优势:

其中,工具种类包括内建库(如 NumPy)、网页搜索、PDF/HTML 解析等。

2.3 无需再训练的代理行为诱导机制

尽管一些开源大模型在推理能力上表现出色,但是这些模型没有针对性的工具调用训练,导致在工具调用能力上性能不佳,例如Deepseek-R1。为了克服这种困难,本文为非代理型模型(如 DeepSeek-R1)设计“初始引导”(Initial Reasoning Guidance),具体做法如下:

(1) ‘I can answer this query effectively by leveraging access to external environments.’ (2) ‘Every time I determine the need for interaction with external tools, I will generate Python code enclosed between ` and ` tags.

2.4 分散–堆叠式工作流:X-Masters

经过以上步骤改进的X-Master已基本具备了工具调用能力,作者接下来进行测试时扩展(Test-time Scaling),主要实现方式包括(深度和广度):

    Solver:并行生成 5 个工具增强解答;Critic:分别评估每个答案并提出修正;Rewriter:融合所有解答信息,生成新一轮改写;Selector:从重写答案中选出最终输出。

该结构兼顾解法多样性(广度)与答案精度(深度),形成结构化思维流程。

3 实验

3.1 数据集

3.2 实验结果

在 HLE 上刷新 SOTA

X-Masters 为首个在 HLE 上突破 30% 的系统;显著超过现有闭源系统,验证该系统的工作流效果。

生物领域表现领先

3.3 实验分析

如表1所示,工具增强与测试时扩展带来性能增益:

如图7所示,重写阶段有效提升正确答案数量:应用重写后,5 个解中至少 3 个正确的频率显著提高;帮助 Selector 更容易选出最佳答案。

消融实验验证堆叠与分散重要性:

设定准确率
无分散25.5%
无堆叠(无重写与选择)25.0%
全流程(分散+堆叠)32.1%

3.4 案例分析

4 总结

本文提出了构建通用科学智能体的基础架构 X-Master,并通过 X-Masters 工作流展现出推理时增强策略的强大能力。该系统具备:1)多轮、可执行的推理能力;2)工具增强、上下文可控的行为设计;3)可部署于开源模型之上,无需额外训练。在 Humanity’s Last Exam 与生物医学任务中均实现 SOTA 结果,验证了其科学研究智能体方向的可行性与领先性。

未来工作包括:

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

X-Master AI Agent 科学智能 开源AI Humanity's Last Exam
相关文章