掘金 人工智能 07月10日 10:13
突破 30 分!国内团队结合DeepSeek-R1与 X-Master,打破AI 评测纪录!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

国内团队联合研发的X-Master系统,在“人类最后的考试”中取得重大突破,以32.1分的成绩刷新全球纪录。该测试集合了100多个学科、研究生以上难度的题目,被认为是AI模型测试的“天花板”。X-Master结合DeepSeek-R1模型和智能体,模拟人类研究者解决问题的过程,通过工具增强推理,在生物学、数学、物理学等领域展现出色表现。更令人瞩目的是,该系统采用了完全开源的技术方案,展现了中国团队在AI领域的实力和开放姿态。

🧠 “人类最后的考试”(HLE)是一个由500多家机构的1000多名学者共同出题的超高难度测试集,涵盖100多个学科,题目难度达到研究生以上水平,是AI模型挑战的“天花板”。

💡 上海交通大学和深势科技联合研发的X-Master系统,结合DeepSeek-R1模型,通过模拟人类研究者的动态问题解决过程,实现了关键突破,最终以32.1分刷新了全球纪录。

🔬 X-Master系统通过工具增强推理,例如在生物学问题中调用专业数据库验证推理结果,在TRQA-lit生物学专项测试中准确率达67.4%。在数学和物理等领域也有出色表现,展现了其强大的问题解决能力。

🌍 该系统采用完全开源的技术方案,所有模型和数据集均可在GitHub上获取,这不仅展示了中国团队的技术实力,也体现了推动技术普惠的开放姿态,有助于加速AI技术的进步。

“人类最后的考试”,被一支国内团队打破了纪录。

最近,国内团队在一场“人类最后的考试”中取得了历史性突破。由上海交通大学和深势科技联合研发的X-Master系统,在这场覆盖数学、物理、生物医药等100多个学科的高难度测试中,首次突破30分大关,以32.1分的成绩刷新了全球纪录。

可能很多人还不了解这个测试的分量。人类最后的考试(HLE),是今年初由AI安全中心和Scale AI联手推出的超难测试集。之所以被叫做“人类最后的考试”,也在于这个大模型测试的难度是公认的天花板级别。

它由500多家机构的1000多名学者共同出题,包含3000多道研究生以上难度的题目。这次突破的核心是DeepSeek-R1模型与X-Master智能体的结合。

DeepSeek-R1在数学和编程领域本就表现突出。而X-Master则模拟人类研究者的动态问题解决过程,能在内部推理和外部工具调用之间高效切换。

比如遇到生物学问题时,它会自动生成代码调用专业数据库,通过实验数据验证推理结果。这种工具增强的推理模式,让模型在处理复杂问题时更接近人类专家的思维方式。

在TRQA-lit生物学专项测试中,它的准确率达到67.4%,远超同类模型。数学题上,它能通过分步推导解决高难度证明题;物理题中,它甚至能结合图像信息分析量子力学现象。

更重要的是,这套系统通过多智能体工作流X-Masters,将多个求解器的方案进行整合优化,最终输出最优解。通过分散-堆叠式的设计,它在面对开放性问题时也能保持较高的准确率。 

HLE最初发布时,所有AI模型的成绩都不到10%,哪怕到现在,也鲜有模型的测试成绩超过20分。此前OpenAI的o1模型在HLE中仅得9.1分,谷歌Gemini 2.5 Pro也只有18.8分,而X-Master的32.1分几乎是它们的两倍。

更值得关注的是,上海交大团队采用的是完全开源的技术方案,所有模型和数据集都可在GitHub上获取。

这些成果背后,是国内团队在基础研究和工程化应用上的双重突破。论文作者栏,四位共同一作Jingyi Chai、Shuo Tang、Rui Ye、Yuwen Du都来自上海交大人工智能研究院,由陈思衡副教授指导。深势科技创始人张林峰也亲自署名支持。

在攀登AI高峰的路上,中国研究者正从跟跑者变为领跑者。这场“人类最后的考试”不仅是技术的较量,更是开源生态与闭源垄断的博弈。国内团队正以开放姿态推动技术普惠。

未来,随着HLE测试难度的持续升级,AI模型的挑战才刚刚开始。但可以预见,开源生态将成为推动技术进步的核心力量。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

X-Master 人类最后的考试 AI突破 开源
相关文章