机器之心 07月08日 15:11
ICML 2025 | 清华、上海AI Lab提出专家级医学基准MedXpertQA,看o3、R1哪家强
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

清华大学和上海AI Lab联合推出的MedXpertQA,是一个针对医学领域的高难度、高临床相关性的评估基准。该基准旨在推动专业医学模型与通用推理模型的发展,通过涵盖17个专科和11个身体系统的4460个问题,有效评估模型在医学知识和高级推理能力上的表现。MedXpertQA不仅难度高,还具有真实临床场景的模拟,为医学人工智能的发展提供了重要的评估工具。

🧠 MedXpertQA是一个极具挑战性的医学多选题评估基准,其难度超越了现有的医学基准,能够有效区分前沿AI模型的性能。

🏥 MedXpertQA具有高临床相关性,问题来源于美国医学执照考试,并首次引入专科委员会问题,模拟真实诊断场景,涵盖多样化的医学影像和临床信息。

✅ MedXpertQA构建过程经过严格筛选和审查,包括三重过滤机制、专家标注难度、AI模型测试结果等,以确保其准确性和可靠性。

📊 MedXpertQA包含文本(Text)和多模态(MM)两个子集,其中推理增强模型在Reasoning子集上表现出显著的性能提升,表明其在评估医学推理能力方面的优势。

2025-07-08 12:09 北京

MedXpertQA有望成为推动专业医学模型与通用推理模型共同发展的重要资源。

本文作者来自于清华大学和上海 AI Lab,通讯作者为清华大学丁宁助理教授和清华大学讲席教授、上海 AI Lab 主任周伯文教授。


论文已被 ICML 2025 接收,并且被 DeepMind MedGemma 采用为评估基准


基准地址:https://deepmind.google/models/gemma/medgemma/

为什么我们需要一个新的医学基准?

前沿的 AI 模型距离应用于真实世界的医疗场景还有多远?

1. 现有基准难度不足:前沿人工智能模型能力的提升,通常依赖于高难度且能够合理评估模型表现的基准的引导与推动。然而,即使是最具代表性的高难度医学基准 MedQA 也正在快速饱和(o1 已经 96 分)-> 现有医学基准已难以有效评估和驱动前沿模型的进一步发展。

2. 现有基准临床相关性不足:医学人工智能的一个核心要求是能够适应真实世界的临床诊断场景。然而,现有的文本医学基准普遍缺乏对真实临床环境的充分覆盖,而以往的多模态医学基准则还停留在自动生成的简单问答对,临床相关性严重不足。


因此,我们提出了 MedXpertQA,包括涵盖 17 个专业和 11 个身体系统的 4,460 个问题。它包括了两个子集,分别是用于文本医学评估的MedXpertQA Text 和用于多模态医学评估的 MedXpertQA MM 

为什么选 MedXpertQA?

怎么实现高难度和高临床相关性?另外,对于一个医学基准仅有这两点还不够。问题的多样性如何?质量如何?

MedXpertQA 面向上述挑战做出了重大改进:





MedXpertQA 是怎么构建的?

在数据收集阶段,我们以多样性和临床相关性为核心考量。而在后续的构建阶段,我们主要考虑四大核心原则:挑战性、鲁棒性、未见性、准确性。

数据收集之后,MedXpertQA 的构建经过了过滤、增强和专家审查四个步骤:

    人类作答分布:利用真实用户回答的对错分布,计算 Brier score 等指标分析问题的难易程度;

    专家标注难度:医学专家对问题难度进行分级;

    AI 模型测试结果:选取 8 个领先的 AI 模型,完成 14 次独立实验,识别高难度问题。

经过严格筛选与审查,MedXpertQA 最终保留了原始题库约 12% 的题目,共计 4,460 题,体现了对质量而非数量的优先考量。下表展示了和现存基准的对比,可以看到 MedXpertQA 展现出了巨大的优势:



前沿模型表现如何?

我们在 MedXpertQA 上评测了领先的多模态及纯文本模型,包括 o3、DeepSeek-R1 等推理模型,更多分数细节可以参考 Leaderboard:https://medxpertqa.github.io



以上结果从多角度印证了 MedXpertQA 的价值,尤其凸显了 Reasoning 子集的必要性。

总结

MedXpertQA,一个高难度的、高临床相关性的、全面的医学基准、面向专家级医学知识和高级推理能力的评估。当前研究已广泛体现出推理能力对医学 AI 模型的重要性。

我们进一步提出:医学作为一个复杂、丰富且至关重要的领域,有潜力成为评估模型推理能力的新场景,从而拓宽当前以数学和编程为主的评测范式。我们期待 MedXpertQA 能成为推动专业医学模型与通用推理模型共同发展的重要资源。

参考文献

[1] Tang, Xiangru, et al. "Medagentsbench: Benchmarking thinking models and agent frameworks for complex medical reasoning." arXiv preprint arXiv:2503.07459 (2025).

[2] Wu, Juncheng, et al. "Medreason: Eliciting factual medical reasoning steps in llms via knowledge graphs." arXiv preprint arXiv:2504.00993 (2025).

[3] Phan, Long, et al. "Humanity's last exam." arXiv preprint arXiv:2501.14249 (2025).

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

MedXpertQA 医学AI 推理能力 基准
相关文章