机器之心 07月09日 05:39
ICML 2025 | 清华、上海AI Lab提出专家级医学基准MedXpertQA,看o3、R1哪家强
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

清华大学和上海 AI Lab 联合发布了 MedXpertQA,这是一个极具挑战性的医学评估基准,旨在推动专业医学模型与通用推理模型的发展。它包含4460道高难度题目,覆盖17个专业和11个身体系统,并分为文本和多模态两个子集,模拟真实临床场景,评估模型在医学知识和高级推理方面的能力。MedXpertQA 通过严格的筛选、增强和专家审查,有效区分前沿模型,并为医学AI的未来发展提供了新的评估视角。

🧠 MedXpertQA 旨在通过高难度的医学考试题目,有效评估和推动前沿医学模型的进一步发展,解决了现有基准难度不足的问题。

🩺 该基准高度贴合真实临床诊断场景,涵盖17个医学专科和11个身体系统,并引入了医生诊断过程中可能需要的文档、表格等模态信息,提高了临床相关性。

🧐 MedXpertQA 经过三重过滤、专家标注难度、AI模型测试等多重筛选,并进行选项扩充、相似问题过滤、问题改写和多轮专家审查,确保了基准的挑战性、鲁棒性、未见性和准确性。

2025-07-08 12:09 北京

MedXpertQA有望成为推动专业医学模型与通用推理模型共同发展的重要资源。

本文作者来自于清华大学和上海 AI Lab,通讯作者为清华大学丁宁助理教授和清华大学讲席教授、上海 AI Lab 主任周伯文教授。

论文标题:MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding

论文:https://arxiv.org/abs/2501.18362

代码: https://github.com/TsinghuaC3I/MedXpertQA

榜单:https://medxpertqa.github.io

论文已被 ICML 2025 接收,并且被 DeepMind MedGemma 采用为评估基准

基准地址:https://deepmind.google/models/gemma/medgemma/

为什么我们需要一个新的医学基准?

前沿的 AI 模型距离应用于真实世界的医疗场景还有多远?

1. 现有基准难度不足:前沿人工智能模型能力的提升,通常依赖于高难度且能够合理评估模型表现的基准的引导与推动。然而,即使是最具代表性的高难度医学基准 MedQA 也正在快速饱和(o1 已经 96 分)-> 现有医学基准已难以有效评估和驱动前沿模型的进一步发展。

2. 现有基准临床相关性不足:医学人工智能的一个核心要求是能够适应真实世界的临床诊断场景。然而,现有的文本医学基准普遍缺乏对真实临床环境的充分覆盖,而以往的多模态医学基准则还停留在自动生成的简单问答对,临床相关性严重不足。

因此,我们提出了 MedXpertQA,包括涵盖 17 个专业和 11 个身体系统的 4,460 个问题。它包括了两个子集,分别是用于文本医学评估的MedXpertQA Text 和用于多模态医学评估的 MedXpertQA MM 

为什么选 MedXpertQA?

怎么实现高难度和高临床相关性?另外,对于一个医学基准仅有这两点还不够。问题的多样性如何?质量如何?

MedXpertQA 面向上述挑战做出了重大改进:

MedXpertQA 是怎么构建的?

在数据收集阶段,我们以多样性和临床相关性为核心考量。而在后续的构建阶段,我们主要考虑四大核心原则:挑战性、鲁棒性、未见性、准确性。

数据收集之后,MedXpertQA 的构建经过了过滤、增强和专家审查四个步骤:

    人类作答分布:利用真实用户回答的对错分布,计算 Brier score 等指标分析问题的难易程度;

    专家标注难度:医学专家对问题难度进行分级;

    AI 模型测试结果:选取 8 个领先的 AI 模型,完成 14 次独立实验,识别高难度问题。

经过严格筛选与审查,MedXpertQA 最终保留了原始题库约 12% 的题目,共计 4,460 题,体现了对质量而非数量的优先考量。下表展示了和现存基准的对比,可以看到 MedXpertQA 展现出了巨大的优势:

前沿模型表现如何?

我们在 MedXpertQA 上评测了领先的多模态及纯文本模型,包括 o3、DeepSeek-R1 等推理模型,更多分数细节可以参考 Leaderboard:https://medxpertqa.github.io

以上结果从多角度印证了 MedXpertQA 的价值,尤其凸显了 Reasoning 子集的必要性。

总结

MedXpertQA,一个高难度的、高临床相关性的、全面的医学基准、面向专家级医学知识和高级推理能力的评估。当前研究已广泛体现出推理能力对医学 AI 模型的重要性。

我们进一步提出:医学作为一个复杂、丰富且至关重要的领域,有潜力成为评估模型推理能力的新场景,从而拓宽当前以数学和编程为主的评测范式。我们期待 MedXpertQA 能成为推动专业医学模型与通用推理模型共同发展的重要资源。

参考文献

[1] Tang, Xiangru, et al. "Medagentsbench: Benchmarking thinking models and agent frameworks for complex medical reasoning." arXiv preprint arXiv:2503.07459 (2025).

[2] Wu, Juncheng, et al. "Medreason: Eliciting factual medical reasoning steps in llms via knowledge graphs." arXiv preprint arXiv:2504.00993 (2025).

[3] Phan, Long, et al. "Humanity's last exam." arXiv preprint arXiv:2501.14249 (2025).

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

MedXpertQA 医学AI 推理能力 医学基准
相关文章