【新智元导读】OpenAI 发布新基准 HealthBench,联手 60 个国家 262 名执业医生,树立新的「AGI 标志性用例」。OpenAI o3 碾压 Grok 3 和 Gemini 2.5 Pro,成功登顶。而最强 AI 几乎达到了人类医生最佳水平!
最强 AI,已击败了人类医生。
就在刚刚,全球 60 个国家,262 名执业医生共同上阵,联手 OpenAI 打造出「最具 AGI 标志性」的 AI 健康系统评估标准——HealthBench。
这个基准包含了 5,000 个基于现实场景的健康对话,每个对话都有医生定制的评分标准,来评估模型的响应。
论文地址:cdn.openai.com/pdf/bd7a39d…
在参战的所有顶尖模型中,o3 拿下了最高分,Grok 3 位列第二,Gemini 2.5 Pro 位列第三。
值得一提的是,在 AI 辅助下,医生的诊断准确率提升了近 4 倍。甚至,o3、GPT-4.1 回答质量超越了医生的水平。
人类免疫学家 Derya Unutmaz 高度评价道,「这个关键的评估基准,将为 AI 医生铺平道路。我们现在正处于一场改变医学未来,拯救数百万人生命的革命开端」。
AGI 关键要素,
医疗 AI「标尺」
OpenAI 的 Health AI 团队负责人 Karan Singhal,在 X 上介绍了 HealthBench 的特点,并给予了极大的期待:
希望这项工作的发布,能为 AI 朝着改善人类健康的方向发展提供有力引导。
改善人类健康,将是通用人工智能(AGI)最具决定性的影响之一。
但要实现这一目标,必须确保模型既有用又安全。专业评估对理解模型在医疗场景中的表现至关重要。
尽管学术界和产业界已付出巨大努力,但现有评估体系仍存在三大局限:
未能还原真实医疗场景、
缺乏基于专家意见的严格验证、
难以为前沿模型提供提升空间。
OpenAI 团队秉持 AI 在医疗领域评估的三大核心信念,由此设计出 HealthBench:
有现实意义(Meaningful):评分应反映真实世界影响。突破传统考试题的局限,精准捕捉患者与临床工作者使用模型时的复杂现实场景和工作流程。
值得信赖(Trustworthy):评分须真实体现医师判断。评估标准必须符合医疗专业人员的核心诉求与行业规范,为 AI 系统优化提供严谨依据。
未饱和(Unsaturated):基准测试应推动进步。现有模型必须展现显著改进空间,持续激励开发者提升系统性能。
在过去一年中,OpenAI 与来自 26 个医学专业、在 60 个国家(如下所示)拥有执业经验的 262 名医师合作,共同构建了 HealthBench 评估体系。
HealthBench 主要面向两个群体:
1. AI 研究社区:旨在推动形成统一的评估标准,激励开发出真正有益于人类的模型
2. 医疗领域:提供高质量的证据,帮助更好地理解当前和未来 AI 在医疗中的应用场景与局限性
与以往那些评估维度较为单一的医疗基准不同,HealthBench 支持更具实际意义的开放式评估。
新研究有很多有趣的发现,包括医生评分基线研究等。
o3 冲榜
媲美人类医生
这项健康基准 HealthBench 提出的主要目的,便是为当前,甚至未来顶尖 LLM 提供性能可参考依据。
在研究中,OpenAI 团队评估了多个模型,包括 o3、Grok 3、Claude 3.7 Sonnet 等,重点考察其在性能、成本和可靠性方面的表现。
性能
根据现实世界健康场景的不同子集,即「主题」,以及体现模型行为的不同维度,即「轴」,所有模型进行 PK。
整体来看,o3 表现最佳,超越了 Claude 3.7 Sonnet 和 Gemini 2.5 Pro(2025 年 3 月)。
此外,在最近几个月里,OpenAI 前沿模型在 HealthBench 上的表现提高了 28%。
这一提升,对模型的安全性和性能来说,比 GPT-4o(2024 年 8 月)和 GPT-3.5 Turbo 之间的提升更大。
成本
接下来,研究团队还在模型大小和测试时计算 scaling 轴上,研究了模型的成本与性能。
可以看到,4 月份 OpenAI 发布的模型(o3,o4-mini,GPT‑4.1),刷新了性能成本 SOTA。
研究还观察到,小模型在最近几个月里,得到了显著的改进,
尽管成本仅为 GPT-4o(2024 年 8 月版)的 1/25,GPT-4.1 nano 的表现仍优于后者。
比较低、中、高推理水平下的 o3、o4-mini 和 o1 模型,结果显示测试时计算能力有所提高。
其中,o3 与 GPT-4o 之间的性能差距(0.28)甚至超过了 GPT-4o 与 GPT-3.5 Turbo 之间的差距(0.16)。
可靠性
在医疗领域,可靠性至关重要——一次错误回应可能抵消许多正确回答。
因此,OpenAI 在 HealthBench 上评估了各模型在 k 个样本下的最差表现(worst-of-n performance)。
也就是说,在给定示例的 n 个响应中,最差的得分是多少?
结果发现,o3 模型在 16 个样本时的最差分数超过 GPT-4o 的两倍,展现出更强的稳健性和下限表现。
HealthBench 系列
此外,OpenAI 还推出了 HealthBench 系列的两个新成员:HealthBench Hard 和 HealthBench Consensus。
· HealthBench Hard 专为更高难度场景设计,问题更具挑战性;
· HealthBench Consensus 由多位医生共同验证,确保评估标准的专业性和一致性。
o3 和 GPT-4.1 在 HealthBench Consensus 错误率,比 GPT-4o 显著降低。
在 HealthBench Hard 上,表现最好的模型得分仅为 32%,这表明它为下一代模型提供了一个有意义且具挑战性的目标。
AI 与医生正面交锋
那么,这些大模型能够媲美,甚至超越人类医生的专业判断?
为此,OpenAI 在研究还展开了一场人机对决测试。
262 名专业医生被分为了两组:
· 一组医生可以在不使用 AI 工具的情况下查阅网络资源,撰写最佳回答。
· 另一组医生则可以参考 OpenAI 的模型生成回答,自由选择直接修改或完全重写,提供更高质量的回复。
随后,研究团队将这些医生撰写的回答与 AI 模型的回答进行评分对比,评估它们在准确性、专业性和实用性等方面的表现。
关键发现如下:
2024 年 9 月模型
在测试 o1-preview、4o 时,他们发现仅依靠 AI 生成回答,优于没有参考任何 AI 医生的回答。
更令人振奋的是,当医生参考 AI 回答并加以优化后,他们的回答质量显著超越了 AI 模型本身。
这表明,人类医生的专业判断,在 AI 辅助下能产生最佳效果。
2025 年 4 月模型
这次实验中,研究人员让医生参考最新 o3、GPT-4.1 模型的回答,试图进一步提升回答质量。
然而,结果令人意外:
医生的优化回答与 AI 原始回答相比,质量上没有显著提升。
而当前,AI 模型已足够强大,其回答质量几乎达到了人类医生最佳水平。
GPT-4.1 参评
远超人类平均水平
为检验基于模型的评分器能否精准评判评分标准(rubric criteria),OpenAI 邀请医生对 HealthBench Consensus 中的模型回答予以审阅,以确定这些回答是否符合相应评分标准。
基于这些医生的反馈,研究团队构建了所谓的**「元评估」(meta-evaluation)**,即评估模型评分与医生判断之间的一致性,重点衡量以下两点:
1. 模型评分器与医生之间的一致性:模型在判断一个评分标准是否被满足时,是否与医生达成一致;
2. 医生之间的一致性:多位医生对同一模型回应的评分是否一致。
评估结果表明,模型评分器与医生之间的配对一致性程度,和医生之间的配对一致性程度相当。
这说明 HealthBench 使用的模型评分方法在很大程度上能够代替专家评分,具有可信度和专业性。
基线模型
OpenAI 将 34 条共识评分标准的数据按七大主题进行分组,评估模型评分器与医生评分之间的一致性,并通过三种方式建立对照基线:
(1)典型医生(Typical physician)
为了估计人类专家之间的评分一致性,需要对比每位医生的评分与其他医生的评分,并计算 MF1 分数。
也就是,用与模型相同的方式对医生进行评分,仅统计该医生参与评估的对话示例,且不使用该医生自己的评分作为参考。
注释:在分类任务中,宏平均 F1 分数(Macro F1,简称 MF1)是对每个类别的 F1 分数进行不加权平均的结果。
MF1 适用于类别不平衡的元评估(meta-evaluation)任务。
表 5 按主题报告了加权平均的医生 MF1 分数,权重基于每位医生参与的元示例数量。
(2)个体医生(Individual physician)
OpenAI 还在每个主题下报告了每位医生的 MF1 分数。
图 12 展示了这些医生评分分数的分布情况。
(3)通过这些个体分数,模型评分器在每个主题下的 MF1 分数被表示为医生分布中的百分位数,以更直观地理解模型评分表现在「人类专家水平」中所处的位置。
这些基线设定让我们能够客观评估模型评分系统的可靠性,验证其是否达到了与医生相当的专业判断水平。
结果:GPT-4.1 远超普通医生
如表 5 所示,在所有主题上,GPT-4.1 作为评分模型的表现均明显优于随机基线。
更具体地说:
在 7 个主题中的 5 个中,GPT-4.1 的评分表现超过了医生平均水平;
在 6 个主题中,GPT-4.1 的表现处于医生评分分布的上半区间;
在所有主题中,GPT-4.1 的评分能力都高于医生群体的下三分之一(33 百分位)。
这些结果说明,GPT-4.1 作为基于模型的评分器,其表现已能与医生专家的评估相媲美。
从图 12 可以看到,不同医生之间的评分表现差异显著,说明医生间本身也存在一定主观性和评分风格的差异。
总的来说,只要满足以下条件,基于模型的评分系统可以与专家评分一样可靠:
基础数据真实、多样且注释充分;
元评估设计合理;
评分提示(prompt)和评分模型经过精心挑选。
由于 GPT-4.1 在无需复杂推理模型带来的高成本和延迟的情况下,就已达到了医生级别的一致性表现,因此它被设置为 HealthBench 的默认评分模型。
模拟真实场景,多维度评估
结合模型合成生成与人工对抗测试方式,OpenAI 创建了 HealthBench,力求贴近真实场景,模拟真实世界中人们使用大模型的情况。
对话具有以下特点:
多轮交互,更符合自然对话流程
多语言支持,覆盖不同语言背景
角色多样,既包括普通用户,也包括医生
涵盖多个医学专业领域与场景
精心挑选,具有一定难度,避免模型轻松「答对」
这个基准的目标是推动更真实、更全面的 AI 健康对话能力评估,让模型在实用性与安全性之间达到更好的平衡。
**HealthBench 使用「评分标准式评估」(rubric evaluation)方法:**每个模型回答都会根据该对话特定的、由医生撰写的评分标准进行打分。
这些评分标准详细说明了「完美回应」应包含哪些信息,或应避免哪些内容,比如:应提及某个医学事实,或避免使用不必要的术语。
每一条评分标准都有对应的分值权重,根据医生判断该标准在整体回答中的重要性而设定。
整个 HealthBench 数据集中包含 48,562 条独立评分标准。
HealthBench 中的对话被划分为七大主题,例如急诊、应对不确定性、全球****健康等。
每个主题下都包含多个相关示例,每个示例都配有对应的评分标准(rubric criteria)。
以下是一些数据集的示例。
左右滑动查看
每一条评分标准都对应一个评估维度(axis),用于界定该标准评估的是模型行为的哪个方面,例如:
准确性(accuracy)
沟通质量(communication quality)
信息查找与澄清能力(context seeking)
这种结构化的设计,让 HealthBench 能够细致、多角度地评估 AI 模型在不同医疗场景中的表现,反映在实际应用中的可靠性与实用性。
模型的回答由 GPT-4.1 担任评分者,根据每项评分标准判断是否达成,并根据满足标准的总得分与满分比值,给出整体评分。
HealthBench 涵盖了广泛的医学专科领域,包括:
麻醉学、皮肤病学、放射诊断学、急诊医学、家庭医学、普通外科、内科、介入与放射诊断学、医学遗传与基因组学、神经外科、神经内科、核医学、妇产科学、眼科学、骨科、耳鼻喉科、病理学、儿科学、物理医学与康复、整形外科、精神病学、公共卫生与预防医学、放射肿瘤学、胸外科、泌尿外科、血管外科。
这些专科的覆盖确保了 HealthBench 在临床广度和专业深度上的严谨性。
整个 HealthBench 构建过程涵盖了重点领域筛选、生成相关且具有挑战性的案例样本、案例标注以及各个环节的验证工作。
参考资料: