IT之家 2024年12月25日
新研究发现 OpenAI 的 o1-preview AI 模型在诊断棘手医疗案例方面优于医生
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

哈佛医学院和斯坦福大学的研究团队评估了OpenAI的o1-preview模型在医学诊断中的表现。研究发现,该模型在诊断棘手病例方面的准确率显著高于人类医生。在测试中,o1-preview的整体诊断准确率达到78.3%,在特定案例中更是高达88.6%,远超其前身GPT-4。此外,o1-preview在医学推理质量评估中也获得了极高的分数,明显优于经验丰富的医生和住院医生。尽管研究承认测试存在局限性,如部分案例可能包含在训练数据中,且未充分考虑人机协同工作,但o1-preview在诊断方面的潜力仍然令人印象深刻。

🩺o1-preview模型在医学诊断中表现卓越,整体诊断准确率达到78.3%,在特定案例中高达88.6%,显著优于GPT-4的72.9%。

💯在医学推理质量评估R-IDEA标准中,o1-preview在80个案例中取得了78个满分,而经验丰富的医生仅28个案例获得满分,住院医生仅16例,显示出AI在推理能力上的优势。

🔬在专家设计的复杂案例中,o1-preview得分高达86%,远超使用GPT-4的医生(41%)和使用传统工具的医生(34%),表明AI在处理复杂医疗问题上的潜力。

⚠️研究也承认测试的局限性,如部分案例可能包含在o1-preview的训练数据中,且测试主要集中于AI独立工作,未充分考虑人机协同场景。

IT之家 12 月 25 日消息,由哈佛医学院和斯坦福大学组成的科研团队,在医学诊断领域深入评估 OpenAI 的 o1-preview 模型,发现其比人类医生更擅长诊断棘手的医疗案例。

根据研究报告,o1-preview 正确诊断了 78.3% 的测试案例,在 70 个特定案例的对比测试中,准确率更是高达 88.6%,显著优于其前身 GPT-4 的 72.9%。

使用医学推理质量评估标准量表 R-IDEA,o1-preview 在 80 个案例中取得了 78 个满分。相比之下,经验丰富的医生仅在 28 个案例中获得满分,住院医生则仅为 16 例。

在 25 位专家设计的复杂案例中,o1-preview 得分高达 86%,是使用 GPT-4 的医生(41%)和使用传统工具的医生(34%)的两倍多。

研究人员承认该测试存在局限性,部分测试案例可能包含在 o1-preview 的训练数据中,且测试主要集中于系统单独工作,并未充分考虑其与人类医生协同工作的场景;此外 o1-preview 建议的诊断测试成本高昂,在实际应用中存在局限性。

IT之家附上参考地址

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenAI o1-preview 医学诊断 人工智能 医疗AI
相关文章