智源社区 前天 15:23
ChatGPT误导患者不要就医,只因提问多打了一个空格
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

MIT研究揭示,医疗AI在处理患者信息时,易受拼写错误、口语化表达等非标准因素影响,导致误导性就医建议,甚至对女性的误判率高于男性。研究还指出,AI模型依赖标准医学文献训练,缺乏对日常非标准化沟通的理解,从而产生偏见。这引发了对医疗AI可靠性的担忧,强调在临床应用前进行严格审核的必要性。

🤔 **非标准输入的影响:** 研究发现,当患者与AI沟通时,若信息中存在拼写错误、俚语或口语化表达,AI更容易建议患者自行处理症状而非就医,影响了临床准确性。

👩‍⚕️ **性别偏见问题:** AI错误建议女性不要就医的比例高于男性,这可能与现实中医生对女性医疗投诉的重视程度较低有关,揭示了AI在医疗领域中可能存在的性别歧视。

📚 **模型训练的局限:** 医疗大语言模型主要依赖标准医学文献训练,缺乏对日常生活中患者非标准化、多元化表达的理解,导致其在处理“非临床信息”时易出现偏差。

🏥 **医疗AI应用风险:** 随着AI在医疗领域的广泛应用,如导诊、预约等,其误解信息和编造事实的风险引发了人们对AI可靠性的担忧,尤其是在资源分配方面可能产生微妙但重要的差异。

只是因为提问时多打了一个空格,患者就被ChatGPT误导不要就医?

MIT一项新研究表明,如果患者跟AI沟通的时候,消息中包含拼写错误或者大白话,它更有可能建议你不要看医生。

更有甚者,研究还发现AI错误告诉女性不要看医生的比率高于男性。

为什么AI会存在理解偏见

有些看似微不足道的细节,或许是影响医疗AI机器人理解的关键。

比如单词之间多了一个空格,或者患者使用了俚语或俏皮话。

除此之外,人们模糊地不确定地表达医学概念的时候,AI理解存在偏差或者错误的可能性更高,尤其对于不能使用母语的人来说。

但是,面对专业的医学术语,咱们普通老百姓也只能模糊表达啊。

文字沟通上的问题固然无奈,但AI建议背后的偏见更是个问题。

女性跟男性被AI错误告知的比例压根没法比,女性被告诉不要看医生的比例高于男性。

按性别划分临床准确率差距(男性-女性)

上图展示了按性别划分的临床准确率差距结果,蓝色条形表示扰动(或基线)情况下,误差线显著性水平为𝑝男性患者的临床准确率高于女性患者

为何会出现这样的比例,作者怀疑这是否与现实生活中的医生往往淡化女性的医疗投诉有关。

进一步研究:“非临床信息”的沟通

为了弄清楚以上问题,MIT的研究人员评估了四个模型,包括OpenAI的GPT-4、Meta的开源LLama-3-70b,以及一个名为Palmyra-Med的医疗AI

为了测试它们,研究人员使用真实患者投诉(来自医疗数据库)、Reddit上的健康帖子以及一些AI生成的患者案例,模拟了数千个患者案例

在把案例“喂”给AI模型之前,研究人员添加了一些“干扰项”,比如使用感叹号、全部小写输入、多种语言风格(如夸张语气)、不确定语言(如“可能”)以及使用性别中性的代词。

患者沟通方式案例图

这些“干扰项”并未影响患者回答中的临床数据。

结果来说,当面对以上“干扰”的时候,它们更有可能在7%到9%的范围内建议患者自行管理症状,而不是去看医生。

模型导致的临床准确性差异

上图显示了与基线水平准确性的差异,误差线构建于p

还有一种解释,医疗大语言模型(LLMs)依赖于医学文献的训练,即接收的都是专业的标准化的“临床信息”,面对日常生活中患者沟通表达的非标准化的、多元的“非临床信息”,大模型没经验,无法提炼。

无论怎么说,很显然,AI模型被非标准的书写方式改变了认知。

AI医疗偏见会带来什么问题

医疗AI聊天机器人应用在医院、诊所等场景已经非常常见了,比如智慧导诊、安排预约、回答简单医学问题等,还会根据患者告诉的信息进行分诊。

但是,人们开始怀疑把生命交给经常误解信息并编AI造事实然后下判断的AI模型是否可靠。

更重要的是,“隐形”的AI偏见在未来可能带来更严重的问题。

未参与该研究的加州大学圣地亚哥分校健康学院(UC San Diego Health)的Karandeep Singh表示,“隐性的偏见会改变AI建议的语气和内容,而这可能导致医疗资源分配上出现微妙但重要的差异”。

这项研究的合著者、麻省理工学院EECS副教授Marzyeh Ghassemi表示,这就是医疗大模型行业应用之前必须经过审核的原因

但是,解决这些问题并不容易。

随着AI在各行各业的深度应用,大型语言模型(LLMs)也越来越多地被应用于临床环境,并开发多种健康应用,比如慢性病管理、诊断辅助以及文档记录、账单处理和患者沟通等行政任务;甚至使用LLMs辅助临床决策。

这项研究想要评估,LLMs在临床应用中推理能力的关键作用。

结果也显示,LLMs在医疗应用中显示出巨大潜力。

但研究人员希望他们的工作能激发AI在临床应用中的深度研究,比如对理解临床LLMs推理,考虑非临床信息在决策中的有意义的影响,以及推动在部署患者-人工智能系统之前进行更严格的审核的研究

参考链接
[1]https://futurism.com/ai-something-bizarre-typos
[2]https://dl.acm.org/doi/pdf/10.1145/3715275.3732121

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

专属AI产品从业者的实名社群,只聊AI产品最落地的真问题  扫码添加小助手,发送「姓名+公司+职位」申请入群~
进群后,你将直接获得:
 👉 最新最专业的AI产品信息及分析 🔍 
 👉 不定期发放的热门产品内测码 🔥
 👉 内部专属内容与专业讨论 👂

🌟 点亮星标 🌟

科技前沿进展每日见

内容中包含的图片若涉及版权问题,请及时与我们联系删除

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI医疗 偏见 医疗AI 误诊 性别歧视
相关文章