IT之家 07月10日 20:13
AI 医疗建议可靠性存疑:MIT 研究揭示用户提问方式影响 AI 判断
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文探讨了生成式人工智能(AI)在医疗领域应用中面临的挑战。研究指出,用户在使用AI工具时,如微软Copilot,其“提示词工程能力”不足可能导致AI给出不准确的医疗建议。麻省理工学院的研究表明,拼写错误、花哨语言等因素会影响AI的判断,甚至导致误导性建议。研究还发现,女性用户更容易受到此类错误的影响。尽管微软声称其AI医疗工具准确率高于人类医生,但这项研究提醒我们,AI在医疗等复杂领域的可靠性仍需进一步验证,技术发展虽快,但应用需谨慎。

💡微软AI部门收到用户投诉,反映Copilot不如ChatGPT好用,微软将其归咎于用户“提示词工程能力不佳”,并推出“Copilot 学院”以提升用户AI使用技能。

🤔麻省理工学院研究表明,用户在提问时出现拼写错误或使用花哨语言,可能导致AI给出不准确的医疗建议,甚至建议用户无需就医。

⚠️研究发现,女性用户比男性更容易受到AI错误建议的影响,这一结论仍需进一步验证。研究涵盖了GPT-4、LLaMA-3-70B等多个AI工具,模拟了数千个健康案例。

📈研究人员在数据中加入扰动因素,如大小写不一致、感叹号、情绪化语言等,结果显示,这些扰动使AI建议用户“无需就医”的概率上升了7%至9%。

📢微软此前宣称其新推出的AI医疗工具准确率是人类医生的4倍,但这项研究再次提醒我们,生成式AI在医疗领域仍未达到完全可靠的水平,需更多验证与审慎评估。

IT之家 7 月 10 日消息,随着生成式人工智能(AI)技术不断演进,其应用场景已从早期的简单问答扩展到更复杂的任务。然而,对于缺乏技术背景的用户而言,如何高效、准确地使用这些 AI 工具,正变得越来越具有挑战性。

一份独立报告显示,微软 AI 部门收到的用户投诉中,最常见的一条是“Copilot 不如 ChatGPT 好用”。对此,微软迅速回应,将问题归咎于用户“提示词工程能力不佳”。为改善用户体验,微软还推出了“Copilot 学院”,帮助用户提升 AI 使用技能。

IT之家注意到,麻省理工学院(MIT)的一项最新研究(via Futurism)表明,微软将问题归咎于用户提示词能力的做法或许并非全无道理。

该研究指出,过度依赖 AI 工具获取医疗建议可能带来危险。更令人担忧的是,如果用户在提问时出现拼写错误(如单词拼错或多余空格),AI 可能会因此建议用户无需就医。此外,使用花哨语言或俚语也可能导致 AI 判断失误。

研究还发现,女性用户比男性更容易受到此类错误建议的影响,尽管这一结论仍需进一步验证。

此次研究涵盖了多个 AI 工具,包括 OpenAI 的 GPT-4、Meta 的 LLaMA-3-70B,以及一款名为 Palmyra-Med 的医疗专用 AI。研究人员模拟了数千个健康案例,数据来源包括真实患者投诉、Reddit 上的健康相关帖子,以及 AI 生成的病例。

为测试 AI 的稳定性,研究人员在数据中加入了“扰动因素”,如句子首字母大小写不一致、感叹号、情绪化语言,以及“可能”“大概”等不确定表达。结果显示,这些扰动使 AI 建议用户“无需就医”的概率上升了 7% 至 9%。

研究负责人、MIT 研究员阿比尼塔・古拉巴蒂娜(Abinitha Gourabathina)指出:“这些模型通常是在医学考试题目上训练和测试的,但实际应用场景却相差甚远,比如评估临床病例的严重程度。我们对大语言模型的理解仍然非常有限。”

这一研究结果引发了对 AI 在医疗领域应用的广泛担忧。值得注意的是,就在不久前,微软刚刚宣布其新推出的 AI 医疗工具“准确率是人类医生的 4 倍,成本却低 20%”。微软 AI 首席执行官甚至称其为“迈向医疗超级智能的真正一步”。

然而,这项研究再次提醒我们,生成式 AI 在医疗等高度复杂的领域仍远未达到完全可靠的水平。尽管技术发展迅速,但在真正投入使用前,仍需更多验证与审慎评估。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

人工智能 AI医疗 提示词工程 医疗AI 微软Copilot
相关文章