以色列特拉维夫大学研究表明,全球顶尖AI大型语言模型,包括ChatGPT和Gemini等,在认知测试中表现出类似早期老年痴呆的认知障碍,旧版本模型表现更差。研究采用蒙特利尔认知评估量表进行测试,结果显示,仅GPT-4o达到正常水平,而其他模型在视觉空间能力、执行任务、同理心和解释复杂视觉场景方面均表现不佳。研究人员指出,AI在需要视觉抽象和执行功能任务时一致失败,这限制了其在临床环境中的应用,因此AI短期内无法取代医生。
🧠 以色列特拉维夫大学研究发现,顶尖AI大型语言模型在认知测试中呈现类似早期老年痴呆的认知障碍,且旧版本模型表现更差。
📝 研究采用蒙特利尔认知评估量表,对ChatGPT、Gemini等新旧版本进行测试,结果显示仅GPT-4o得分达到26分正常水平,其他模型得分较低。
👁️🗨️ 几乎所有受测模型在视觉空间能力、执行任务、同理心和准确解释复杂视觉场景方面均表现不佳,无法完成需要视觉抽象和执行功能的任务。
⚠️ 研究人员认为,AI在上述任务中的失败表明其在临床应用方面存在重要弱点,因此短期内无法取代医生。
快科技12月20日消息,近日,有媒体报道,以色列特拉维夫大学的一项研究表明AI已有数字痴呆症。
在这项研究中,科学家测试了几乎所有全球顶尖AI大型语言模型,结果都表现出类似于早期老年痴呆的认知障碍,并且版本越老,表现就越差。
为了评估实验效果,科学家使用了经常被用来测试老年痴呆症的蒙特利尔认知评估量表,针对几种公开的领先大型语言模型进行测试,包括ChatGPT的新老版本,Gemini新老版本等。设定的测试最高分为30分,26分或以上被认为是正常的。
实验结果显示,只有GPT-4o在测试中获得了最高分26分,其次是GPT-4是25分,Gemini 1.0仅得16分。
研究还发现几乎所有模型在视觉空间能力和执行任务方面都表现不佳,无法表现出同理心或准确解释复杂的视觉场景。
科学家指出,所有大型语言模型在需要视觉抽象和执行功能的任务中都一致失败,这凸显了一个可能阻碍其在临床环境中使用的重要弱点。因此,他们做出了有数字痴呆的AI,不可能很快取代医生的这一结论。
