集智俱乐部 02月04日
多模态大语言模型 vs 人类:视觉认知能力的较量
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文探讨了多模态大语言模型(MLLMs)在视觉认知方面的能力,通过一系列认知科学实验,评估了模型在直觉物理、因果推理和直觉心理等领域的表现。研究发现,尽管MLLMs在视觉数据处理上有所进展,但与人类的直觉认知相比仍存在显著差距。模型在判断物理稳定性、理解因果关系以及推断他人意图等任务中表现均不及人类。研究强调,模型在基础视觉处理上的局限以及静态图像的使用可能是导致其认知表现不佳的原因。未来的研究应关注提升模型的因果关系、物理动态和社会认知能力,并探索通过调整模型规模或微调训练过程来改善模型的认知能力。

🧱**直觉物理感方面**: 研究使用木块塔实验,评估模型判断塔的稳定性的能力。结果显示,GPT-4V和Claude-3的表现略高于随机水平,但远低于人类的准确率(65.6%),表明模型在复杂的物理相互作用方面仍有不足。

🔗**因果推理方面**: 研究采用Jenga积木实验和Michotte发射范式,测试模型对因果关系的理解。结果表明,模型在某些任务中表现略优于随机水平,但与人类的因果判断一致性仍显不足,表明模型在理解因果关系方面仍有待提高。

🎭**直觉心理方面**: 研究设计了宇航员任务和帮助或阻碍任务,评估模型推断场景中角色意图和行为结果的能力。结果显示,所有模型在任务复杂性递增时的表现均不及人类,表明模型在理解他人偏好和意图方面存在局限性。

🖼️**模型局限性分析**: 研究指出,模型在基础视觉处理上的局限可能是导致其认知表现不佳的原因之一,实验中使用的静态图像可能限制了任务的复杂性,因此需要更为动态性和复杂性的刺激材料来评估模型的能力。

原创 集智编辑部 2025-02-04 21:04 上海

尽管多模态语言模型在视觉数据处理上展现出一定的能力,但在和人类直觉认知对比下仍有显著不足。


关键词:多模态语言模型,直觉物理学,因果推理,直觉心理学,视觉认知




论文题目:Visual cognition in multimodal large language models

论文地址:https://www.nature.com/articles/s42256-024-00963-y

期刊名称:Nature Machine Intelligence


随着大语言模型(Large Language Models, LLMs)的崛起,研究者比较人工智能模型和人类认知能力的兴趣再次高涨。人们普遍认为深度神经网络架构无法做到像人一样思考,在因果推理、直觉物理学和直觉心理学等领域的表现一直受到质疑,但最新的多模态大语言模型(Multimodal Large Language Models, MLLMs)展示了在视觉处理上的潜力,本文通过一系列实验探讨MLLMs在上述领域的表现。





实验方法与发现




研究采用一系列经典认知科学任务来评估多模态语言模型的认知能力。



直觉物理感方面,使用了来自Lerer等人的木块塔实验,要求模型判断塔的稳定性,从而评判模型是否掌握了复杂的物理相互作用。结果显示,GPT-4V和Claude-3在稳定性判断上表现略高于随机水平,但与人类的65.6%准确率相比仍有差距。



因果推理方面,研究采用了Jenga积木实验和Michotte发射范式,要求模型判断积木的因果关系,以考验大模型对因果关系的理解。结果表明,尽管模型在某些任务中表现略优于随机水平,但和人类的因果判断一致性上仍显不足。



直觉心理方面,研究设计了宇航员任务和帮助或阻碍任务,要求模型推断场景中角色的意图和行为结果,评估其对他人偏好的直觉理解能力。结果显示,所有模型在任务复杂性递增时的表现均不及人类。此外,GPT-4V在个别任务中表现出与人类判断的微弱相关性,但整体上仍未达到人类水平。






讨论与结论




尽管多模态语言模型在视觉数据处理上展现出一定的能力,但在和人类直觉认知对比下仍有显著不足。研究指出,模型在基础视觉处理上的局限可能是导致其认知表现不佳的原因之一,以及实验中使用的静态图像可能限制了任务的复杂性,未来可以考虑使用更具动态性和复杂性的刺激材料。研究强调了需要更为健全的因果关系、物理动态和社会认知机制,以提升多模态语言模型的表现。未来的研究可以探索通过调整模型规模或微调训练过程来改善模型的认知能力。



大模型2.0读书会启动



详情请见:大模型2.0读书会:融合学习与推理的大模型新范式!



推荐阅读

1. 类脑计算模型登Nature子刊:受大脑启发的人工树突网络,实现高能效AI

2. AI学习600万人生活事件序列,预测人类生活轨迹

3. 北大发表 AI Alignment 综述:确保AI与人类价值观一致的四个关键设计原则

4. 张江:第三代人工智能技术基础——从可微分编程到因果推理 | 集智学园全新课程

5. 解锁集智全站内容,开启新年学习计划

6. 加入集智,一起复杂!



点击“阅读原文”,报名读书会

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

多模态语言模型 直觉物理学 因果推理 直觉心理学 视觉认知
相关文章