快科技资讯 05月19日 20:11
AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

图像推理成为AI的新挑战,一道关于立方体数量的简单题目,各大模型给出了截然不同的答案。问题核心在于大模型对最终立方体规格的理解差异。例如,o3认为是大立方体是5x5x5,而Gemini 2.5 Pro认为是4x4x4,DeepSeek和Qwen则认为是3x3x3。这种理解上的偏差导致了答案的多样性。但通过提示和多次尝试,部分模型能逐渐纠正错误。有网友认为,这并非纯粹的推理问题,而是视觉理解问题,人类也会因题目表述不清而产生困惑。因此,为AI提供更清晰的图像信息是关键。

🧩 **立方体推理难题**:一道要求计算缺失立方体数量的图像推理题,成为了考验AI的新标准,揭示了当前AI在复杂视觉理解方面的局限性。

🧠 **模型理解差异**:各大AI模型对最终立方体的规格理解不同,是导致答案差异的核心原因,反映出AI在空间推理和视觉信息处理上的挑战。

💡 **提示与学习**:通过提供提示和多次尝试,部分AI模型能够逐步改进答案,表明AI具备一定的学习和记忆能力,能整合先前的经验。

🤔 **问题定义模糊**:有观点认为,问题本身的表述不够清晰,导致AI分析过程出现偏差,甚至人类也会面临类似的困惑,暗示了AI训练数据需要更加精确和明确。

拷打AI的难度还在升级?这不,图像推理又出现了新难题。

该问题在Reddit上引起热议:目前没有任何AI能真正解决复杂推理问题。

问题定义其实非常简单——在下图中还需要添加多少个小立方体能形成一个完整的大立方体?

针对这一难题,国内外支持图像输入的大模型纷纷给出了不同的答案。

其中,o3给出的答案是45个,Gemini 2.5Pro给出的答案仅有10个。

而国内大模型,如DeepSeek、Qwen3的答案分别为14和9。

出现这些不同答案的原因是什么呢?请往下看。

为什么会出现不同的答案

核心原因:大模型对组成的大立方体的规格理解不同。

o3将最终组成的大立方体的规格理解为5x5x5,但它对于缺失的小立方体的数目仍旧给出了错误答案,用人类视觉来看,要形成5x5x5的大立方体需要125个小立方体,而图中已经给出了46个,所以答案应该为79。

而AI的错误源于它对图片中小立方体的结构和数目的分析错误。

Gemini 2.5 Pro将最终组成的大立方体的规格理解为4x4x4。

而DeepSeek和Qwen都将最终的大立方体规格设定为了3x3x3。

对于最终要组成的大立方体的规模理解不同,各大模型自然而然就会给出不同的答案。

不过,结合提示多次尝试,也有大模型能够渐渐找准方向。

网友针对这些错误答案提供了一些解决办法:

例如用o3进行测试,在前两次尝试时给出一些小提示,虽然这样也得到错误答案,但第三次,即使没有提示也得到了正确的结果。

网友认为是由于ChatGPT的长期记忆功能,让它记住了前两次尝试的提示(比如考虑最长运行中有多少个立方体,专注于严格计数而不是估计),考虑到了失败的经验,并将它们全部整合在一起。

因此,可以说o3会通过记忆来学习。而这道难题也会成为未来的训练数据。

网友:人类也会困惑

有人说,这根本就不是一个推理问题,而是一个视觉理解问题。

出现作者认为的错误答案是由于问题表述不清楚导致AI的分析过程出现了偏差。

甚至人类面对这种问题也会出现类似的困惑,比如题目的要求到底是以原来的排列结构为基础还是可以打乱结构重新排列?

并且,如果能够更清晰地为AI解释图片内容(告知其图片中小立方体的排列结构):

那么o3得到的答案也是正确的:

无论是3x3x3、4x4x4还是5x5x5,或者是NxNxN,人类自己都无法统一答案的问题,对AI来说是不是太难了点!

网友:

AI:或许我需要一个更科学的训练方式!

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

图像推理 AI模型 立方体 视觉理解
相关文章