IT之家 前天 07:57
AI 推理能力之争:苹果结论遭专家挑战
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

苹果公司近期发布的AI研究论文《The Illusion of Thinking》引发广泛讨论,研究指出先进的大型推理模型在复杂任务中表现不佳。然而,Open Philanthropy研究员Alex Lawsen反驳称,苹果的结论可能源于实验设计缺陷,而非模型本身的推理能力不足。Lawsen指出苹果忽略了Token预算限制、评估中包含无解谜题,以及自动化评估脚本的局限性。通过重新设计实验,Lawsen发现模型在生成算法解法方面表现出色,挑战了苹果的“零成功”结论,引发了对AI模型评估方法的深入思考。

🤔苹果论文的核心观点是,即使是最先进的大型推理模型在处理如汉诺塔等复杂任务时也会失败,这引发了对模型推理能力的质疑。

💡Alex Lawsen 认为苹果的结论源于实验设计缺陷。他指出,苹果的研究忽视了模型的Token预算限制,导致模型在处理复杂问题时因输出限制而失败。

🧩Lawsen 进一步指出,苹果的River Crossing测试中包含无解谜题,模型因无法解答而被扣分。此外,自动化评估脚本未能区分推理失败与输出截断。

🚀Lawsen 重新设计了汉诺塔测试,要求模型生成递归Lua函数来打印解法。结果显示,Claude、Gemini和OpenAI的o3模型均能正确生成15盘问题的算法解法,证明了模型在算法生成层面的推理能力。

IT之家 6 月 14 日消息,科技媒体 9to5Mac 昨日(6 月 13 日)发布博文,报道称苹果公司 6 月 6 日发布的 AI 研究论文《The Illusion of Thinking》引发争议,专家质疑评估方法。

苹果公司在论文中指出,即便是当前最先进的大型推理模型(LRMs),在复杂任务中也会崩溃。不过 Open Philanthropy 的研究员 Alex Lawsen 对此提出详细反驳,认为苹果的结论源于实验设计缺陷,而非模型推理能力的根本性局限。

争议的焦点是苹果论文指出,即便是当前最先进的大型推理模型,在处理汉诺塔问题(Tower of Hanoi)等复杂任务时,也会出现彻底失败的情况。

IT之家注:汉诺塔问题是一个经典的递归算法问题:上帝创造了三根柱子,并在第一根柱子上按顺序套有 N 个大小不同的圆盘(自下而上,圆盘由大到小,呈金字形)。

规定每次只能移动最顶端的一个圆盘,并且保证整个过程中大圆盘不能放在小圆盘之上。欲将所有圆盘从第一根柱子移动到第三根柱子,试给出解决方案。

Open Philanthropy 的研究员 Alex Lawsen 近日发布反驳文章《The Illusion of the Illusion of Thinking》,认为苹果的研究结果更多反映了实验设计的缺陷,而非模型推理能力的真正局限。他在文章中直言,苹果的研究混淆了输出限制和评估设置问题,与实际推理失败无关。

Lawsen 提出了三个核心问题,挑战苹果的结论。首先,他指出苹果忽略了模型的 Token 预算限制。在处理 8 盘以上的河内塔问题时,如 Anthropic 的 Claude Opus 等模型已接近输出上限,甚至明确表示“为节省 Token 而停止”。

其次,苹果的 River Crossing(过河)测试中包含无解谜题,例如 6 个以上角色搭配无法满足的船只容量限制,模型因拒绝解答而被扣分

最后,苹果的自动化评估脚本仅以完整步骤列表为标准,未能区分推理失败与输出截断,导致部分策略性输出被误判为失败。Lawsen 认为,这种僵硬的评估方式有失公允。

为支持观点,Lawsen 重新设计了河内塔测试,要求模型生成递归 Lua 函数来打印解法,而非逐一列出所有步骤。

结果令人惊讶:Claude、Gemini 和 OpenAI 的 o3 模型均能正确生成 15 盘问题的算法解法,远超苹果报告的“零成功”复杂性界限。

Lawsen 得出结论:去除人为输出限制后,LRMs 展现出处理高复杂任务的推理能力,至少在算法生成层面是如此。这表明,问题可能不在于模型本身,而在于评估方式。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

苹果 AI 推理模型 实验设计 评估方法
相关文章