IT之家 前天 16:18
苹果最新研究:现有 AI 大模型“更像是在记忆,而非真正的推理”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

苹果公司的研究表明,当前大型推理模型(LRMs)在复杂任务上的推理能力存在根本性局限。尽管这些模型在生成详细的“思考链”和中等复杂度任务上表现出色,但当问题复杂度超过特定阈值时,其性能会急剧下降,甚至完全失效。研究人员通过可控的解谜环境,深入分析了模型的内部推理轨迹,发现模型在执行精确计算和跨不同谜题推理时存在不一致性。这项研究质疑了现有评估范式,并强调需要更细致的实验来探索AI推理的本质。

🤔 研究核心:苹果研究人员评估了如OpenAI、DeepSeek、Anthropic和谷歌等公司的大型推理模型(LRMs),发现它们依赖模式匹配与记忆,而非真正的思维或推理能力。

📉 性能瓶颈:当问题复杂度超过特定临界点时,LRMs的性能会崩溃至“零准确率”,即使有充足的算力,用于“思考”的token数量反而会随难度上升而减少。

🧩 研究方法:研究人员采用可控的解谜环境,精确操纵问题复杂度,并分析内部推理轨迹。这使得他们能够深入了解模型是如何“思考”的,而不仅仅是关注最终答案的准确性。

🔍 发现:研究表明,LRMs在执行精确计算方面存在局限性,且跨不同谜题进行推理时表现出不一致性。这突出了现有LRMs的优点和局限性,引发了关于这些系统推理本质的讨论。

💡 启示:这项研究不仅质疑了当前基于数学基准的LRMs评估范式,还强调需要更细致的实验设置。为未来的研究指明了方向,对LRMs的设计和部署具有重要意义。

IT之家 6 月 8 日消息,苹果机器学习研究中心于当地时间 6 月 6 日发表了一篇研究论文,称现有 AI 模型并不具备真正的思维能力或推理能力,而是依赖于模式匹配与记忆,尤其是对于复杂的任务而言。

苹果研究人员对现有的前沿“大型推理模型”—— 如 OpenAI o3-mini、DeepSeek-R1、Anthropic 的 Claude 3.7 Sonnet Thinking 和谷歌 Gemini Thinking—— 进行了系统评估。

研究发现,尽管这些模型具备生成详细“思考链”的能力,并在中等复杂度任务上表现出优势,但其推理能力存在根本性局限:当问题复杂度超过特定临界点时,模型性能会完全崩溃至“零准确率”。

此外,在模型推理过程中,即使仍有充足的推理算力,它们用于“思考”的 token 数量反而随难度上升而减少,这种现象意味着现有推理方法存在根本局限性。

这篇《思考的幻象:通过问题复杂性的视角理解推理模型的优势与局限》由 Parshin Shojaee 等人撰写。研究表明,当前业界对这些模型的评估主要集中在数学和编程基准测试上,关注最终答案的准确性,但这往往忽略了数据污染问题,也无法提供有关内部推理轨迹结构和质量的洞见。

研究人员采用了一系列可控的解谜环境,允许精确操纵组成复杂性,同时保持逻辑结构的一致性。这使得不仅可以分析最终答案,还可以探究内部推理轨迹,从而更深入地了解这些模型是如何“思考”的。

研究团队提出,模型表现可分为三个阶段:

特别是,研究发现 LRMs 在执行精确计算方面存在局限性,无法使用显式算法且跨不同谜题进行推理时表现出不一致性。

总的来说,这项研究不仅质疑了当前基于已建立数学基准的 LRMs 评估范式,还强调了需要更加细致的实验设置来探索这些问题。通过使用可控制的谜题环境,本研究提供了对语言推理模型能力和局限性的深刻见解,并为未来的研究指明了方向。

研究人员表示,“这些发现突出了现有 LRMs 的优点和局限性,引发了关于这些系统推理本质的问题,这对它们的设计和部署具有重要意义。”

参考资料:

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI推理 大型推理模型 苹果研究 模型评估 问题复杂度
相关文章