Cnbeta 06月08日 17:37
苹果炮轰AI推理模型:全是假思考 所谓思考只是一种假象
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

苹果公司近期发布研究论文,质疑DeepSeek、o3-mini、Claude 3.7等大模型的推理能力,认为它们本质上是模式匹配,而非真正思考。研究团队通过设计汉诺塔、跳棋交换等四类谜题,发现模型在问题变难时,思考深度反而下降,并在超过一定复杂度后性能崩溃。此研究引发对现有评估方法和模型推理机制的讨论,尽管Apple Intelligence在2024年WWDC上亮相,但部分功能延期或下架。有评论指出,该研究旨在推动建立更完善的推理评估体系。

🤔 苹果研究的核心观点是,现有大模型如DeepSeek、o3-mini和Claude 3.7等,其推理能力可能被高估,本质上是模式匹配,而非真正意义上的思考。

🧩 为了测试模型的推理能力,苹果团队设计了汉诺塔、跳棋交换、过河问题、积木世界四类谜题,并可以精确控制谜题难度。

📉 研究结果显示,随着问题难度增加,模型的思考深度反而下降,当问题复杂度超过某个临界点时,模型性能会崩溃,准确率急剧下降。

💡 苹果团队认为,现有的评估主要集中在答案的正确性,而忽略了“思考过程质量”,例如中间步骤的逻辑一致性。

📢 论文的发布引发了对现有评估方法和模型推理机制的讨论,也暗示了苹果在AI领域的技术发展方向,呼吁设立更好的推理机制和评估办法。

苹果近日发表了一篇研究论文,称推理模型全都没真正思考,无论DeepSeek、o3-mini还是Claude 3.7都只是另一种形式的“模式匹配”,所谓思考只是一种假象。有人总结到:苹果刚刚当了一回马库斯,否定了所有大模型的推理能力。

苹果团队认为,现有评估主要集中在既定的数学和编码基准上,看模型最终答案是否正确,但可能存在模型训练时见过类似题目。

并且,这些评估大都缺乏对“思考过程质量”的分析,比如中间步骤是否逻辑一致、是否绕弯路等。

为了更客观测试推理模型的推理能力,他们设计了4类谜题环境:汉诺塔、跳棋交换、过河问题、积木世界,并且这4类谜题的难度可以精确控制.

随着问题变难,推理模型初始会延长思考,但随后思考深度反而下降,尽管仍有充足token预算,它们却在最需要深入思考时选择了放弃!

并且,当问题复杂度继续增加并超过某个临界点时,无论是推理模型还是标准模型都会经历完全的性能崩溃,准确率直线下降至零。

对此,有网友讽刺到:“苹果拥有最多的资金,2年了也没有拿出像样的成果,现在自己落后了,却来否定别人的成果。”

据悉,Apple Intelligence在2024年WWDC正式亮相,在这一年里,苹果宣传中的许多功能都经历延期、不够完善甚至被下架。

不过也有人指出,这篇论文没有看上去那么消极,而是呼吁设立更好的推理机制和评估办法。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

苹果 大模型 推理能力 模式匹配 AI评估
相关文章