一项新研究表明,当前大型语言模型(LLM)可能缺乏类似人类的工作记忆能力。研究通过一系列实验,测试了LLM在数字选择、物体比较和复杂运算等任务中的表现。结果显示,LLM在需要内部存储和处理信息的任务上表现不佳,这可能导致其产生逻辑矛盾和事实错误。研究强调,LLM的上下文窗口与人类工作记忆存在本质区别,并提出了未来人工智能发展方向的思考。
🤔 研究通过实验测试LLM在“心里想一个数字”任务中的表现,发现LLM的回答概率总和接近于0,表明它们可能并未真正“记住”数字,而是缺乏维持内部状态的能力。
🧐 在物体比较实验中,LLM在回答一系列问题时容易出现自相矛盾,这表明它们并非真正在“想象”物体,而是通过检查之前的回答来维持一致性,但这种一致性难以持久。
🤯 复杂的“数学魔术”实验进一步证实了LLM缺乏工作记忆。即使是配备高级推理能力的模型,准确率也远低于人类水平,且表现出对数字7的偏好,而非真正理解任务。
KIK 2025-06-17 15:08 北京
当一个大型语言模型(LLM,Large Language Model)被要求“在心里想一个数字”并确认完成后,它是否真的在内部“记住了”这个数字?来自美国约翰斯·霍普金斯大学和中国人民大学的研究团队通过一项新研究指出,答案可能是否

当一个大型语言模型(LLM,Large Language Model)被要求“在心里想一个数字”并确认完成后,它是否真的在内部“记住了”这个数字?来自美国约翰斯·霍普金斯大学和中国人民大学的研究团队通过一项新研究指出,答案可能是否定的。图丨当 ChatGPT 说它已经想好了一个数字,而且不是 4,我们如何知道 ChatGPT 是否在说谎?(来源:arXiv)
这篇发表于 arXiv 预印本平台的论文《大型语言模型不具备类人工作记忆》(LLMs Do Not Have Human-Like Working Memory),通过一系列实验论证,当前主流的 LLM 虽然在处理语言任务上表现出色,但它们普遍缺乏一种对高级认知至关重要的能力——工作记忆。
图丨相关论文(来源:arXiv)
这项研究认为,LLM 的许多行为,如产生矛盾信息或在复杂推理中失败,其根本原因可能在于它们无法像人类一样,在内部主动地、临时地存储和处理信息。
在认知科学中,工作记忆是一个核心概念。它指的是一个容量有限的系统,负责在执行思考、推理、学习等复杂任务时,临时性地存储并主动处理相关信息。例如,在不使用纸笔进行心算时,大脑就需要依靠工作记忆来暂存中间计算结果。这是一个主动、内化的心理过程。研究人员强调,LLM 所依赖的“上下文窗口”与工作记忆存在本质区别。上下文窗口允许模型在生成回应时,回顾之前的对话历史。这更像是一种被动的查阅,所有信息都以文本形式外在地、明确地存在。相比之下,人类的工作记忆是在没有外部提示的情况下,于内部对信息表征进行操纵。当前对 LLM 能力的评估,很多时候混淆了这两种机制。
为了准确评估 LLM 是否具备内化的工作记忆,研究团队设计了三个实验,其共同点在于,要求模型处理的信息并不直接存在于其可访问的上下文(prompt)中。第一个实验简单而犀利。研究团队让各种 LLM“在心中想一个 1 到 10 之间的数字”,然后分别询问是否为每个特定数字。关键在于数学逻辑:如果模型真的选择了一个数字并诚实回答,那么所有“是”回答的概率总和应该接近 1。这是因为在 200 次独立测试中,如果模型每次都真的选择一个数字,那么对所有可能数字的"是"回答频率加起来应该大致等于 100%。结果发现。在测试的众多模型中,大部分的概率总和接近于 0。例如,GPT-4o-Mini、GPT-4o 的多个版本以及 Qwen 系列模型,它们对所有数字的“是”回答概率加起来都是 0,这意味着它们几乎从不给出肯定回答。即使是表现相对较好的模型,如 LLaMA-3.1-405B,其概率总和也达到了 1.195,超过了理论上限。
图丨每个模型对从 1 到 10 的所有数字回答“是”的概率之和。颜色强度反映与 1 的接近程度:红色表示更接近零的值,而蓝色表示大于 1 的值(来源:arXiv)
这种现象表明什么?要么这些模型根本没有真正“想”任何数字,要么它们在某种程度上“撒谎”了。更可能的情况是,它们缺乏维持内部状态的能力,无法在对话过程中保持一个一致的心理表征。团队还发现,当模型确实给出“是”的回答时,它们表现出对数字 7 的强烈偏好。这种现象在人类中也存在——心理学研究表明,当被要求随机选择一个数字时,人们往往倾向于选择 7。但在 LLM 中,这种偏向可能并非来自真正的认知过程,而是训练数据中的统计规律。
研究者还测试了不同数字范围的影响。令人困惑的是,当范围较小(如 1-3 或 1-5)时,某些模型反而表现出强烈的“是”倾向,概率总和远大于 1。而当范围较大(如 1-40)时,模型又几乎不给出任何“是”的回答。这种不一致的表现进一步证实了 LLM 缺乏稳定的内部状态管理能力。第二个实验更加接近真实的认知测试。研究者让模型想象一个物体,然后问一系列比较性问题,比如“这个物体比大象重吗?”、“它比猫轻吗?”等等。如果模型真的在“想象”一个具体物体,它应该能够保持回答的一致性。研究团队预先定义了 60 种不同的物体,按照体积、长度、重量、密度和硬度五个属性进行排序。然后持续向模型提出多达 250 个比较问题,记录模型在第几个问题时出现自相矛盾。结果显示,较小的模型(如 GPT-4o-Mini)几乎总是出现自相矛盾,200 次试验全部失败。即使是更大的模型 GPT-4o,也只有 27 次试验(13.5%)没有出现矛盾。更重要的是,模型出现矛盾的时机呈现出一定的规律性:GPT-4o-Mini 通常在 20-30 个问题后开始自相矛盾,而 GPT-4o 能坚持到 30-40 个问题。
图丨两个模型出现自相矛盾问题的数量的直方图(来源:arXiv)
这种渐进式的失败模式揭示了一个关键问题:LLM 并非真正在“想象”一个物体,而是试图通过检查之前的回答来保持一致性。随着问题数量的增加,维持一致性变得越来越困难,最终导致逻辑矛盾。研究者形象地描述道,模型可能会先说某个物体比汽车大,后来又说它比足球小。第三个实验是最复杂的。研究者设计了一个基于著名的约瑟夫问题的“数学魔术”,要求模型在心中想象四个数字,然后执行一系列复杂的操作:复制、旋转、移除等等。由于数学约束,最终剩下的两个数字理论上应该相同。这个任务需要模型在多个步骤中维持和操作内部状态,是对工作记忆能力的终极测试。结果再次印证了研究者的假设:大多数模型在这个任务上表现极差,准确率通常只有 0-20%,仅略高于随机猜测的基线(10%)。图丨模型在“数学魔术”上的表现(来源:arXiv)
即使是配备了高级推理能力的模型,如 OpenAI 的 o1 系列,也只能达到 16.7% 的准确率。表现最好的是 DeepSeek-R1,达到了 39.3% 的准确率,但这仍然远低于人类的表现水平。有意思的是,研究者发现模型在这个任务中也表现出对数字 7 的偏好。在 DeepSeek-R1 的 59 次正确回答中,有 48 次(81.4%)涉及数字 7,这进一步表明模型可能并不是真正理解任务,而是依赖于训练中形成的数字偏好。研究者还测试了当前最流行的提升 AI 推理能力的方法——思维链(CoT,Chain-of-Thought)推理。这种方法要求模型逐步展示其思考过程,理论上应该能帮助模型更好地管理复杂任务。然而,实验结果显示,即使使用 CoT 推理,模型在工作记忆相关任务上的表现也没有显著改善。在数学魔术实验中,使用 CoT 的 GPT-4o 准确率从 4.7% 提升到 21.3%,虽有改善但仍然很低。这表明,简单地要求模型“展示思考过程”并不能弥补其根本的认知局限性。尽管整体表现不佳,研究中还是发现了一些有趣的差异。Meta 的 LLaMA 系列模型在某些测试中表现相对较好,特别是在数字猜测游戏中。LLaMA-3.1-8B 甚至超越了更大的 70B 和 405B 版本,这表明模型大小并不总是决定性因素。图丨LLMs 在“数学魔术”上使用 CoT 或 LRM 的表现(来源:arXiv)
另一个令人意外的发现是,较新的模型版本并不一定比旧版本表现更好。在 GPT-4o 系列中,2024 年 8 月版本在数字猜测任务中表现最佳,超过了 11 月版本和最新的 GPT-4.1。这说明,在追求更强大的语言能力时,可能无意中削弱了其他认知功能。综合这三个实验,该研究得出结论:当前的大型语言模型作为一个类别,并不具备类人的工作记忆。它们在需要内部表征和操纵瞬时信息的任务上,表现出系统性的失败。它们的强大能力更多地体现在处理和生成基于显式上下文的文本,而非进行内化的、主动的思考。
而这一发现或许也为我们理解当前 LLM 的一些能力局限提供了具体的证据。模型产生的逻辑矛盾、事实错误等问题,可能并只是因为“幻觉”,而因为其认知架构中缺少工作记忆这一核心组件的直接体现。因此,未来人工智能领域的发展,或许需要将研究重点从单纯扩大模型规模,转向探索能够整合有效工作记忆机制的新型模型架构。参考资料:1.https://arxiv.org/pdf/2505.10571v1运营/排版:何晨龙01/ 模型到底是真编程还是背代码?斯坦福团队打造开源基准库,模型科研编程能力一测便知
02/ 在美国死亡谷成功“造水”,MIT团队打造大气水收集器,成功生成161.5毫升锂离子浓度低于0.06ppm的安全用水
03/ 科学家提出动力学扩展定律,让稀疏注意力问题解决率最高提高60%,支持更长的文本生成
04/ 首个金属核轮烯分子问世,南科大团队合成全新金属轮烯化合物,有望用于高性能电子器件等
05/ 仅需一百GPU时,科学家拆掉大模型融合“三堵墙”,可基于任何开源模型打造更强模型












阅读原文
跳转微信打开