人们普遍认为,以 o1 为代表的大模型(大模型),具备强大推理能力,特别是在思维链 (思维链) 的加持下,其推理能力可被进一步增强。然而,对于大模型“涌现”推理能力的原因,科学界尚未形成定论。近期的三项实证研究对主流观点提出了质疑,证明大模型或许并不具备真正的推理能力;即便在思维链的加持下,对以推理能力见长的 o1 模型,亦是如此。
德克萨斯大学奥斯汀分校、约翰·霍普金斯大学、普林斯顿大学的研究者 [1], 进行了一项涵盖超过 100 篇使用思维链论文的定量分析,对 14 个模型、20 个数据集进行了重新评估。其结果显示,思维链的效能提升主要体现在数学或逻辑类任务上,在其他类型的任务上增益并不明显。
来自 Apple 的研究团队 [2] 得出了更令人震惊的发现:即便是面对小学难度的数学问题,大模型可能也只是虚有其表的“推理者”。该研究构建了一个名为 GSM-Symbolic 的数据集,通过对 GSM8K 数据集(内含 8000 道小学数学题)中的数字进行随机修改,发现所有主流大模型的性能均出现了显著下滑。此外,随着题设中子句数量的增加,或者添加看似相关、实则与推理步骤无关的句子,大模型的性能也会明显降低。研究者推测,原因可能在于大模型并不具备真正的逻辑推理能力;相反,它们只是试图复制其训练数据中观察到的推理步骤。
与 Apple 同期,国防科技大学、清华大学、中国科学院、新加坡科技研究局的研究者发布了另一项独立研究 [3],在不同数据集上,采用不同实验方案,获得了与 Apple 一致的实验结果。他们还从心理学角度,为这一惊人发现提供了更具可解释性的实证分析。
国防科技大学的研究对主流大模型开展了人类心理学中的认知反射测试(认知反射测试)。该类测试通常由精心设计的数学或逻辑问题组成,旨在诱导人类测试者依靠直觉(心理学称为“系统 1”)做出错误回答,唯有依靠逻辑推理(系统 2)才能够正确解答。
研究者首先在实验一中,对认知反射测试问题中的数值进行了四类修改,其中包括用字母替换数字,从而将算术问题变为代数问题(Type D)。这些修改不会改变原问题的数学原理。如果大模型具备真正的数学推理能力,能够理解数学问题的本质,则正确率不应明显下降。
但实验结果截然相反,主流大模型的平均正确率由 86.8%,锐减至 20.9%。
通过分析大模型的错误答案发现:导致错误的主要原因并非因修改数字造成计算复杂性的提升,而是解题步骤的改变,占比 93% 以上。
这说明大模型在选择解题步骤时,不仅依据题设中的文字描述来理解数学原理,还与题设中的具体数值有关,这显然与人类的逻辑推理(系统 2)截然不同。导致该现象的原因可能与大模型训练的底层机理有关,即:通过文本之间的相关性,选择生成概率较高的下一个 Token,这种“填词游戏”的机制,更类似于人类的直觉(系统 1)。
为进一步验证以上推测,研究者开展了第二项实验:在尽可能保持文字叙述相似的前提下,实质性改变原问题的数学机理。例如,
- 原问题是:“假设 5 个人缝制 5 件衣服需要 5 小时,那么 3 个人缝制 3 件衣服需要多久?”(所需时间与人数有关);新问题为:“假设 5 个人去 5 公里外的裁缝店需要 5 小时,那么 3 个人去 3 公里外的裁缝店需要多久?”(所需时间与人数无关)。
实验结果显示,即便在使用思维链的前提下,主流大模型的平均正确率由 73.3%(针对原问题),下降到 27.5%(针对新问题)。且其中 52.8% 的错误,是由于沿用原问题的解题步骤导致的。这说明,大模型未能察觉新问题的数学原理已经发生实质性改变,仅凭文字叙述的相似性,选择了与原问题相同的解题步骤。
研究者还对以推理能力著称的 o1 模型进行了相同实验。结果显示,o1 虽然在实验一中的表现较好,但在实验二中的表现仍然差强人意。
这说明,o1 所经历的、以提升推理能力为目的微调,未能从根本上提升其理解数学问题的能力。原因可能在于大模型的学习范式并没有发生根本改变(仍然是基于文本组合概率的填词游戏),导致大模型的思维模式根深蒂固,即:更类似于人类直觉(系统 1),而非逻辑推理(系统 2)。
上述三项独立研究,通过多元化的视角、针对不同特性的数据集设计了差异化的实验方案,得到了相互印证的颠覆性结论。这些实证反例,有助于人们对思维链和大模型推理能力的局限性形成更客观的认识,降低当前关于“大模型能力或已接近通用人工智能(通用人工智能)”的过度乐观预期。