苹果研究人员的一项研究表明,大型语言模型(LLM)可能不像看起来那样聪明。来自 OpenAI、谷歌、Meta 等公司的 LLM 因其令人印象深刻的推理能力而备受赞誉。但研究表明,它们所谓的智力可能更接近于“复杂的模式匹配”,而不是“真正的逻辑推理”。即使是 OpenAI 的 o1 高级推理模型也是如此。最常见的推理能力基准测试被称为 GSM8K,但由于它非常流行,因此存在数据污染的风险。这意味着 LLM 可能知道测试答案,因为它们是在这些答案上进行训练的,而不是因为它们本身的智能。为了测试这一点,该研究开发了一个名为 GSM-Symbolic 的新基准,它保留了推理问题的本质,但改变了变量,如名称、数字、复杂度,并添加了无关信息。他们发现 LLM 性能存在令人惊讶的“脆弱性”。该研究测试了 20 多个模型,包括 OpenAI 的 o1 和 GPT-4o,谷歌的 Gemma 2 和 Meta 的 Llama 3。对于每个模型,当变量发生变化时,模型的性能都会下降。当名称和变量发生变化时,准确率下降了几个百分点。正如研究人员指出的那样,OpenAI 的模型表现优于其他开源模型。然而,方差被认为是“不可忽略的”,这意味着任何真正的方差都不应该发生。然而,当研究人员在混合中添加“看似相关但最终无关紧要的陈述”时,事情变得非常有趣。为了测试 LLM 更依赖于模式匹配而不是实际推理的假设,该研究在数学问题中添加了多余的短语,以查看模型将如何反应。例如,“奥利弗星期五摘了 44 个奇异果。然后他在星期六摘了 58 个奇异果。星期天,他摘了星期五摘的奇异果数量的两倍,但其中五个比平均水平略小。奥利弗有多少个奇异果?”结果是,所有模型的性能都大幅下降。OpenAI 的 o1 预览效果最好,准确率下降了 17.5%。这仍然很糟糕,但不如微软的 Phi 3 模型糟糕,该模型的性能下降了 65%。在奇异果的例子中,该研究表明 LLM 倾向于从等式中减去五个较小的奇异果,而没有理解奇异果的大小与问题无关。这表明“模型倾向于将语句转换为操作,而没有真正理解它们的含义”,这证实了研究人员的假设,即 LLM 在推理问题中寻找模式,而不是天生理解这个概念。该研究对它的发现毫不含糊。在包括无关信息的基准测试中测试模型“暴露了 LLM 真正理解数学概念和辨别解决问题相关信息的能力方面的严重缺陷”。然而,值得一提的是,这项研究的作者是苹果公司的员工,苹果公司显然是谷歌、Meta 甚至 OpenAI 的主要竞争对手——尽管苹果和 OpenAI 有合作关系,但苹果也在开发自己的 AI 模型。也就是说,LLM 表面上缺乏正式的推理能力是不可忽视的。最终,这是一个很好的提醒,用健康的怀疑态度来抑制 AI 的炒作。
🍎 研究人员发现,大型语言模型(LLM)在推理能力方面可能存在缺陷,它们的推理能力更接近于“复杂的模式匹配”,而不是“真正的逻辑推理”。
📊 为了验证这一结论,研究人员设计了一个新的基准测试 GSM-Symbolic,它保留了推理问题的核心内容,但改变了变量,例如名称、数字和复杂度,并添加了无关信息。
📉 研究结果表明,当变量发生变化时,所有测试的 LLM 模型的性能都出现了下降,这表明它们可能更依赖于模式匹配而不是真正的理解。
🧪 研究人员还通过在数学问题中添加无关的语句来测试 LLM 的推理能力,例如“奥利弗星期五摘了 44 个奇异果,然后他在星期六摘了 58 个奇异果。星期天,他摘了星期五摘的奇异果数量的两倍,但其中五个比平均水平略小。奥利弗有多少个奇异果?”
📉 结果表明,所有模型的性能都出现了显著下降,表明它们可能没有真正理解问题的含义,而是试图根据模式进行匹配。
⚠️ 研究表明,LLM 在推理能力方面存在“严重缺陷”,它们可能无法真正理解数学概念,也无法辨别解决问题所需的必要信息。
🤔 虽然这项研究来自苹果公司,但它提醒我们,在面对 AI 技术的快速发展时,保持健康的怀疑态度非常重要。
🧐 尽管 LLM 在其他领域表现出色,但它们在推理能力方面的局限性值得我们关注,并需要进一步的研究和探索。
💡 这项研究为我们提供了一个新的视角,即 LLM 并非万能,它们在推理能力方面仍存在着挑战,需要进一步改进。
🧐 研究人员认为,LLM 的推理能力可能更接近于“复杂的模式匹配”,而不是“真正的逻辑推理”。
💡 为了测试这一结论,研究人员设计了一个新的基准测试 GSM-Symbolic,它保留了推理问题的核心内容,但改变了变量,例如名称、数字和复杂度,并添加了无关信息。
📉 研究结果表明,当变量发生变化时,所有测试的 LLM 模型的性能都出现了下降,这表明它们可能更依赖于模式匹配而不是真正的理解。
🧪 研究人员还通过在数学问题中添加无关的语句来测试 LLM 的推理能力,例如“奥利弗星期五摘了 44 个奇异果,然后他在星期六摘了 58 个奇异果。星期天,他摘了星期五摘的奇异果数量的两倍,但其中五个比平均水平略小。奥利弗有多少个奇异果?”
📉 结果表明,所有模型的性能都出现了显著下降,表明它们可能没有真正理解问题的含义,而是试图根据模式进行匹配。
⚠️ 研究表明,LLM 在推理能力方面存在“严重缺陷”,它们可能无法真正理解数学概念,也无法辨别解决问题所需的必要信息。
🤔 虽然这项研究来自苹果公司,但它提醒我们,在面对 AI 技术的快速发展时,保持健康的怀疑态度非常重要。
🧐 尽管 LLM 在其他领域表现出色,但它们在推理能力方面的局限性值得我们关注,并需要进一步的研究和探索。
💡 这项研究为我们提供了一个新的视角,即 LLM 并非万能,它们在推理能力方面仍存在着挑战,需要进一步改进。
🧐 研究人员认为,LLM 的推理能力可能更接近于“复杂的模式匹配”,而不是“真正的逻辑推理”。
💡 为了测试这一结论,研究人员设计了一个新的基准测试 GSM-Symbolic,它保留了推理问题的核心内容,但改变了变量,例如名称、数字和复杂度,并添加了无关信息。
📉 研究结果表明,当变量发生变化时,所有测试的 LLM 模型的性能都出现了下降,这表明它们可能更依赖于模式匹配而不是真正的理解。
🧪 研究人员还通过在数学问题中添加无关的语句来测试 LLM 的推理能力,例如“奥利弗星期五摘了 44 个奇异果,然后他在星期六摘了 58 个奇异果。星期天,他摘了星期五摘的奇异果数量的两倍,但其中五个比平均水平略小。奥利弗有多少个奇异果?”
📉 结果表明,所有模型的性能都出现了显著下降,表明它们可能没有真正理解问题的含义,而是试图根据模式进行匹配。
⚠️ 研究表明,LLM 在推理能力方面存在“严重缺陷”,它们可能无法真正理解数学概念,也无法辨别解决问题所需的必要信息。
🤔 虽然这项研究来自苹果公司,但它提醒我们,在面对 AI 技术的快速发展时,保持健康的怀疑态度非常重要。
🧐 尽管 LLM 在其他领域表现出色,但它们在推理能力方面的局限性值得我们关注,并需要进一步的研究和探索。
💡 这项研究为我们提供了一个新的视角,即 LLM 并非万能,它们在推理能力方面仍存在着挑战,需要进一步改进。
🧐 研究人员认为,LLM 的推理能力可能更接近于“复杂的模式匹配”,而不是“真正的逻辑推理”。
💡 为了测试这一结论,研究人员设计了一个新的基准测试 GSM-Symbolic,它保留了推理问题的核心内容,但改变了变量,例如名称、数字和复杂度,并添加了无关信息。
📉 研究结果表明,当变量发生变化时,所有测试的 LLM 模型的性能都出现了下降,这表明它们可能更依赖于模式匹配而不是真正的理解。
🧪 研究人员还通过在数学问题中添加无关的语句来测试 LLM 的推理能力,例如“奥利弗星期五摘了 44 个奇异果,然后他在星期六摘了 58 个奇异果。星期天,他摘了星期五摘的奇异果数量的两倍,但其中五个比平均水平略小。奥利弗有多少个奇异果?”
📉 结果表明,所有模型的性能都出现了显著下降,表明它们可能没有真正理解问题的含义,而是试图根据模式进行匹配。
⚠️ 研究表明,LLM 在推理能力方面存在“严重缺陷”,它们可能无法真正理解数学概念,也无法辨别解决问题所需的必要信息。
🤔 虽然这项研究来自苹果公司,但它提醒我们,在面对 AI 技术的快速发展时,保持健康的怀疑态度非常重要。
🧐 尽管 LLM 在其他领域表现出色,但它们在推理能力方面的局限性值得我们关注,并需要进一步的研究和探索。
💡 这项研究为我们提供了一个新的视角,即 LLM 并非万能,它们在推理能力方面仍存在着挑战,需要进一步改进。
🧐 研究人员认为,LLM 的推理能力可能更接近于“复杂的模式匹配”,而不是“真正的逻辑推理”。
💡 为了测试这一结论,研究人员设计了一个新的基准测试 GSM-Symbolic,它保留了推理问题的核心内容,但改变了变量,例如名称、数字和复杂度,并添加了无关信息。
📉 研究结果表明,当变量发生变化时,所有测试的 LLM 模型的性能都出现了下降,这表明它们可能更依赖于模式匹配而不是真正的理解。
🧪 研究人员还通过在数学问题中添加无关的语句来测试 LLM 的推理能力,例如“奥利弗星期五摘了 44 个奇异果,然后他在星期六摘了 58 个奇异果。星期天,他摘了星期五摘的奇异果数量的两倍,但其中五个比平均水平略小。奥利弗有多少个奇异果?”
📉 结果表明,所有模型的性能都出现了显著下降,表明它们可能没有真正理解问题的含义,而是试图根据模式进行匹配。
⚠️ 研究表明,LLM 在推理能力方面存在“严重缺陷”,它们可能无法真正理解数学概念,也无法辨别解决问题所需的必要信息。
🤔 虽然这项研究来自苹果公司,但它提醒我们,在面对 AI 技术的快速发展时,保持健康的怀疑态度非常重要。
🧐 尽管 LLM 在其他领域表现出色,但它们在推理能力方面的局限性值得我们关注,并需要进一步的研究和探索。
💡 这项研究为我们提供了一个新的视角,即 LLM 并非万能,它们在推理能力方面仍存在着挑战,需要进一步改进。
🧐 研究人员认为,LLM 的推理能力可能更接近于“复杂的模式匹配”,而不是“真正的逻辑推理”。
💡 为了测试这一结论,研究人员设计了一个新的基准测试 GSM-Symbolic,它保留了推理问题的核心内容,但改变了变量,例如名称、数字和复杂度,并添加了无关信息。
📉 研究结果表明,当变量发生变化时,所有测试的 LLM 模型的性能都出现了下降,这表明它们可能更依赖于模式匹配而不是真正的理解。
🧪 研究人员还通过在数学问题中添加无关的语句来测试 LLM 的推理能力,例如“奥利弗星期五摘了 44 个奇异果,然后他在星期六摘了 58 个奇异果。星期天,他摘了星期五摘的奇异果数量的两倍,但其中五个比平均水平略小。奥利弗有多少个奇异果?”
📉 结果表明,所有模型的性能都出现了显著下降,表明它们可能没有真正理解问题的含义,而是试图根据模式进行匹配。
⚠️ 研究表明,LLM 在推理能力方面存在“严重缺陷”,它们可能无法真正理解数学概念,也无法辨别解决问题所需的必要信息。
🤔 虽然这项研究来自苹果公司,但它提醒我们,在面对 AI 技术的快速发展时,保持健康的怀疑态度非常重要。
🧐 尽管 LLM 在其他领域表现出色,但它们在推理能力方面的局限性值得我们关注,并需要进一步的研究和探索。
💡 这项研究为我们提供了一个新的视角,即 LLM 并非万能,它们在推理能力方面仍存在着挑战,需要进一步改进。
🧐 研究人员认为,LLM 的推理能力可能更接近于“复杂的模式匹配”,而不是“真正的逻辑推理”。
💡 为了测试这一结论,研究人员设计了一个新的基准测试 GSM-Symbolic,它保留了推理问题的核心内容,但改变了变量,例如名称、数字和复杂度,并添加了无关信息。
📉 研究结果表明,当变量发生变化时,所有测试的 LLM 模型的性能都出现了下降,这表明它们可能更依赖于模式匹配而不是真正的理解。
🧪 研究人员还通过在数学问题中添加无关的语句来测试 LLM 的推理能力,例如“奥利弗星期五摘了 44 个奇异果,然后他在星期六摘了 58 个奇异果。星期天,他摘了星期五摘的奇异果数量的两倍,但其中五个比平均水平略小。奥利弗有多少个奇异果?”
📉 结果表明,所有模型的性能都出现了显著下降,表明它们可能没有真正理解问题的含义,而是试图根据模式进行匹配。
⚠️ 研究表明,LLM 在推理能力方面存在“严重缺陷”,它们可能无法真正理解数学概念,也无法辨别解决问题所需的必要信息。
🤔 虽然这项研究来自苹果公司,但它提醒我们,在面对 AI 技术的快速发展时,保持健康的怀疑态度非常重要。
🧐 尽管 LLM 在其他领域表现出色,但它们在推理能力方面的局限性值得我们关注,并需要进一步的研究和探索。
💡 这项研究为我们提供了一个新的视角,即 LLM 并非万能,它们在推理能力方面仍存在着挑战,需要进一步改进。
🧐 研究人员认为,LLM 的推理能力可能更接近于“复杂的模式匹配”,而不是“真正的逻辑推理”。
💡 为了测试这一结论,研究人员设计了一个新的基准测试 GSM-Symbolic,它保留了推理问题的核心内容,但改变了变量,例如名称、数字和复杂度,并添加了无关信息。
📉 研究结果表明,当变量发生变化时,所有测试的 LLM 模型的性能都出现了下降,这表明它们可能更依赖于模式匹配而不是真正的理解。
🧪 研究人员还通过在数学问题中添加无关的语句来测试 LLM 的推理能力,例如“奥利弗星期五摘了 44 个奇异果,然后他在星期六摘了 58 个奇异果。星期天,他摘了星期五摘的奇异果数量的两倍,但其中五个比平均水平略小。奥利弗有多少个奇异果?”
📉 结果表明,所有模型的性能都出现了显著下降,表明它们可能没有真正理解问题的含义,而是试图根据模式进行匹配。
⚠️ 研究表明,LLM 在推理能力方面存在“严重缺陷”,它们可能无法真正理解数学概念,也无法辨别解决问题所需的必要信息。
🤔 虽然这项研究来自苹果公司,但它提醒我们,在面对 AI 技术的快速发展时,保持健康的怀疑态度非常重要。
🧐 尽管 LLM 在其他领域表现出色,但它们在推理能力方面的局限性值得我们关注,并需要进一步的研究和探索。
💡 这项研究为我们提供了一个新的视角,即 LLM 并非万能,它们在推理能力方面仍存在着挑战,需要进一步改进。

Large Language Models (LLMs) may not be as smart as they seem, according to a study from Apple researchers.
LLMs from OpenAI, Google, Meta, and others have been touted for their impressive reasoning skills. But research suggests their purported intelligence may be closer to "sophisticated pattern matching" than "true logical reasoning." Yep, even OpenAI's o1 advanced reasoning model.
The most common benchmark for reasoning skills is a test called GSM8K, but since it's so popular, there's a risk of data contamination. That means LLMs might know the answers to the test because they were trained on those answers, not because of their inherent intelligence.
To test this, the study developed a new benchmark called GSM-Symbolic which keeps the essence of the reasoning problems, but changes the variables, like names, numbers, complexity, and adding irrelevant information. What they discovered was surprising "fragility" in LLM performance. The study tested over 20 models including OpenAI's o1 and GPT-4o, Google's Gemma 2, and Meta's Llama 3. With every single model, the model's performance decreased when the variables were changed.
Accuracy decreased by a few percentage points when names and variables were changed. And as the researchers noted, OpenAI's models performed better than the other open-source models. However the variance was deemed "non-negligible," meaning any real variance shouldn't have occurred. However, things got really interesting when researchers added "seemingly relevant but ultimately inconsequential statements" to the mix.
To test the hypothesis that LLMs relied more on pattern matching than actual reasoning, the study added superfluous phrases to math problems to see how the models would react. For example, "Oliver picks 44 kiwis on Friday. Then he picks 58 kiwis on Saturday. On Sunday, he picks double the number of kiwis he did on Friday, but five of them were a bit smaller than average. How many kiwis does Oliver have?"
What resulted was a significant drop in performance across the board. OpenAI's o1 Preview fared the best, with a drop of 17.5 percent accuracy. That's still pretty bad, but not as bad as Microsoft's Phi 3 model which performed 65 percent worse.
In the kiwi example, the study said LLMs tended to subtract the five smaller kiwis from the equation without understanding that kiwi size was irrelevant to the problem. This indicates that "models tend to convert statements to operations without truly understanding their meaning" which validates the researchers' hypothesis that LLMs look for patterns in reasoning problems, rather than innately understand the concept.
The study didn't mince words about its findings. Testing models' on the benchmark that includes irrelevant information "exposes a critical flaw in LLMs’ ability to genuinely understand mathematical concepts and discern relevant information for problem-solving." However, it bears mentioning that the authors of this study work for Apple which is obviously a major competitor with Google, Meta, and even OpenAI — although Apple and OpenAI have a partnership, Apple is also working on its own AI models.
That said, the LLMs' apparent lack of formal reasoning skills can't be ignored. Ultimately, it's a good reminder to temper AI hype with healthy skepticism.