最近,苹果 AI 团队的研究人员发布的一篇论文直接干爆了 AI 圈,国外关于 LLM 与 LRM(带推理能力的大模型)在低中高三个难度下的能力表现展开了盛大的讨论。

当然,其中不乏嘲讽苹果这么久还没有推出能用的 AI 产品的声音,但这不重要。
这个消息主要是让我想起来,之前在小红书上发布的文章,还没有在少数派上发布,这篇文章的整体反馈良好,值得一读。
下方原文在 2 月 19 日,发布于玉玺xi(小红书)。
推理模型的训练集相比传统模型(指不具备推理能力的文本模型),最大的区别就是在「问题-答案」之间增加了一个「推理」的部分,实质上推理模型是不会和人类一样进行思考的,而是在模仿推理的过程。

从两者的训练集中,能够看到传统模型少学了「推理过程」这个部分,因此在解决深入问题的时候,缺少能够深度匹配目标问题解决方案的能力。
【提炼】推理模型并不真的会和人类一样进行创造性思考,而是在模仿人类的思考步骤,并不具备自主意识。
人类说的话为什么容易被其他人类接受、认为是正确的?
原因在于人类在交流的时候,会说出自己的推理过程,这其实相当于一种公式化交流,因为推理过程具备基础的因果、可推导的逻辑,其他人是可以通过类似的推导过程得出相同的结论。

【提炼】人类倾向于相信自己能够通过因果关系推导出的结论。
而推理模型模仿了人类的推导逻辑和过程,并将其输出,在习惯了相信具备推理过程所得出结论的人类看来,这就是 AI 输出的结论首次能够被信任的表现。

然而需要警惕的是,如同人在推导、推理的时候,会出现逻辑滑坡等常见的推理逻辑错误的问题,AI 同样会出现推理错误,进而得出的结论是错误的情况。

而且越是完全由强化学习,而不经过监督学习的推理模型,越是容易出现这个问题,如 DeepSeek。
反而采用监督学习为主的推理模型,如 o1,在极端复杂的情况下,推理效果更可靠。
【提炼】即便 DeepSeek 大幅缩减了推理模型的训练成本,但是成本越高、模型越强的定律依然是生效的。
如果 DeepSeek R1 是完全由强化学习推动,而一点都没有经过监督学习,那么 DeepSeek R1 输出的内容也是需要警惕使用,而不是全盘接受、视为正确的。

【提炼】对拥有了模仿人类思考的能力的 AI,仍然要保留一份警惕,全盘接受 AI 输出的内容是不可取的。