原创孔某人 2025-04-01 11:38 北京

更推荐大家去看《Physics of Language Models》

Anthropic现在真的很喜欢发报告，这次它发了《Tracing the thoughts of a large language model》系列2篇。

https://www.anthropic.com/research/tracing-thoughts-language-model

内容其实没有太多新认知，更多是确认了一些我们已经知道的认知。不过它更多的意义是给出了存在性证明，并进行了消融实验。

不过，考虑到这是首次在实用意义的LLM（Claude 3.5 Haiku）上确认到这些，以及大部分读者可能已经不记得这些了，所以这里再简单评一下。

参考阅读：

论文解读：Physics of Language Models（面向应用层读者）【2024.7】

内容摘要

该文章中还包含两个对于更细节展开的文章链接，但这两篇的内容实在是太过细节和琐碎，大部分读者应该看不进去，我扫了一下也感觉“没有精力花费在这种地方”，里面没有更多的宏观结论了。所以本文主要就讨论它的这篇综述文里提到的一些信息。

[1] LLM内部对于概念的理解是独立于语言的，不过也仍然受英语影响较大。

这点其实大家很早就这么认为了。不同的语言共享很多结构，在前LLM时代就发现可以直接对齐不同语言之间的表达方式。LLM无师自通的强大跨语言翻译能力也是它的直接体现。

[2] LLM“一次”前向推理能考虑的范围不止局限于下一个token，它能够进行预先规划。

这虽然有点反直觉，但其实想想如果它不能实现规划的话，就无法做好我们现在让它做的很多事情了。

实际上2024年的《Physics of Language Models》的研究展示了LLM pretrain得到的模型能够在没有输出token之前就能够“心算”很多信息，甚至能够独立发现和利用一些世界上只有少数人知道的算法。

LLM确实能够找到它自己解决一些问题的方式，无需人类进行演示，不过问题是这需要昂贵的pretrain。

[3] LLM输出的解释并不能代表它的实际思考方式。

这个也很反直觉，但其实人也是如此的。很多时候做事和判断都是凭借直觉，在需要给出理由时才开始思考如何解释。而这个解释往往是为了解释而解释，不代表当初做这个判断的实际原因。

无论是人的意识还是LLM的输出，都不能够读取自己直觉思考的过程，所以只能在自己的框架内给出某种解释。

人会思考，但不代表人知道自己是怎么思考的。类似于人知道如何吞咽，但人不知道自己的肌肉到底是如何运动来吞咽的。这方面推荐看下《理性之谜》

[4] LLM默认行为是不知道的问题拒绝回答。

这点其实我觉得有点争议。要看是pretrain模型，还是post-training之后大家一般所使用的模型。而原文没有特别区分这点，大概是后者。这个行为在pretrain模型中是否存在我感觉存疑。

包括我在内，不少技术的人都曾认为：对于LLM来说，拒绝回答并不是LLM原生具有的能力，至少在pretrain中大概不能表现为主要行为。但这个实验证明了至少对于完成了post-training的Claude 3.5 Haiku，不知道的东西拒绝回答是它的默认行为。目前前沿的LLM训练过程已经能够实现这件事。

[5] LLM在被越狱的过程中意识到了出现了需要拒绝的情况，但由于它会优先完成当前句子，所以导致越狱成功。

越狱成功相当于首先要突破模型的“前瞻规划能力”，让模型中一个套，然后模型在输出时就会“不情愿地”把输出的句子完成。

如果对于内部这相关的激活特征引入一些监督，当出现这种信号时直接终止当前回答，大概是更好的防越狱手段。

交流与合作

如果希望和我交流讨论，或参与相关的讨论群，或者建立合作，请加微信，联系方式请点击 -> 专栏简介及联系方式 2024。

本文于2025.4.1 首发于微信公众号

阅读原文

跳转微信打开

内容摘要

交流与合作

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签