原创 孔某人 2025-04-01 11:38 北京
更推荐大家去看《Physics of Language Models》
Anthropic现在真的很喜欢发报告,这次它发了《Tracing the thoughts of a large language model》系列2篇。
https://www.anthropic.com/research/tracing-thoughts-language-model
内容其实没有太多新认知,更多是确认了一些我们已经知道的认知。不过它更多的意义是给出了存在性证明,并进行了消融实验。
不过,考虑到这是首次在实用意义的LLM(Claude 3.5 Haiku)上确认到这些,以及大部分读者可能已经不记得这些了,所以这里再简单评一下。
参考阅读:
内容摘要
该文章中还包含两个对于更细节展开的文章链接,但这两篇的内容实在是太过细节和琐碎,大部分读者应该看不进去,我扫了一下也感觉“没有精力花费在这种地方”,里面没有更多的宏观结论了。所以本文主要就讨论它的这篇综述文里提到的一些信息。
[1] LLM内部对于概念的理解是独立于语言的,不过也仍然受英语影响较大。
这点其实大家很早就这么认为了。不同的语言共享很多结构,在前LLM时代就发现可以直接对齐不同语言之间的表达方式。LLM无师自通的强大跨语言翻译能力也是它的直接体现。
[2] LLM“一次”前向推理能考虑的范围不止局限于下一个token,它能够进行预先规划。
这虽然有点反直觉,但其实想想如果它不能实现规划的话,就无法做好我们现在让它做的很多事情了。
实际上2024年的《Physics of Language Models》的研究展示了LLM pretrain得到的模型能够在没有输出token之前就能够“心算”很多信息,甚至能够独立发现和利用一些世界上只有少数人知道的算法。
LLM确实能够找到它自己解决一些问题的方式,无需人类进行演示,不过问题是这需要昂贵的pretrain。
[3] LLM输出的解释并不能代表它的实际思考方式。
这个也很反直觉,但其实人也是如此的。很多时候做事和判断都是凭借直觉,在需要给出理由时才开始思考如何解释。而这个解释往往是为了解释而解释,不代表当初做这个判断的实际原因。
无论是人的意识还是LLM的输出,都不能够读取自己直觉思考的过程,所以只能在自己的框架内给出某种解释。
人会思考,但不代表人知道自己是怎么思考的。类似于人知道如何吞咽,但人不知道自己的肌肉到底是如何运动来吞咽的。这方面推荐看下 《理性之谜》
[4] LLM默认行为是不知道的问题拒绝回答。
这点其实我觉得有点争议。要看是pretrain模型,还是post-training之后大家一般所使用的模型。而原文没有特别区分这点,大概是后者。这个行为在pretrain模型中是否存在我感觉存疑。
包括我在内,不少技术的人都曾认为:对于LLM来说,拒绝回答并不是LLM原生具有的能力,至少在pretrain中大概不能表现为主要行为。但这个实验证明了至少对于完成了post-training的Claude 3.5 Haiku,不知道的东西拒绝回答是它的默认行为。目前前沿的LLM训练过程已经能够实现这件事。
[5] LLM在被越狱的过程中意识到了出现了需要拒绝的情况,但由于它会优先完成当前句子,所以导致越狱成功。
越狱成功相当于首先要突破模型的“前瞻规划能力”,让模型中一个套,然后模型在输出时就会“不情愿地”把输出的句子完成。
如果对于内部这相关的激活特征引入一些监督,当出现这种信号时直接终止当前回答,大概是更好的防越狱手段。
交流与合作
如果希望和我交流讨论,或参与相关的讨论群,或者建立合作,请加微信,联系方式请点击 -> 专栏简介 及 联系方式 2024。
本文于2025.4.1 首发于微信公众号