孔某人的低维认知 04月09日 18:22
简评Anthropic的 追踪大型语言模型的思维
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文主要讨论Anthropic发布的报告中综述文提到的信息,包括LLM对概念的理解、前向推理能力、输出解释、默认行为及防越狱手段等方面

🧠LLM内部对概念的理解独立于语言,但受英语影响较大

🎯LLM一次前向推理能预先规划,且能自行解决一些问题,但pretrain成本高

🤔LLM输出的解释不代表实际思考方式,这与人有相似之处

🙅‍LLM完成post-training后,不知道的问题拒绝回答是默认行为

🛡LLM在越狱中会因优先完成当前句子而导致越狱成功,需引入监督终止回答来防越狱

原创 孔某人 2025-04-01 11:38 北京

更推荐大家去看《Physics of Language Models》

Anthropic现在真的很喜欢发报告,这次它发了《Tracing the thoughts of a large language model》系列2篇。

https://www.anthropic.com/research/tracing-thoughts-language-model

内容其实没有太多新认知,更多是确认了一些我们已经知道的认知。不过它更多的意义是给出了存在性证明,并进行了消融实验。

不过,考虑到这是首次在实用意义的LLM(Claude 3.5 Haiku)上确认到这些,以及大部分读者可能已经不记得这些了,所以这里再简单评一下。

参考阅读:

论文解读:Physics of Language Models(面向应用层读者)【2024.7】

内容摘要

该文章中还包含两个对于更细节展开的文章链接,但这两篇的内容实在是太过细节和琐碎,大部分读者应该看不进去,我扫了一下也感觉“没有精力花费在这种地方”,里面没有更多的宏观结论了。所以本文主要就讨论它的这篇综述文里提到的一些信息。

[1] LLM内部对于概念的理解是独立于语言的,不过也仍然受英语影响较大。

这点其实大家很早就这么认为了。不同的语言共享很多结构,在前LLM时代就发现可以直接对齐不同语言之间的表达方式。LLM无师自通的强大跨语言翻译能力也是它的直接体现。

[2] LLM“一次”前向推理能考虑的范围不止局限于下一个token,它能够进行预先规划。

这虽然有点反直觉,但其实想想如果它不能实现规划的话,就无法做好我们现在让它做的很多事情了。

实际上2024年的《Physics of Language Models》的研究展示了LLM pretrain得到的模型能够在没有输出token之前就能够“心算”很多信息,甚至能够独立发现和利用一些世界上只有少数人知道的算法。

LLM确实能够找到它自己解决一些问题的方式,无需人类进行演示,不过问题是这需要昂贵的pretrain。

[3] LLM输出的解释并不能代表它的实际思考方式。

这个也很反直觉,但其实人也是如此的。很多时候做事和判断都是凭借直觉,在需要给出理由时才开始思考如何解释。而这个解释往往是为了解释而解释,不代表当初做这个判断的实际原因。

无论是人的意识还是LLM的输出,都不能够读取自己直觉思考的过程,所以只能在自己的框架内给出某种解释。

人会思考,但不代表人知道自己是怎么思考的。类似于人知道如何吞咽,但人不知道自己的肌肉到底是如何运动来吞咽的。这方面推荐看下 《理性之谜》

[4] LLM默认行为是不知道的问题拒绝回答。

这点其实我觉得有点争议。要看是pretrain模型,还是post-training之后大家一般所使用的模型。而原文没有特别区分这点,大概是后者。这个行为在pretrain模型中是否存在我感觉存疑。

包括我在内,不少技术的人都曾认为:对于LLM来说,拒绝回答并不是LLM原生具有的能力,至少在pretrain中大概不能表现为主要行为。但这个实验证明了至少对于完成了post-training的Claude 3.5 Haiku,不知道的东西拒绝回答是它的默认行为。目前前沿的LLM训练过程已经能够实现这件事。

[5] LLM在被越狱的过程中意识到了出现了需要拒绝的情况,但由于它会优先完成当前句子,所以导致越狱成功。

越狱成功相当于首先要突破模型的“前瞻规划能力”,让模型中一个套,然后模型在输出时就会“不情愿地”把输出的句子完成。

如果对于内部这相关的激活特征引入一些监督,当出现这种信号时直接终止当前回答,大概是更好的防越狱手段。


交流与合作

如果希望和我交流讨论,或参与相关的讨论群,或者建立合作,请加微信,联系方式请点击 -> 专栏简介 及 联系方式 2024

本文于2025.4.1 首发于微信公众号

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

语言模型 LLM 概念理解 默认行为 防越狱
相关文章