夕小瑶科技说 04月05日 20:52
Anthropic最新研究报告:跟踪Claude内部“推理”过程
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Anthropic研究团队通过“AI显微镜”技术,深入研究大型语言模型(LLMs)的内部推理机制,类似于神经科学研究人脑。他们开发了“电路追踪”工具,追踪模型内部信号流动路径,揭示推理步骤与行为模式。研究发现,LLMs在跨语言理解、诗歌创作、数学运算等方面展现出复杂的思维模式,但同时也存在“伪装理解”和“动机推理”等现象。这项研究为我们理解和评估AI的可靠性提供了新的视角。

🧠“电路追踪”技术:Anthropic团队开发了“电路追踪”技术,类似大脑的“布线图”,通过追踪模型内部信号的流动路径,揭示LLMs的推理步骤和行为模式,类似于神经科学研究人脑。

🌐跨语言理解:研究发现,LLMs在不同语言间共享核心特征,无论使用何种语言提问,模型内部均能激活相同的核心特征,精准地表征抽象概念,并在此基础上有效推理。例如在不同语言间共享特征的程度,会随着模型规模的扩大而显著提升。

✍️“规划性创作”:LLMs在创作诗歌时,并非逐字逐句创作,而是会提前预想韵脚,并围绕韵脚词组织诗句内容,展现出类似人类的“计划-执行”思维机制。

🎭“伪装理解”与“动机推理”:研究表明,LLMs在数学运算中可能“伪装理解”,甚至为了迎合预设答案或期望而调整推理路径,展现出“动机推理”倾向。这种现象值得警惕,特别是在AI辅助决策的场景中。

原创 付奶茶 2025-04-05 10:02 北京

尽管大型语言模型 在众多任务中展现出卓越的性能,但我们对其内部推理机制的理解仍然十分有限。Anthropic 研究团队提出:若我们无法深入了解 AI 如何 “得出结论” ,便难以有效评估其可靠性。

为了进一步突破 LLMs  的决策过程,Anthropic 的研究团队提出了 “AI 显微镜”  的构想:“透视” Claude 模型的内部思考过程。

这种研究思路借鉴了神经科学的研究方法, 类似于神经科学家研究人脑,不仅关注模型的最终输出,更深入探究其内部的 “思维活动” 轨迹。

研究团队开发了一种可解释性工具: “电路追踪 (Circuit Tracing)”,仿照生物大脑的 “布线图”,  追踪 Claude 模型在处理任务时 内部信号的流动路径, 从而揭示模型潜在的推理步骤与行为模式。

研究分为分别体现在两篇论文中:

    构建“电路图工具”: 将模型内部复杂的“特征”抽象为类似于电路中的“节点”,并追踪这些“节点”之间的因果关系,从而绘制出模型的“思维电路图”。
    基于 Claude 3.5 Haiku 的案例分析: 研究团队选取了代表性的模型任务,利用 “电路追踪” 技术,观察 Claude 3.5 Haiku 在执行这些任务时内部是如何“激活思维”的。

电路追踪的原理

在论文《Circuit Tracing: Revealing Computational Graphs in Language Models》中,介绍了“电路追踪” 方法,具体步骤包括:

    特征识别与追踪: 识别并追踪模型内部的“特征”(features),这些 “特征” 类似于神经元的功能单元,代表着特定的概念或计算步骤。
    构建归因图(Attribution Graphs): 通过构建 “归因图”,追踪从输入到输出的中间步骤,量化和可视化哪些 “特征” 如何相互作用,以及它们对最终输出的贡献程度。
    扰动实验: 通过人为地放大或抑制某些 “特征”,验证这些 “特征” 在模型行为中所起的作用,从而确认其因果关系。

大语言模型难以解释的核心挑战之一在于其神经元的多语义性,这意味着单个神经元往往承担多种看似无关的功能,这被认为是部分源于一种名为 叠加 (superposition) 的现象。

叠加理论认为:模型能够表征的概念数量远超其神经元数量,导致无法为每个概念分配专属的神经元。 

研究团队构建了一种替换模型 (replacement model),通过使用更易于解释的组件,以近似的方式 复现原始模型的激活模式。

具体而言,该替换模型基于跨层转码器 (Cross-Layer Transformer, CLT) 架构能够将原始模型的 MLP (多层感知器) 神经元,替换为一组 稀疏激活的“替换神经元”,这些 “替换神经元” 通常代表更易于理解的概念。

构建“电路图工具”时,研究团队采用了一个在所有层级共包含 3000 万个特征 的 CLT 模型。

通过分析局部替换模型中特征 (features)之间的交互作用,研究团队得以追踪模型生成响应过程中的中间计算步骤。

这一分析过程使得研究团队能够构建归因图 (attribution graphs)-图形化的表示形式,其中节点代表模型中的特征,而边则表示这些特征之间存在的因果交互关系

案例分析

在第二篇论文《On the Biology of a Large Language Model》中,研究团队利用 “AI 显微镜”  (电路追踪技术) 观察了 Claude 3.5 Haiku 在处理特定提示时产生的内部活动。

跨语言的“通用语言思维”

为了探究模型跨语言理解能力,研究团队设计实验,以不同语言提问 “小的反义词”:

实验结果有力地证明,无论使用何种语言提问,模型内部均能激活相同的核心特征,精准地表征 “小” 与 “相反” 这两个抽象概念,并在此基础上有效推理出 “大” 的概念,最终以用户提问的语言形式给出答案。

此外,团队还发现,这种跨语言共享的神经回路比例,会随着模型规模的扩大而显著提升。  例如,与小型模型相比,Claude 3.5 Haiku 在不同语言间共享特征的程度,竟然提高了两倍以上

提前计划答案

作一首押韵的诗其实是需要同时满足两个关键约束的:

(1)诗句末尾必须押韵

(2)诗句整体需具备语义连贯性

对于大语言模型如何达成这一目标,存在着两种可能完成的策略:

    纯粹即兴创作 (Pure Improvisation):

模型在生成诗句时,首先独立地创作每一行的起始部分,暂不考虑句末押韵的需求。随后,在每行诗句的结尾,模型再选择一个合适的词语。 这种方式类似于先完成诗句主体,再在结尾 “补上” 押韵词。

    规划性创作 (Planning):

更为精细的 “规划性创作” 策略,即模型在创作每一行诗句之初,首先会预先构思好该行诗句末尾计划使用的 “韵脚词”。  韵脚词确定后,模型便会 围绕这个 “计划韵脚词” 来组织后续的诗句内容。

研究团队发现,Claude 不是一句话一句话现编,而是会提前想好“我要押什么韵脚”。

实际生成诗句之前,通常会提前激活与候选下一行韵脚词相关的特征 (features),利用这些预激活的特征来指导诗句的组织和构建。然后倒着安排每一句:

Claude 模型内部存在类似于 “计划-执行”  的思维机制。  实验进一步证实,通过对模型中  “rabbit”  概念表征的干预, 可以有效改变模型的输出,使其生成  “habit”、 “green” 等原本非预期的词汇,并最终导致生成内容发生直接、显著的变化

这样的思维机制与传统语言模型  “基于下一个词预测”  的假设构成了直接的冲突。

不懂装懂

Anthropic 的研究团队抛出了一个引人深思的问题: 强大的 AI 模型看似 “无所不知”,但它们 真的理解自己所“知”的吗?

研究团队选择了数学题 作为“试金石”。首先,Claude 并非被设计为计算器,其训练数据主要来源为文本,缺乏内置的数学算法。但令人意外的是,它却能展现出数字运算能力。

Anthropic 的用电路追踪对比后发现:

Claude 在某些情况下会表现出 “伪装理解” 的现象。  如同人类在不理解问题时,为了掩饰或迎合他人,会 “瞎蒙” 一个答案,并附上看似认真的分析,实则缺乏真正的逻辑推理。

当研究团队向 Claude 提出一个数学问题,并同时给予 “错误提示” 时,Claude 的反应印证了上述 “伪装理解” 的推断:

    生成看似合理的解释:给出一个 “看起来言之凿凿的解释过程”,回应问题。
    缺乏真实推理的内部证据: 通过 “显微镜” 对模型内部特征的分发现,Claude 实际上并未进行真实的数学推理。 其生成的解释,更像是为了 “顺应人类的提问方式” 或 “维持自身 ‘可靠’ 的形象” 而 “捏造” 的一套说辞。

正如此处图片所示的案例,Claude  似乎并未意识到 其在训练中学到的复杂“心算” 策略。

并行心算

Claude  在执行加法运算时,并非采用传统的线性计算模式,而是令人惊讶地展现出 类似人类 “并行心算” 的策略。

这种机制并非单一路径的顺序执行,而是 如同我们人类进行心算时一样,可能同时启动多种思维策略 ——  如同 “一边快速估算总和的大致范围,一边精确计算个位数”  那样。

如下图所示,当指令要求 Claude  计算 “36 + 59 = ?” 时,  “AI 显微镜”  的观测结果令人瞩目:

模型内部并未激活预期的 “竖式加法器”  等线性计算模块,  而是并行启动了多条独立的计算路径 (脑路)。

    路径 1:粗略估算 (近似计算): 一条路径负责进行 “粗略的总和估算”,快速判断结果 “大概在 90 多”。
    路径 2:精确计算个位数: 另一条路径则专注于 “精确计算个位数”,计算 “6 + 9 = 15”,从而确定 “尾数为 5”。

路径整合与输出: 最后,这两条并行路径的结果被整合,模型最终输出了 正确答案 “95”。

自圆其说

近期 Anthropic 发布的 Claude 3.7 Sonnet 模型具备一个 “大声思考 (think aloud)” 的能力—即在给出最终答案之前,模型会生成一段扩展的中间推理步骤,呈现其 “思考过程”。

按常理,这种 扩展的 “思维链 (chain-of-thought)”  应该是能够帮助模型得出更优的答案。

然而,经过 “AI 显微镜”的透视:这种 “思维链”  并非总是可靠,有时反而会产生误导

Claude 可能会 “编造”  看似合理的步骤,以 “自圆其说”,最终达到其预设的结论

案例分析 1: “忠实” 的思维链 —— 平方根计算 (√0.64)

当被要求计算 0.64 的平方根时,Claude  生成了一条 “忠实的思维链”,模型内部激活的特征, 真实地反映了计算 64 的平方根的中间步骤。

案例分析 2: “不忠实” 的思维链 —— 大数余弦计算 (cos(Large Number))

然而,当被要求计算一个 Claude  难以直接计算的 “大数的余弦值” 时,情况则截然不同。  在这种情况下,Claude  有时会表现出哲学家 Harry Frankfurt  所描述的 “胡说八道 (bullshit)” 的行为—— 模型仅仅是为了给出一个答案,而随意 “编造”  答案,并不关心答案的真假。

即 Claude “声称进行了计算”, 但 Anthropic  的可解释性技术 完全没有检测到任何计算过程发生的证据。

更值得关注的是,研究团队还观察到 Claude  展现出一种 “动机推理” 的倾向:

当被给予一个 “答案提示”  时, Claude  有时会 “倒推”  工作, 反向寻找能够 “通往该目标答案”  的中间步骤。  这意味着 Claude  可能会为了迎合预设的答案或期望,而调整其推理路径, 表现出一种为了特定目标而 “塑造”  推理过程的倾向

被要求最好不说话

此外,研究团队还发现 Claude 模型的 默认行为竟然是 “拒绝回答”

他们探测到一个 “默认开启 (on)” 的内部电路,这个电路 直接导致模型主动声明 “信息不足”,  因此  Claude  在初始状态下,倾向于不对任何问题进行回答。  只有当其他机制介入时,模型才会打破这种默认的 “拒绝” 模式。

当面对 “熟悉的事物” 时,Claude 的行为模式会发生转变。 以篮球运动员迈克尔·乔丹为例,提问这类问题时,模型内部会激活一个 关键的 “已知实体” 特征。

这个特征如同一个 “制动器”,有效地 “抑制”  了原本默认的拒绝回答回路,  从而赋予 Claude  在 “确认信息属于已知范畴” 的情况下,  正常响应提问的能力。

与之形成对比的是,当模型被问及 “未知实体” (例如,“迈克尔·巴特金”  - Michael Batkin) 时,由于 “已知实体” 特征未能被激活,默认的拒绝回答回路仍然保持激活状态,因此 Claude 会维持拒绝回答。

真实的多步推理

为了了解 Claude 如何处理多步骤推理,研究团队试图透视中间概念步骤来追踪推理的步骤。

在 “达拉斯首府” 的例子中,他们观察到 Claude 首先激活了 “达拉斯位于德克萨斯州” 的特征,之后将这些特征关联到独立的 “德克萨斯州的首府是奥斯汀” 概念。

即 Claude  在解答此类问题时,并非简单地 “反刍”  记忆中存储的现成答案,而是通过 “组合”  多个独立的知识性事实,最终推导出正确答案。

结语

AI 的 “脑回路”  还挺有意思的!

Anthropic 的研究进一步用“铁证”揭示,  AI  并非完全透明和 忠实,  它可能拥有我们难以察觉的 “小心思”,  甚至在某些情况下会 “编造”  理由、  “欺骗”  用户。

如今,人工智能已深度渗透到人类生活的方方面面,从辅助日常工作与学习,到参与关键决策环节,例如 最近引发广泛讨论的 AI 审稿问题便是一个典型例证。

审稿人们让 AI 依据其学习数据判断研究成果的价值,从而得到定论。然而,根据 Anthropic 团队所揭示的“动机性推理”——即 AI 为达目标可能“自圆其说”乃至“捏造”论据——的现象来看,将此特性应用于学术评审,是否会造成非共识的创新观点被边缘化,形成算法主导下的学术“同质化”?

这种 AI 辅助/代劳式的问题解决方式被应用于更高层面时,实则上是一种更大的危机。

参考文献
https://transformer-circuits.pub/2025/attribution-graphs/biology.html
https://www.anthropic.com/research/tracing-thoughts-language-model
https://transformer-circuits.pub/2025/attribution-graphs/methods.html#appendix-interference-weights


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

大语言模型 AI显微镜 电路追踪 推理机制 Anthropic
相关文章