机器之心 02月06日
AAAI 2025 | 大模型会组合关系推理吗?打开黑盒,窥探Transformer脑回路
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本研究提出了一种新的基准测试GAR,用于评估大型语言模型(LLM)在组合关系推理方面的能力。GAR整合了多个经典任务,并通过不同的任务形式和难度等级,系统地考察模型的推理能力。研究发现,即使是最先进的LLM在GAR任务上的表现也并不理想,暴露了它们在组合推理能力上的缺陷。通过归因补丁方法,研究者还发现了模型在推理过程中依赖的关键计算单元,例如核心回路和True/False头,并验证了它们在不同模型中的通用性和有效性。这项研究加深了我们对LLM工作原理的理解,也为模型改进提供了启发和洞见。

🧩GAR基准测试:GAR整合了knowledge recall、associate recall、Indirect Object Identification (IOI) 等经典任务,并通过肯定/否定句、生成/分类任务等形式,系统考察LLM的推理能力。

🧠组合性差距:研究发现,LLM在回答任务的各个子问题时可能表现良好,但无法正确组合这些答案以得出最终结论,这种现象被称为“组合性差距”。

🔑核心回路与注意力头:通过归因补丁方法,研究者识别出LLM内部的关键计算单元,包括核心回路和True/False注意力头,这些单元在不同任务和模型中都扮演了重要角色。

🧪True/False头干预实验:通过对Vicuna模型中的True/False头进行干预,研究者发现干预可以显著提升模型在判别任务上的准确率,证明True/False头编码了真假概念,并在GAR任务中起到了判断语句真伪的关键作用。

2025-02-06 09:14 北京

本工作由北京邮电大学和彩云科技合作完成。

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com


本文作者为北京邮电大学网络空间安全学院硕士研究生倪睿康,指导老师为肖达副教授。主要研究方向包括自然语言处理、模型可解释性。该工作为倪睿康在彩云科技实习期间完成。联系邮箱:ni@bupt.edu.cn, xiaoda99@bupt.edu.cn


人类拥有一种强大的能力,能够理解多个实体之间复杂的关系并基于这些关系进行推理,这被称为组合关系推理(Compositional Relational Reasoning, CRR)。这种能力不仅是智能的标志,也是我们应对日常问题和复杂任务的核心技能。那么,像 GPT 这样的大型语言模型(LLM)是否具备这种能力?它们又是如何在内部处理这种任务的?为了回答这个问题,研究者开发了一个新的基准测试,称为广义关联回忆(Generalized Associative Recall, GAR),专门用来评估 LLM 在组合推理任务中的表现,并进一步研究模型如何解决这些任务。论文《Benchmarking and Understanding Compositional Relational Reasoning of LLMs》已被 AAAI 2025 接收。本工作由北京邮电大学和彩云科技合作完成。




GAR 基准测试


研究者注意到,目前大多数用于测试 LLM 的任务要么过于简单,只能用于可解释性分析,无法真实反映模型在复杂推理场景下的表现,要么过于复杂,不适合深入研究模型的内部机制。因此,他们设计了 GAR,一个更加多样化和具有挑战性的基准测试。GAR 整合了多个经典任务(如 knowledge recall、associate recall、Indirect Object Identification (IOI) 等),并通过不同的任务形式(如肯定 / 否定句、生成 / 分类任务)和难度等级,系统地考察模型的推理能力。


简单来讲(更多例子见下图 1 和图 2):



GAR 的特点是:


1. 挑战性足够高:即使是最先进的 LLM,在 GAR 任务上的表现也并不理想,暴露了它们在组合推理能力上的缺陷。

2. 适合深入研究:GAR 任务相对简单的生成过程,使得研究者能够更好地追踪模型内部的推理机制。


图 1 广义关联回忆(Generalized Associative Recall, GAR)任务构建框架。GAR 任务的设计流程包括三个步骤:选择关系模式(如 “same” 或 “kindOf”)、采样数据构建关系环(结合语义与语法关系)以及生成语句并引入语义和句法变体(如否定形式或主宾交换),图中左中右部分分别展示了关系环的构建、任务数据的生成与语句的多样化处理,体现了 GAR 在任务灵活性和复杂度上的优势


图 2 GAR 任务示例。任务分为两大类:生成式(填空题,补全最后一个词)和判别式(判断题,回答 Yes 或 No)


现有模型的表现


通过对主流开源(如 Llama-2/3 7B/13B/33B/70B)和闭源模型(如 GPT-3.5/4)的测试发现:



图 3 (a) 不同 LLM 在 GAR 上的表现。本图比较了生成任务(Gen.)和分类任务(Cls.)的平均准确率和正确答案的预测概率,随着模型规模增大,准确率和答案概率均呈正相关增长


图 3 (b 左) GPT-4 和 Vicuna-33B 在不同难度的生成式任务上的表现,通过增加非相同语义关系和引入否定语义变体调整任务难度;(c 中) 组合性差距随模型规模的变化, Llama 系列模型随规模增大而表现出更大的组合性差距,反映出 LLM 在组合关系推理中的不足;(d 右) 语法变化差距随模型规模的变化,句法变体对模型性能影响较小,表明模型对语法变化的敏感性较低


GAR 任务还有个很有趣的特点:尽管它对最先进的 LLM 都具有挑战性,它对人类来说却非常简单:研究者评估,在具备必要知识(如国家 - 首都关系)的情况下,人类完成任务的准确率超过 90%。并且通过实验表明,LLM 回答错误并不是因为缺少这些事实性知识。这揭示了 LLM 在组合关系推理上存在某些根本性缺陷。


模型内部的推理机制


为了更好地理解 LLM 如何解决 GAR 任务,研究者采用了归因补丁(attribution patching)的方法。这种技术可以帮助发现模型在推理过程中依赖的关键计算单元,特别是某些注意力头的作用。值得指出的是,这里无论任务难度、回路复杂度还是模型大小,都远超已有模型可解释性工作。研究发现:


    核心回路:Vicuna-33B 模型中存在一组通用的核心回路,能够被不同任务重复利用。

    注意力头的作用:研究者识别出两类关键注意力头(True head 和 False head),它们的激活状态分别表示抽象的 “真” 和 “假” 的概念。进一步的实验表明,这些头在不同任务和模型中都扮演了重要角色,是组合推理能力的基础。


图 4 (a 左) True head 子回路 (b 右) False head 子回路


图 4 (c) 判别回路


图 4 (d) 肯定式生成回路


图 4 (e) 否定式生成回路


研究者发现,无论哪种回路,从更高的层次看,都包含我们称之为 “relational loop” 的由注意力边组成的闭环。这和构造 GAR 任务时的关系环是一致的。研究者认为正是这些闭环的存在保证了可预测性


通过干预关键注意力头提升 LLM 表现


注意到 True/False 头在图 4 的所有回路中都有出现并扮演了关键角色。为了验证 Vicuna 模型中的 True/False 头的通用性和有效性,并探讨其在不同模型规模上的一致性。研究者选择了三个具有代表性的分类任务:由 GendersOfPersons 关系模式分别与 CountriesOfCities (CoC)、KindsOfThings (KoT) 和 UsagesOfThings (UoT) 三个关系模式组合作为数据源。首先,利用 attribution patching 识别不同规模的 Vicuna 模型(Vicuna-7B/13B/33B)的 True/False 头。随后,在模型推理过程中对 True/False 头进行干预:当答案为 Yes/No 时,对 True/False 头施加干预,同时屏蔽 False/True 头,以观察其对模型判断的影响。


图 5 (a 左) 干预 Vicuna-7B 的 True / False heads 提升判别任务的准确率,干预后模型准确率分别提高了 17%/14%/6%,证明 True/False 头在各个模型中均表现出一致的效果;(b 右) True / False heads 的激活区分真 / 假陈述,通过可视化 True 和 False 头的激活值,发现它们有效地区分了真假语句。这表明,True/False 头编码了真假概念,并在 GAR 任务中起到了判断语句真伪的关键作用


研究意义


这项研究首次明确指出了 LLMs 在组合关系推理任务中的核心缺陷,并通过实验揭示了模型内部的关键推理机制。这不仅加深了我们对 LLMs 工作原理的理解,也为模型改进提供了启发和洞见。例如:



参考文献

[1] Da Xiao 1 Qingye Meng 2 Shengping Li 2 Xingyuan Yuan. Improving Transformers with Dynamically Composable Multi-Head Attention. ICML 2024.


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

LLM 组合关系推理 基准测试 可解释性 注意力机制
相关文章