科学家提出DEL-ToM，用小模型理解他人想法

2025-07-10 13:56 北京

理解他人想法不仅是AI的能力边界，更是建立信任、服务人类的必要能力。

“AI 能不能真正理解你在想什么？”这看似是哲学或心理学的问题，其实是 AI 下一阶段演进绕不开的技术挑战。技术术语叫做“心智理论”（ToM，Theory of Mind），即模型是否能够理解、推理和预测他人的信念与意图。

目前，大语言模型在部分心智测试中已展现出一定的能力，但其对资源的依赖使得在移动设备、低功耗场景、教育陪伴型产品中难以直接部署。美国斯蒂文斯理工学院张登辉和徐兆卓助理教授和团队关注的核心问题是：如何让中小规模语言模型在生成过程中逐渐成长，最终具备“理解人”的基本能力？

为此，研究团队提出了一种基于动态认知逻辑 (Dynamic Epistemic Logic, DEL) 与路径评分机制的推理阶段增强框架——DEL-ToM（Dynamic Epistemic Logic for Theory-of-Mind），旨在提升小模型在复杂心智测试中的可解释推理能力。不改变模型结构、不重新训练，只通过一个对于模型在心智测试中的生成过程进行评价，帮助模型推理式生成过程中选择更合理的心智推理思路。

心智测试任务的难点不在于语言理解，而在于对多层嵌套信念的建模。模型不仅需要识别事实，还需理解“角色 A 认为角色 B 误解了角色 C 的行为“这类高阶结构。研究团队认为大模型心智的本质不是知识问答，而是视角建模。

举个经典例子：John 把巧克力放在抽屉里，然后出门了。Mary 悄悄把巧克力移到了桌上。现在问题是：“John 回来后会去哪找巧克力？”

这个问题的标准答案应该是“抽屉”，因为 John 并不知道巧克力已经被挪走了。但很多小模型会直接说“桌上”，它们只看到了事实，而没有理解 John 的视角。

更复杂的任务涉及三阶嵌套（A 知道 B 以为 C 不知道...），这就要求模型不仅理解文字，还要构建多角色、多时间点的动态信念逻辑，挑战非常高。人类儿童在 4 岁左右逐渐习得这类推理，而语言模型并不具备内置的信念建模机制。当它们面对“John 不知道 Mary 换了巧克力位置”的任务时，往往会直接根据事实回答，忽略主角的视角限制。这一现象在二阶及以上信念任务中尤为明显。这也意味着，心智能力的构建，不只是训练数据覆盖问题，更是推理机制设计问题。

（来源：资料图）

据介绍，DEL-ToM 的核心由两个协同模块构成。

第一个协同模块是，信念路径生成器（Belief Trace Generator），给定文本场景，语言模型生成多个可能的信念更新序列，每条路径代表角色对世界状态的动态理解过程。每条路径由若干嵌套更新组成，形式化表达 DEL 动态认知逻辑中的状态转移。

第二个协同模块是过程评分模型（PBM，Process Belief Model），利用 DEL 动态认知逻辑标签训练的轻量化评分器，对每条路径逐步评估其逻辑一致性与结构合理性。最终，选取得分最高路径作为答案来源。

研究团队强调的是一种推理阶段的“信念路径选择”，让模型像人一样“先构建推理过程，再输出结论”。这个方法不需要额外训练数据，不依赖外部知识库，仅通过逻辑约束和评分机制就能提升推理质量。

（来源：资料图）

研究团队在 Hi-ToM 数据集上评估 DEL-ToM 的性能，测试模型包括 LLaMA，Qwen 等模型系列，覆盖各种形式的 ToM 任务。

关键发现包括：

Qwen3-4B 模型在 DEL-ToM 增强后表现超过 DeepSeekV3 和 GPT-4.1；

LLaMA3.2-7B 在 DEL-ToM 增强后表现接近 GPT-4.1；

DEL-ToM 显著扩展小模型在 ToM 心智相关测试的性能，展现小模型的心智提升潜力。

此外，研究团队还在心理学标准测试（Sally-Anne, Ice-Cream Van）上验证了 DEL-ToM 在复杂信念建模方面的结构优势。更重要的是：DEL-ToM 的增益与模型大小关系不大，说明其适配性良好，适合低资源环境部署。

在研究团队的另一篇“兄弟篇”论文《敏感性与稀疏性的交汇：极端稀疏参数模式对大语言模型心智理论的影响》（Sensitivity Meets Sparsity: The Impact of Extremely Sparse Parameter Patterns on Theory-of-Mind of Large Language Models）中，研究团队换了一个新研究角度：ToM 能力究竟是如何在语言模型内部产生的？它是否依赖某些极度稀疏的关键参数？

（来源：资料图）

研究团队首次提出“ToM-sensitive parameters”的概念，即模型中对心智推理结果极其敏感的少量稀疏参数集合。研究团队的方法如下：

利用微扰方法在保持语言能力不变的条件下，逐步扰动稀疏关键参数；

精确定位哪些位置的模型参数轻微变化就会造成心智能力崩塌；

结果发现：只需扰动 0.001% 的参数，模型的心智表现就可下降 25% 以上。

更令人惊讶的是，这些敏感参数高度集中在 Transformer 架构中的位置编码模块（如 RoPE），负责调控 Query 与 Key 在不同时间步之间的对齐角度。这种变化会破坏模型对故事事件顺序的理解，进而影响“谁知道了什么”这一心智核心要素。

（来源：资料图）

总的来说，这项研究的意义在于：为大模型心智能力提供了神经机制层面的解释，即大模型心智能力并非大规模参数协同涌现，而是具备高度结构性；可用于未来人工智能模型心智能力检测和注入等应用的参数级调控工具设计。

两项工作从不同角度强化研究团队对“语言大模型是否真正具备心智”的理解，并为后续可解释大模型、社会人格注入等方向提供理论基础与工程方法。

图 | 研究团队：史蒂文斯理工张登辉老师和徐兆卓老师（来源：资料图）

为什么研究团队强调“小模型”？很多人对该团队提出疑问：为什么不直接训练一个大模型解决任务？

理由有三：

成本可控：边缘场景、K12 教育、陪伴型机器人无法承载大模型部署成本；

可解释性强：小模型的输出更容易被分析、纠偏和对齐；

科学价值：小模型更容易研究“为什么出错”“模型到底学到了什么”。

研究团队相信，小模型也具备在实践中提升心智，达到大模型心智水平的潜力。其表示，心智能力在多个实际场景中具有重要价值，尤其在资源受限设备与需要高度可解释输出的系统中，比如用于教育机器人、医疗陪护系统、心理健康对话系统等。DEL-ToM 提供的逻辑路径可直接用于决策解释与反馈生成，具有良好的信任感与部署价值。

研究团队表示，DEL-ToM 并非简单提升小模型性能的工具，更是推动“过程可解释、结构可控、生成可信”这一方向的一次尝试。在研究团队看来，心智不仅是能力评估指标，更是通向可信 AI 的桥梁。未来研究团队还将进一步探索大模型的多路径共识机制、心智评估与修正策略、跨模态信念建模（文本 + 图表 + 场景模拟）。研究团队相信，理解他人想法不仅是大模型的能力边界，更是建立信任、服务人类的必要能力。

运营/排版：何晨龙