博士论文 | Stanford 2025 | 控制语言模型 184页 | 扩散语言模型作者Xiang Lisa Li

大规模语言模型（LLMs）已成为现代自然语言处理的核心，能够在多个任务中展现出卓越的多功能性。有效地控制语言模型对于充分发挥其能力并将其应用于实际场景至关重要。成功部署这些模型通常需要特定任务的定制化以及对其行为的严格审计。在本论文中，我们提出了控制大规模语言模型的方法，并开发了评估工具来揭示控制失败。

在第一部分，我们将控制任务视为一个分布匹配问题，并研究在建模流程中（包括预训练、适应和解码阶段）在哪些环节以及如何进行干预。我将首先介绍一种在适应阶段的控制方法，称为Prefix-Tuning。这是一种参数高效的技术，通过仅修改模型参数的一个小子集实现精细控制。这种方法挑战了传统的完全微调的必要性，并为大规模预训练模型的成本高效定制奠定了基础。接下来，我将重新审视这些控制挑战的根本原因，特别是在预训练阶段，并提出了一种新的文本生成模型，称为Diffusion-LM。Diffusion-LM规避了自回归范式，并通过设计本身内在地增强了可控性。对于最后一种控制方法，我将讨论通过解码时的干预来实现可控性，称为Contrastive Decoding。通过对比一个较强的语言模型和一个较弱的语言模型之间的内部logits，我们能够生成比强语言模型单独生成的文本更高质量的文本。这些策略共同形成了一套连贯的控制机制，适用于语言建模管道的各个阶段。

在第二部分，我们重点关注受控模型的评估。评估包括两个主要设计选择：（i）如何可扩展地判断响应的正确性，（ii）评估时使用什么问题。为了解决第一个问题，我们提出了基于一致性的自动化评估策略。语言模型经常表现出不一致的行为。例如，当我们在2023年9月评估ChatGPT时，我们发现它正确回答了“7+8？”为15，但错误地回应“7+8=15，真还是假？”为“假”。我探讨了生成与验证之间的不一致，并将其作为评估信号。对于第二个问题，我们将评估视为一个优化问题，并开发了自动发现模型失败的工具。具体来说，我们提出了AutoBencher，一个用于自动基准构建的声明性框架，并利用它可扩展地发现现有语言模型的新见解和漏洞。在AutoBencher中，我们将基准构建视为一个优化问题，通过声明数据集的几个期望，构建量化的替代指标，并搜索一个优化这些期望的特定数据集。我们进一步扩展了这个流程，使其针对特定模型，并使用强化学习训练调查模型，以提高召回率并覆盖多样化的模型失败。总体而言，这项工作的贡献推动了可控语言建模的前沿，并为重新思考语言模型评估奠定了新框架的基础。

论文题目：Controlling Language Models

作者：Xiang Lisa Li

类型：2025年博士论文

学校：Stanford University（美国斯坦福大学）

下载链接：

链接: https://pan.baidu.com/s/1ECp8qFyUznpZc8aOr5uP-A?pwd=u74c

硕博论文汇总：

链接: https://pan.baidu.com/s/1Gv3R58pgUfHPu4PYFhCSJw?pwd=svp5

语言模型是一个基于文本序列的概率模型。其特定的分布由三个要素决定：模型家族（例如，N-gram模型、Transformer模型）、训练数据以及模型规模（例如，参数数量）。从历史上看，语言模型最初是在狭窄的领域内训练的。例如，N-gram模型通常基于精心挑选的语料库（如《华尔街日报》）构建，用于模拟或分析英语文本的特征——如熵或Zipf分布（Shannon，1948）。到了2000年代，语言模型成为更广泛的自然语言处理系统中的实用组件，主要用于在语音识别等任务中对候选输出进行重新排序。

随着训练数据从专业语料库扩展到大规模的互联网数据，且模型架构从N-gram转变为神经网络序列模型，语言模型逐渐从狭窄的工具转变为通用生成器。在2010年代，带有监督的序列到序列模型成为翻译和摘要等应用的核心（Sutskever等，2014）。近年来，像GPT（Radford等，2019；Brown等，2020）和Claude（Anthropic，2024）等大规模模型，在异构的互联网规模语料库上训练，能够在各种领域中生成流畅且连贯的输出。

然而，单纯的流畅性并不足够。随着语言模型的应用场景从分析和重新排序发展到直接生成，模型越来越多地被部署到对正确性、安全性和相关性有要求的环境中。一个数学问题的流畅续写可能是另一个数学问题——但这可能不是我们想要的答案。我们期望模型能回答问题。在其他情况下，我们可能希望模型拒绝不安全的请求、遵循格式指令、采用特定的角色或避免有毒内容。这将引出本论文的核心主题：控制。

控制指的是引导语言模型行为朝着期望的结果发展。高层次而言，它意味着将一个原始的文本分布转换为一个符合任务目标、用户意图或安全约束的有用系统。控制可以采取多种形式：引导生成向事实准确性靠拢、强制风格一致性、抑制不良补全，或者确保指令得到准确执行。如果没有控制机制，即使是最流畅的模型也可能变得无用、不可靠或不安全。

在本论文中，我提出了控制大规模语言模型的方法，并开发了评估工具来揭示控制失败。具体来说，我们探讨了如何在语言建模流程的每个阶段——包括预训练、适应和解码——施加控制。我们还介绍了评估方法，通过自动判断生成输出的质量并揭示模型失败，来评估这些控制效果。

1.1 强化控制

由于语言模型定义了一个文本分布，控制它最终可以归结为一个分布匹配问题：我们希望调整生成分布以实现期望的行为。关键的设计决策集中在确定哪些模型组件可以调整（即控制按钮）以及在开发流程的何时进行干预。语言模型通常在部署前经历几个关键阶段，控制可以在这些阶段中的每个阶段注入。

适应是注入控制的最经典阶段。在这一阶段，我们调整模型的参数，以使其分布朝向期望的使用场景。微调长期以来一直是默认的方法，但我的工作提出了轻量化的替代方案，在保证质量的同时，以更低的计算成本实现精细控制。

解码使得对生成输出进行极其轻量的干预成为可能。由于此阶段模型参数是固定的，因此控制是通过操作输出概率来执行的——例如，通过基于外部标准对令牌进行加权或减权。然而，该阶段的表达能力可能有限，因为它无法访问内部模型状态，也无法修改先前生成的令牌——这使得执行复杂或全局约束变得困难。

预训练是语言建模流程中最上游的阶段，它为将可控性注入模型架构提供了强大的机会。在这一阶段注入控制能够进行结构性的变化，确保内建的可控性。然而，预训练也是最资源密集的阶段，这使得它在扩展或利用已经预训练的模型的能力时变得更加困难。

这些方法共同构成了一套用于强化大规模语言模型特定行为的工具，详细内容见第3章、第4章和第5章。

1.2 评估控制

一旦控制被强化，下一步的挑战是评估模型是否遵守了这些控制。由于模型控制是一个分布匹配问题，我们也可以采用分布视角来进行评估。

评估分为两部分：输入分布p(x)，它定义了评估内容，以及条件分布p(y | x)，它定义了如何判断响应。对于现代语言模型，这两个部分都非同小可。由于大规模语言模型是通用型的，我们必须选择p(x)来测试相关能力并暴露其弱点。同时，参考条件分布p*(y | x)必须是可靠的，特别是在评估模糊或开放性问题时。

为此，我提出了自动化工具，利用语言模型本身来发现和验证失败案例，确保评估既具有可扩展性，又值得信赖。这些贡献将在第6章、第7章和第8章中介绍。

1.3 论文结构

第2章：背景。我们回顾语言模型和可控文本生成的历史，以建立本论文的历史背景。

第3章：通过Prefix-Tuning适应语言模型。传统的语言模型适应需要微调所有参数（规模达到数十亿），而我在Prefix-Tuning方面的工作首次展示了仅调整一小部分（0.1%）参数同样可以达到有效的控制。如今，参数高效微调已成为使用户能以更具成本效益的方式定制预训练模型的标准方法。

第4章：通过设计构建可控语言模型。传统的语言模型通过下一个令牌预测来构建输出，这限制了它们对输出序列的控制能力。我在Diffusion-LM方面的工作证实了非自回归模型在文本生成中的可行性，展示了此类模型如何通过设计本身内在地增强可控性。

第5章：在解码时引导语言模型。文本生成通常涉及从语言模型分布中采样。在本章中，我们将文本生成视为一个优化问题，并设计了一个对比目标，鼓励一致的生成。通过对比强语言模型和弱语言模型之间的内部logits，我们生成的文本比强语言模型单独生成的更高质量。

第6章：通过一致性进行可靠和可扩展的评估。评估对于推动语言模型的进步至关重要，这使得设计一个可扩展且可靠的评估指标变得非常必要。为此，我们提出使用生成和验证之间的一致性作为评估标准。一致性评估是无标签的且具有可扩展性的，因为它无需知道正确答案即可进行判断。

第7章：通过AutoBencher自动发现模型失败。传统评估依赖静态的、手工策划的基准，这些基准难以跟上日益通用的语言模型的步伐。这些传统的基准通常无法覆盖语言模型的多样化技能、领域和使用场景。为了解决这些局限性，我们提出了AutoBencher，这是一个用于自动构建基准的声明性框架，并利用它可扩展地发现现有语言模型的新见解和漏洞。

第8章：将错误发现作为后验推断。我们如何发现模型特定的失败？在本章中，我们将错误发现视为一个后验推断问题：给定模型输出中的特定失败（即后缀），我们旨在推断出可能导致该失败的输入提示（前缀）。为了高效地探索这个空间，我们提出了一种灵感来自Frank-Wolfe算法的方法，以鼓励发现多样化的失败模式。

第9章：总结与未来方向。我们总结并讨论了构建可控语言模型的未来研究方向。

微调（顶部）会更新所有 LM 参数（红色 Transformer 框），并且需要为每个任务存储完整的模型副本。我们提出了前缀调优（底部），它冻结 LM 参数，仅优化前缀（红色前缀块）。因此，我们只需为每个任务存储前缀，从而使前缀调优模块化且节省空间。请注意，每个垂直块表示某个时间步的 Transformer 激活值。

使用自回归语言模型（上）和编码器-解码器模型（下）进行前缀调整的带注释示例。前缀激活函数 ∀i ∈ Pidx, hi 由可训练矩阵 Pθ 提取。其余激活函数由 Transformer 计算。

扩散语言模型 (Diffusion-LM) 迭代地将一系列高斯向量去噪为词向量，从而产生一个噪声水平递减的中间潜在变量 xT · · · x0。为了实现可控生成，我们迭代地对这些连续潜在变量执行梯度更新，以优化流畅度（由扩散语言模型参数化）并满足控制要求（由分类器参数化）。

表示正向和反向扩散过程的图模型。除了原有的扩散模型 (Ho et al., 2020) 之外，我们在 x0 和 w 之间添加了马尔可夫转移，并提出了embedding §4.3.1 和rounding §4.3.2 技术。

来自语法树控件的定性示例。语法分析树通过表示成分的嵌套括号线性化，并使用标准 PTB 语法类别。每个跨度内的标记表示为 * 。我们将失败的跨度标记为红色，并将 §4.6.1 中讨论的感兴趣的跨度加粗。

对比解码利用不同规模的专家和业余语言模型之间的差异，选择能够最大化其对数似然差的标记。对比解码能够生成高质量的文本，放大专家的良好行为，并减少业余行为的不良行为。

为了测量生成器-验证器一致性，我们用生成器查询提示语言模型（LM）生成自由格式的答案。然后，我们检查同一个语言模型是否一致地响应相应的验证器查询，该查询询问生成的答案是否正确。此示例是GV一致的，因为验证器确认了生成器的响应。

GV-Consistency 微调包含两个阶段：数据生成阶段和一致性微调阶段。在数据生成阶段，我们收集语言模型 (LM) 对生成器查询及其相关验证器查询的响应。接下来，我们进行筛选，只保留一致的生成器-验证器响应对。最后，我们针对一致的响应对对语言模型进行微调。此过程可以迭代以进一步提高一致性。

HarmfulQ 和 Plan Arithmetic 任务的示例生成器和验证器提示。

（左图）模型在现有数据集和 AutoBencher 数据集上进行排名的简单示例。现有数据集的性能趋势大致相同，而 AutoBencher 则能够发现能够产生新颖排名的测试。（右图）给定一个领域（例如历史），AutoBencher 会创建突出、困难且新颖的数据集。它通过搜索数据集描述（例如二战时间线）来实现这一点，根据难度和新颖性对每个数据集进行评分，然后选择最佳数据集。