ACL 2025 | 知道≠会说！UAlign用不确定性纠偏大模型幻觉，事实性对齐更进一步

让你更懂AI的 2025-07-08 23:21 北京

本文利用不确定性估计来对齐大模型的事实性，提高大模型事实表达。

本系列 blog 是有关大模型幻觉、知识、不确定性等方向的学习笔记分享，我会持续更新相关基础工作和最新研究，相关文献也整理在以下 GitHub 项目中，欢迎关注。

https://github.com/AmourWaltz/Reliable-LLM

研究问题：大模型为何无法准确表达事实知识

在之前的文章（https://zhuanlan.zhihu.com/p/713737141）中我们已经探讨了大模型的“感知”和“表达”在消除幻觉，增强事实性中的相关知识点，“感知”固然重要，但将正确的事实知识准确无误的表达出来，才是降低幻觉的关键落地之处。

也就是即使大模型对事实知识的感知并不强，我们也要让最终输出朝着事实性的方向移动，解决模型能感知但无法总是正确表达的缺陷。

大模型通常基于在预训练期间学习的知识分布生成回复（“表达”），而这些知识分布的感知（“感知”）往往具有模糊的边界，包含许多学习但不确定的知识片段。

如图 1（a）所示，例如，针对问题 “What was the pseudonym of author John Griffith Chaney？”（作者约翰·格里菲斯·查尼的笔名是什么？）。

如果 LLM 拥有从预训练语料库中学习到的相关知识但不确信，对答对的信心仅约为 30%（浅绿色部分），它可能会返回一个误导性的答案，比如 “Jules Verne”（儒勒·凡尔纳）。

对于另一个问题 “What was the capital of West Germany from 1949 to 1990？”（1949 年到 1990 年西德的首都是什么？），如果 LLM 没有学习相关知识，但根据先前的知识猜测 “West Berlin”（西柏林）可能正确，因此返回一个错误的答案。

这个问题主要源于 LLMs 没有对齐知识边界与事实准确性之间的关系。因此，为了提高 LLM 的事实性，关键在于教会 LLM 精确感知知识边界，并准确在回复中表达事实知识，对于知道的事实知识（绿色部分），减少感知和表达之间的差距，而对于不知道的知识（灰色部分），则坚定地拒答。

如下图知识光谱所示，一个可信的大模型知识边界应当是清晰的（下），把知道的知识都能非常确信并准确的表达出，而对于不知道的知识则坚定拒答，不存在过多的模糊区域（上）。

▲ 图1：大模型事实知识边界感知与表达

增强大模型的事实性表达，在工程上可以像人类一样通过给定提示去回顾特定知识，使用思维链来一步步引导回忆，或是通过多次采样，然后通过一些聚合方法选择最可信的那个，亦或是采用一些监督微调或强化学习的训练方法。

此前文章介绍了集中提高大模型事实表达的工作，本文将再介绍一篇我们利用不确定性估计来对齐大模型的事实性，提高大模型事实表达的文章。

论文标题：

UAlign: Leveraging Uncertainty Estimations for Factuality Alignment on Large Language Models

论文链接：

https://arxiv.org/abs/2412.11803

代码链接：

https://github.com/AmourWaltz/UAlign

方法：利用不确定性进行事实性对齐

基于上述分析，我们认为模型无法准确表达事实知识是由于其无法精确感知知识边界；因此我们的目标是引导大型模型识别其不确定但已知的事实，通过在对齐中明确利用知识边界信息，指导其自信地表达其已知但不确定的信息，并坚决拒绝超出其知识范围的问题，如图 1（b）所示。

基于“感知”的改进，大模型的表达更加真实可靠，从而最小化“感知”和“表达”之间的差异。因此我们提出了 UAlign 框架，该框架战略性地建模关于知识边界表示的不确定性，随后将这些估计与事实对齐。

因此，UAlign 框架关注两个关键问题：如何感知知识边界表征，以及如何与事实进行对齐。

2.1 UAlign 训练数据集的构造

首先，我们准备了一个数据集，该数据集包含用于 UAlign 框架中对齐的知识边界信息。知识边界通常指示事实知识的已知程度，通常通过对大模型使用不确定性估计方法来实现。

为了准确捕捉给定知识问答数据集的知识边界表示的内在感知，我们分别采用基于准确度的置信分数（accuracy-based confidence score）和语义熵（semantic entropy）这两种不确定性估计。

如下图 2 所示，给定一个包含个知识问答对的数据集，我们通过使用一个 1-shot prompts 集合中不同 1-shot 示例在温度下对一个问题进行多次采样以减轻上下文敏感性，从而计算每个问题的置信度和熵，近似实际的知识边界。

更具体的，在对第个问题的第次采样过程中，我们将每个 1-shot prompt 与问题一起输入大模型，以生成第个回复。

通过进行次采样过程，我们可以获得问题的采样回复集。我们通过将每个生成的答案与真实答案进行比较，得到标签集合来表示每个回复的正确性（，1 表示正确，0 表示错误）。

我们将数据收集并格式化为，随后计算不确定性。至少有一个正确样本答案的问题被视为“已知”，而所有样本响应均为错误的问题被视为“未知”。

此前工作表明大模型在未知知识上微调会容易生成幻觉，因此我们将未知问题的标签回复修改为拒答，以教导大模型拒绝超出其知识范围的问题，从而划分已知和未知事实知识的边界。

▲ 图2：UAlign 数据集构造

本研究将大模型的知识边界从两个方面进行定义。首先是对问题的先验判断，表明对的确信程度，我们采用基于准确度的置信度来度量；接着是对生成回复在中分布的离散程度，我们采用语义熵来衡量。这两种度量作为互补，从而精确拟合出真实的知识边界信息。

对于问题，通过与真实答案进行比较中回复的准确性作为置信分数，计算公式如下：

由于自然语言生成任务输出空间中生成序列的可变长度和存在不同语句的语义等价等问题，此前工作提出语义熵来度量语句不确定性，以捕捉语义层面的不确定性，量化生成序列的离散程度。给定和，语义熵计算如下：

其中表示语义等效空间中的句子集合。如图 2 所示，语义熵是通过聚类语义等价的回复来计算的。我们计算已知问题和未知问题的置信分数和语义熵，通过将第个样本格式化为来更新 UAlign 数据集。

2.2 UAlign 对齐训练算法

如图 3（a）所示，给定数据集，UAlign SFT 的目的是训练不确定性估计模型，以明确学习针对特定问题的两个不确定性估计值。不确定性估计模型和分别用于预测置信分数和语义熵，这些估计值被持续用于训练奖励模型。

在训练模型和时，我们只将问题输入模型，以生成两个不确定性估计。训练目标是最小化交叉熵损失和，如下所示：

随后引入奖励模型以确定生成的答案是否正确地基于问题、置信度和熵。和都被显示用作额外的输入特征，以提高奖励模型的准确性。奖励模型的二元交叉熵损失被最小化，如下所示：

▲ 图3：UAlign 对齐训练算法

如图 3（b）所示，UAlign PPO 目的是利用以上获得的模型，通过不确定性度量来引导大模型对问题的事实表达。

受到人类反馈强化学习（RLHF）技术进展的启发，我们采用近端策略优化（PPO）来优化模型，结合奖励模型优化策略。

在这一阶段，我们迭代地将问题、预测的置信度和熵输入到策略和参考模型中，奖励函数将促进策略模型生成可信回复。

训练目标是最大化以下奖励函数：

奖励函数包含来自的奖励信号和 KL 惩罚，以确保策略生成的答案不会与原始策略过度偏离。超参数是 KL 惩罚的系数。

实验配置

3.1 数据集

训练集：TriviaQA，NQ-Open，SciQ

测试集：In-domain - TriviaQA，NQ-Open，SciQ；Out-of-domain - LSQA。

3.2 评估指标

为了评估生成回复的可靠性，我们采用了两个指标：精确度（Precision）和真实度（Truthfulness）。精确度定义为在所有已知问题中正确回答的问题所占的比例，代表大模型准确表达其已知事实知识的能力。

真实度表示在所有问题中，正确回答的已知问题和拒绝的未知问题之和所占的比例，指示大模型的诚实程度，回复正确性使用字符串匹配方法来判断。精确度和真实度的计算公式如下：

KC：已知且回答正确

KI：已知但回答错误

KR：已知但拒绝回答

UC：未知但回答正确

UI：未知但回答错误

UR：未知且拒绝回答

3.3 模型

Llama-3-8B, Mistral-7B-v0.1

实验分析

主实验结果表明我们的 UAlign 方法可以显著提高模型的可靠性，并且在 OOD 数据集上也有不错的泛化能力，相比此前一些 baseline 方法可能导致模型趋于保守，我们的方法则可以让模型自信表达出已知的知识并且坚定拒绝未知的问题。

我们也分析了两种不确定性估计的影响，结果表明置信度对性能提升起主导作用，熵起辅助作用。

通过与一系列不确定性估计的 baseline 相比，我们所使用的不确定性估计指标结合了基于采样和基于训练的方法的优点，因此实现 AUROC 分数更高，关于不确定性估计可参考：

https://zhuanlan.zhihu.com/p/696065154

最后我们也分析了采样次数的影响和时间消耗，由于本文均采用形式较简单的 QA 问答对，答案格式简单，很容易逼近真实分布，因此采样消耗少。每条问题大约采样 10 次就可以实现不错的效果。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签