智谱技术团队 2024-12-27 18:19 北京

大模型要听话，就得懂得用户的指令。这种能力，我们叫它“指令遵循能力”。　

但是，要让模型完全听懂指令并不容易，一点点微小差别就可能导致理解错误。为了提高模型的指令遵循能力，我们常用一种方法叫“偏好优化”，也即通过学习用户更喜欢哪种回答，来帮助模型更好地理解和执行指令。　

不过，现有的方法有个问题：构造这些偏好数据，通常要采样多个独立回复，而这些回复不可避免地会引入一些干扰因素，例如语义相同但表述不同的回答，这些因素不影响模型对指令的遵循，但却会导致模型学习不到真正重要的内容。　

为解决这个问题，我们提出了“SPAR自我博弈框架”，该框架采用了“树搜索”的技术，以及自我完善技术，来帮助大模型更好地理解指令。这个框架的核心思想，即去掉数据中的干扰因素，让模型能更专心地学习真正重要的东西。　

SPaR 框架

在 SPaR 框架中，LLM 扮演两个角色进行自我博弈，以不断改进：　

生成者（Actor）：负责执行给定的复杂指令，生成回复。

完善者（Refiner）：负责分析生成者的回复，找出问题并进一步完善。

SPaR的训练流程分为三个关键步骤，确保逻辑严谨且易于理解：　

第一步：失败数据收集　

生成者对指令生成多个回复。

完善者分析这些回复，识别出未能完全遵循指令的失败回复。

第二步：树搜索修正　

完善者使用树搜索策略修正失败回复。

从错误回复开始，逐层扩展搜索树，探索多条修正路径。

完善者为每条路径生成不同修正版本，并自我评判，直到找到完全遵循指令的回复。

第三步：模型优化　

利用树搜索后完善的回复和原本的失败回复，构建无干扰因素的偏好数据，有效提升生成者。

同时，利用失败回复收集和树搜索过程中的数据，构建完善者的训练数据，实现同步提升。

实验结果

我们在LLaMA3系列模型以及GLM-4-9B上进行了实验，在指令遵循评估基准上的结果表明，SPaR框架能够显著提升大模型的指令遵循能力。　

经过三轮迭代训练后，基于LLaMA3-8B的模型能够在IFEval评估基准上超过GPT-4-Turbo的性能表现。此外，结合推理时间扩展，SPaR进一步提升了模型的整体性能（标记为绿色）。　

这里展示了每一轮迭代训练中，各个方法在IFEval上的平均指标，SPaR在每一轮中均稳定优于各个基线方法。　

作为一种自我博弈训练框架，SPaR不仅能够迭代提升生成者的指令遵循能力，也会同步提升完善者的评估能力。经过三轮训练的LLaMA3-8B模型在评估能力上超越了用于构建其SFT数据的教师模型GPT-4o-Mini，验证了SPaR在进行持续自我提升方面的巨大潜力。　

我们通过两个合成数据实验研究了这一问题：　

任务1：生成指定数量的字母字符串，例如“生成3个a和5个b”，偏好对中的无关干扰因素为字母大小写差异。

任务2：生成以特定开头和结尾句子的故事，例如“写一个以‘他们幸福地生活在一起。’为结尾的故事”，其中无关干扰因素为不同的故事情节。

实验结果表明，包含无关变量的偏好数据组显著影响了偏好学习的效果（上图绿色实线）。特别的，我们观察到在任务1中，模型更倾向于学习到干扰因素（即大小写差异，左图绿色虚线），而非任务的成功率，这说明了排除干扰因素以突出关键差异的重要性。　

在消融实验中，我们证明了SPaR框架中各个元素的必要性，树搜索，迭代提升和自我完善都对结果有很大的影响。　

扩展推理时的计算开销能够进一步提升模型性能，并显著优于贪婪解码方法。同时，在较高的计算开销下，SPaR的树搜索自我完善方法优于Best-of-N方法。　

↓↓↓