GLM大模型 2024年12月28日
SPAR:自我博弈,增强指令遵循
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

为提高大模型指令遵循能力,提出SPAR自我博弈框架,采用树搜索等技术,去除干扰因素,在多个模型上实验表明其能显著提升指令遵循能力

🎯SPAR框架采用树搜索及自我完善技术,帮助大模型理解指令

🔄SPaR框架中LLM扮演生成者和完善者进行自我博弈

📈SPaR框架的训练流程分失败数据收集、树搜索修正、模型优化三步

💪经过实验,SPaR能显著提升大模型指令遵循能力及整体性能

智谱技术团队 2024-12-27 18:19 北京

大模型要听话,就得懂得用户的指令。这种能力,我们叫它“指令遵循能力”。 


但是,要让模型完全听懂指令并不容易,一点点微小差别就可能导致理解错误。为了提高模型的指令遵循能力,我们常用一种方法叫“偏好优化”,也即通过学习用户更喜欢哪种回答,来帮助模型更好地理解和执行指令。 


不过,现有的方法有个问题:构造这些偏好数据,通常要采样多个独立回复,而这些回复不可避免地会引入一些干扰因素,例如语义相同但表述不同的回答,这些因素不影响模型对指令的遵循,但却会导致模型学习不到真正重要的内容。 

 

为解决这个问题,我们提出了“SPAR自我博弈框架”,该框架采用了“树搜索”的技术,以及自我完善技术,来帮助大模型更好地理解指令。这个框架的核心思想,即去掉数据中的干扰因素,让模型能更专心地学习真正重要的东西。 

 

 

Paper:https://www.arxiv.org/abs/2412.11605 

Code:https://github.com/thu-coai/SPaR 

 

SPaR 框架

 

在 SPaR 框架中,LLM 扮演两个角色进行自我博弈,以不断改进: 

 

    生成者(Actor):负责执行给定的复杂指令,生成回复。

    完善者(Refiner):负责分析生成者的回复,找出问题并进一步完善。



SPaR的训练流程分为三个关键步骤,确保逻辑严谨且易于理解: 

 

第一步:失败数据收集 

第二步:树搜索修正 

第三步:模型优化 

 

实验结果

 

我们在LLaMA3系列模型以及GLM-4-9B上进行了实验,在指令遵循评估基准上的结果表明,SPaR框架能够显著提升大模型的指令遵循能力。 

 

经过三轮迭代训练后,基于LLaMA3-8B的模型能够在IFEval评估基准上超过GPT-4-Turbo的性能表现。此外,结合推理时间扩展,SPaR进一步提升了模型的整体性能(标记为绿色)。 

 

 

这里展示了每一轮迭代训练中,各个方法在IFEval上的平均指标,SPaR在每一轮中均稳定优于各个基线方法。 


 

作为一种自我博弈训练框架,SPaR不仅能够迭代提升生成者的指令遵循能力,也会同步提升完善者的评估能力。经过三轮训练的LLaMA3-8B模型在评估能力上超越了用于构建其SFT数据的教师模型GPT-4o-Mini,验证了SPaR在进行持续自我提升方面的巨大潜力。 

 

 

Q&A


Q:偏好数据中的无关因素如何干扰指令遵循学习?



我们通过两个合成数据实验研究了这一问题: 

实验结果表明,包含无关变量的偏好数据组显著影响了偏好学习的效果(上图绿色实线)。特别的,我们观察到在任务1中,模型更倾向于学习到干扰因素(即大小写差异,左图绿色虚线),而非任务的成功率,这说明了排除干扰因素以突出关键差异的重要性。 

 

Q:SPaR中的各个元素对最终结果有何影响?



在消融实验中,我们证明了SPaR框架中各个元素的必要性,树搜索,迭代提升和自我完善都对结果有很大的影响。 

 

Q:扩展推理时计算开销对模型性能有何影响?



扩展推理时的计算开销能够进一步提升模型性能,并显著优于贪婪解码方法。同时,在较高的计算开销下,SPaR的树搜索自我完善方法优于Best-of-N方法。 


跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

SPaR框架 大模型 指令遵循 树搜索
相关文章