DPO-Shift：一个参数可控改变DPO分布，缓解似然偏移

2025-03-04 12:52 北京

在人工智能领域，如何引导大语言模型产出贴合人类偏好的内容，已成为备受瞩目的研究焦点。强化学习从人类反馈中学习（RLHF）作为该领域的重要方法之一，虽成效显著，但也暴露出多阶段优化流程复杂、计算负担沉重等弊端。而直接偏好优化（DPO）及其衍生变体作为离线算法，凭借简单易用、稳定性强等优势，近来广受关注。

DPO主要通过最大化选定响应与拒绝响应间的奖励差距，来实现对模型的高效训练。不过，在DPO训练过程中，一种名为似然位移的现象逐渐浮现：选定响应与拒绝响应的概率往往同步下降，致使模型对那些既未被明确偏好、也未遭坚决拒绝的响应，赋予了意外升高的概率。当前研究普遍将这一现象归咎于模型容量局限、训练样本特性等因素。

本文通过观察当今广泛应用于模型微调的数据集，发现选定响应与拒绝响应在内容层面存在较高相似度，这或为似然位移的诱因。基于此，为助力模型精准区分两类响应，本文提出一种创新策略：在Bradley-Terry模型中，于拒绝响应的奖励前增设参数函数，借此削弱语义相似响应间的对抗性，进而缓解似然位移问题。

理论层面，本文针对选定响应的对数似然、奖励差距这两个关键指标函数展开了一系列理论分析。研究结果表明，DPO-Shift方法在提升选定概率与维持奖励差距之间，存在着明确的权衡关系，且这一权衡机制由引入的参数函数调控，同时该权衡结果还紧密依赖初始模型性能及数据质量，这与现有研究结论高度契合。一系列实验充分验证了DPO-Shift方法的有效性，它能够显著缓解DPO训练中的似然位移问题。通过科学合理地设置参数函数，模型可在响应概率与奖励准确性间实现灵活、可控的权衡。在MT-Bench以及胜率实验等下游任务测试中，DPO-Shift展现出超越DPO的性能，同时可以观测到更简洁，质量更高的生成内容。

为了更好的帮助大家了解这项工作，机器之心最新一期线上分享邀请到华南理工大学在读研究生杨晞亮，为大家进行详细介绍 DPO-Shift。

分享主题：DPO-Shift：一个参数可控改变DPO分布，缓解似然偏移

分享摘要：本文聚焦DPO方法中的似然位移问题，提出DPO-Shift方法。该方法在Bradley-Terry模型的拒绝奖励中添加参数函数，以可控地调整概率分布。理论与实验分析表明，通过调节该参数函数，可以在提高选定概率和牺牲奖励差距间进行权衡。一系列下游任务上的验证实验进一步证明了本方法的优越性。

嘉宾简介：杨晞亮是华南理工大学在读研究生，此研究为其在港中文（深圳）担任研究助理时完成。其主要研究兴趣包括拟蒙特卡罗方法，标准化流，大模型偏好对齐，无似然推断等。

论文链接：https://huggingface.co/papers/2502.07599

项目链接：https://github.com/Meaquadddd/DPO-Shift

直播时间：北京时间 3月 5 日 19:00-20:00

直播预约：

本次直播设有 QA 环节，欢迎大家加群一起来聊。

机器之心 · 机动组

机动组聚焦于学术研究、工程实践与产业应用，筛选前沿、专业、实用内容，不定期组织学术研讨、技术交流与实战分享等。欢迎所有 AI 领域技术从业者关注。

点击阅读原文，查看往期回顾。

阅读原文

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签