机器之心 03月04日
DPO-Shift:一个参数可控改变DPO分布,缓解似然偏移
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了一种名为DPO-Shift的创新策略,旨在缓解直接偏好优化(DPO)训练中出现的似然位移问题。DPO-Shift通过在Bradley-Terry模型中,于拒绝响应的奖励前增设参数函数,从而削弱语义相似响应间的对抗性,助力模型精准区分选定响应与拒绝响应。理论分析和实验结果均表明,DPO-Shift方法能够有效缓解似然位移,并在MT-Bench和胜率实验等下游任务中展现出超越DPO的性能,生成更简洁、质量更高的内容。该研究由华南理工大学研究生杨晞亮完成,并在机器之心进行了线上分享。

💡DPO-Shift方法针对DPO训练中的似然位移问题,该问题导致模型对未明确偏好或拒绝的响应赋予意外升高的概率。

⚙️DPO-Shift的核心在于在Bradley-Terry模型的拒绝奖励中添加参数函数,通过调整该参数函数,可以在提高选定概率和牺牲奖励差距之间进行权衡,从而缓解语义相似响应间的对抗性。

🧪实验结果表明,DPO-Shift在MT-Bench以及胜率实验等下游任务测试中,展现出超越DPO的性能,同时可以观测到更简洁,质量更高的生成内容。

2025-03-04 12:52 北京


在人工智能领域,如何引导大语言模型产出贴合人类偏好的内容,已成为备受瞩目的研究焦点。强化学习从人类反馈中学习(RLHF)作为该领域的重要方法之一,虽成效显著,但也暴露出多阶段优化流程复杂、计算负担沉重等弊端。而直接偏好优化(DPO)及其衍生变体作为离线算法,凭借简单易用、稳定性强等优势,近来广受关注。

DPO主要通过最大化选定响应与拒绝响应间的奖励差距,来实现对模型的高效训练。不过,在DPO训练过程中,一种名为似然位移的现象逐渐浮现:选定响应与拒绝响应的概率往往同步下降,致使模型对那些既未被明确偏好、也未遭坚决拒绝的响应,赋予了意外升高的概率。当前研究普遍将这一现象归咎于模型容量局限、训练样本特性等因素。

本文通过观察当今广泛应用于模型微调的数据集,发现选定响应与拒绝响应在内容层面存在较高相似度,这或为似然位移的诱因。基于此,为助力模型精准区分两类响应,本文提出一种创新策略:在Bradley-Terry模型中,于拒绝响应的奖励前增设参数函数,借此削弱语义相似响应间的对抗性,进而缓解似然位移问题。 

理论层面,本文针对选定响应的对数似然、奖励差距这两个关键指标函数展开了一系列理论分析。研究结果表明,DPO-Shift方法在提升选定概率与维持奖励差距之间,存在着明确的权衡关系,且这一权衡机制由引入的参数函数调控,同时该权衡结果还紧密依赖初始模型性能及数据质量,这与现有研究结论高度契合。一系列实验充分验证了DPO-Shift方法的有效性,它能够显著缓解DPO训练中的似然位移问题。通过科学合理地设置参数函数,模型可在响应概率与奖励准确性间实现灵活、可控的权衡。在MT-Bench以及胜率实验等下游任务测试中,DPO-Shift展现出超越DPO的性能,同时可以观测到更简洁,质量更高的生成内容。

为了更好的帮助大家了解这项工作,机器之心最新一期线上分享邀请到华南理工大学在读研究生杨晞亮,为大家进行详细介绍 DPO-Shift。

分享主题:DPO-Shift:一个参数可控改变DPO分布,缓解似然偏移

分享摘要:本文聚焦DPO方法中的似然位移问题,提出DPO-Shift方法。该方法在Bradley-Terry模型的拒绝奖励中添加参数函数,以可控地调整概率分布。理论与实验分析表明,通过调节该参数函数,可以在提高选定概率和牺牲奖励差距间进行权衡。一系列下游任务上的验证实验进一步证明了本方法的优越性。

嘉宾简介:杨晞亮是华南理工大学在读研究生,此研究为其在港中文(深圳)担任研究助理时完成。其主要研究兴趣包括拟蒙特卡罗方法,标准化流,大模型偏好对齐,无似然推断等。

论文链接:https://huggingface.co/papers/2502.07599

项目链接:https://github.com/Meaquadddd/DPO-Shift

直播时间:北京时间 3月 5 日 19:00-20:00

直播预约:

本次直播设有 QA 环节,欢迎大家加群一起来聊。

机器之心 · 机动组

机动组聚焦于学术研究、工程实践与产业应用,筛选前沿、专业、实用内容,不定期组织学术研讨、技术交流与实战分享等。欢迎所有 AI 领域技术从业者关注。

点击阅读原文,查看往期回顾。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DPO-Shift 大语言模型 似然位移 偏好优化
相关文章