机器之心 2024年10月10日
综合RLHF、DPO、KTO优势,统一对齐框架UNA来了
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

UNA是由Salesforce、厦门大学的研究团队提出的新方法,它通过通用隐式奖励函数统一了RLHF、DPO和KTO等语言模型对齐技术,简化训练流程,提高性能、稳定性和效率,实验表明其在多个任务中有显著优势。

UNA通过使用RLHF的目标函数推导出通用的隐式奖励函数,将不同类型奖励信息整合到统一框架中处理,体现了其理论创新性。

UNA将传统RLHF中不稳定且资源密集的强化学习过程转化为稳定的监督学习过程,减少训练不稳定性和内存需求,优化了训练流程。

UNA能够处理不同类型的反馈数据,包括成对反馈、二元反馈及基于评分的反馈,具有更强的适应性和灵活性。

在多个下游任务中,UNA的表现优于RLHF和DPO,在训练速度、内存占用和任务表现等方面有显著提升。

2024-10-09 14:08 北京

简化流程,提升效率。

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com


论文主要作者:


1. 王智超:本科就读于厦门大学土木工程系,研究生博士就读于佐治亚理工并获得土木工程和计算机工程硕士及机械工程博士,现任职于 Salesforce,专注于 LLM Alignment。

2. 闭彬:本科就读于华中科技大学计算机工程系,研究生就读于香港大学计算机科学系,博士就读于 UCLA 计算机科学系,现任职于 Salesforce,专注于 LLM Alignment。

3. 黄灿:厦门大学数学系副教授


随着大规模语言模型的快速发展,如 GPT、Claude 等,LLM 通过预训练海量的文本数据展现了惊人的语言生成能力。然而,即便如此,LLM 仍然存在生成不当或偏离预期的结果。这种现象在推理过程中尤为突出,常常导致不准确、不符合语境或不合伦理的回答。为了解决这一问题,学术界和工业界提出了一系列对齐(Alignment)技术,旨在优化模型的输出,使其更加符合人类的价值观和期望。


其中,RLHF 是一种广泛使用的方法,依赖于从人类反馈中学习强化策略。RLHF 的流程包括两个阶段:首先,通过人类偏好数据训练奖励模型(Reward Model, RM),然后使用该奖励模型指导策略模型(Policy Model)的强化学习优化。然而,RLHF 存在若干显著问题,如高内存占用、训练不稳定以及流程复杂等。


为了解决 RLHF 的复杂性,DPO 方法被提出。DPO 简化了 RLHF 的流程,将强化学习的训练阶段转化为一个二分类问题,减少了内存消耗并提高了训练稳定性。但 DPO 无法充分利用奖励模型,且仅适用于成对的偏好数据,无法处理更为广泛的反馈类型。


此外,KTO 进一步扩展了 DPO,能够处理二元数据(如正向和负向反馈),但它同样有其局限性,无法统一处理不同类型的反馈数据,也无法有效利用已有的奖励模型。


在这种背景下,来自 Salesforce、厦门大学的研究团队提出了一种名为 UNA 的新方法,它通过一种通用的隐式奖励函数,统一了当前主流的大规模语言模型(LLM)对齐技术。主要包括 RLHF、DPO 和 KTO,这些技术的结合不仅简化了模型的训练流程,还提高了模型对齐的性能,稳定性和效率。




UNA 的创新点


UNA 的核心创新点在于通过一个(generalized implicit reward function)将 RLHF、DPO 和 KTO 统一为一个监督学习问题。UNA 的创新体现在以下几个方面:




UNA 的理论基础


UNA 的理论基础源于对 RLHF 目标函数的重新推导。研究人员证明,给定 RLHF 的经典目标函数,最优策略可以通过一个隐式的奖励函数来诱导。该隐式奖励函数是策略模型与参考策略之间的对比结果,通过这个函数,UNA 能够将不同类型的奖励信息整合到统一的框架中进行处理。



实验结果与性能表现


研究人员通过一系列实验验证了 UNA 的有效性和优越性。在多个下游任务中,UNA 相较于传统的 RLHF、DPO 和 KTO 都有显著的性能提升,特别是在训练速度、内存占用和任务表现等方面。以下是实验结果的主要亮点:





总结


UNA 的提出标志着大规模语言模型对齐技术的一个重要进展。通过统一 RLHF、DPO 和 KTO,UNA 不仅简化了模型的训练流程,还提高了训练的稳定性和效率。其通用的隐式奖励函数为模型的对齐提供了一个统一的框架,使得 UNA 在处理多样化反馈数据时具有更强的适应性和灵活性。实验结果表明,UNA 在多个下游任务中表现优越,为语言模型的实际应用提供了新的可能性。未来,随着 UNA 的进一步发展,预期它将在更多的应用场景中展现出强大的能力。




© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

UNA 语言模型 对齐技术 隐式奖励函数
相关文章