报告主题:LLM Alignment综述及RLHF、DPO、UNA的深入分析

报告日期:09月24日(周二)10:30-11:30

报告要点:

报告将深入探讨以下两篇重要文章:1. A Comprehensive Survey of LLM Alignment Techniques: RLHF, RLAIF, PPO, DPO and More 以及 2. UNA: Unifying Alignments of RLHF/PPO, DPO and KTO by a Generalized Implicit Reward Function。对大型语言模型(LLM)进行对齐的目标是确保其输出符合人类价值观和伦理标准,减少偏见与误导性内容的生成,提升模型的安全性,并防止其被恶意利用。通过对齐过程,模型的行为可以更好地与人类期望和社会规范保持一致,从而降低潜在的负面影响,并增强用户的信任度。本次报告,我们将围绕四个主要主题进行探讨:1. Reward Model(奖励模型);2. Feedback(反馈机制);3. Reinforcement Learning (RL)(强化学习);4. Optimization(优化方法)。此外,我们还将从十三个细化的角度进行详细阐述,并特别针对RLHF、DPO和UNA等关键文章进行深入的技术讲解,以便为参与者提供全面而深入的理解。

报告嘉宾:

王智超,Salesforce的机器学习科学家。本科来自于厦门大学,研究生和博士在Georgia Institute of Technology就读,现在在Salesforce做LLM Alignment相关的工作。

扫码报名