index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html
![]()
吴恩达最新推出的“大语言模型的后训练(Post-training of LLMs)”课程现已全面上线。该课程深入介绍了大模型训练的关键阶段——后训练,并详细讲解了监督微调(SFT)、直接偏好优化(DPO)和在线强化学习(Online RL)三种核心方法。通过学习本课程,开发者将能掌握如何将基础通用语言模型转化为能够理解指令、运用工具并进行复杂推理的智能助手,从而提升模型在特定任务上的表现,打造更安全、更具针对性的AI应用。课程内容结合理论讲解与代码实践,适合已有LLM基础并希望深入提升模型能力的开发者。
🚀 **后训练是LLM转化的关键:** 文章指出,大型语言模型在预训练后,需要通过后训练阶段才能具备执行指令和回答问题的能力。后训练是实现从海量无标签文本到理解并执行特定指令的智能助手的核心过程,对于调整模型语言风格、提升特定任务精确度至关重要。
💡 **三大后训练方法详解:** 课程重点介绍了三种主流的后训练技术:监督微调(SFT)、直接偏好优化(DPO)和在线强化学习(Online RL)。这些方法分别针对不同的优化目标,如学习指令遵循、优化模型偏好以及在动态环境中进行实时调整,是提升LLM性能的关键手段。
🧑🏫 **讲师阵容强大且权威:** 本课程由华盛顿大学助理教授、新晋英伟达首席研究科学家朱邦华主讲。他拥有深厚的学术背景和丰富的实践经验,主导开发了多个高性能模型和评测框架,其研究成果在基础模型理论、训练及应用方面均有显著贡献,确保了课程内容的专业性和前沿性。
🛠️ **实践导向的学习体验:** 课程不仅包含理论讲解,还提供了9个视频课程和4个代码示例,引导学习者下载预训练模型,并通过后训练流程将其转化为指令型模型。这使得学习者能够亲手调整聊天助手的身份设定,并增强模型的数学计算能力,实现学以致用。
🎯 **课程目标与适用人群:** 该课程特别适合希望针对特定任务、行为或场景定制语言模型的AI开发者。对于已经掌握LLM基本知识,并希望深入了解预训练之外核心技术、提升模型价值的学习者来说,这门课程提供了全面且实用的指导。
原创 和吴恩达一起学的 2025-07-10 22:02 浙江

Datawhale学习
最新课程:大语言模型后训练
刚刚,吴恩达新课程「大语言模型的后训练(Post-training of LLMs)」,相关课程和材料现已在网上全面发布!
课程主页:https://www.deeplearning.ai/short-courses/post-training-of-llms/一、为什么值得学:大模型训练发展最迅速的研究方向大型语言模型在能够执行指令和回答问题之前,需要经历预训练(Pre-training)和后训练(Post-training)两个核心阶段。
预训练阶段,模型通过学习从海量未标注的文本中预测下一个词或token来掌握基础知识。而在后训练阶段,模型则着重学习实际应用中的关键能力,包括准确理解并执行指令、熟练运用工具,以及进行复杂的逻辑推理。
后训练是将在海量无标签文本上训练的原始的通用语言模型转变为能够理解并执行特定指令的智能助手的过程。无论是想打造一个更安全的 AI 助手、调整模型的语言风格,还是提升特定任务的精确度,后训练都不可或缺。
后训练是大语言模型训练中发展最迅速的研究方向之一。

而在本课程中,就可以学习到三种常见的后训练方法——监督微调(SFT)、直接偏好优化(DPO)和在线强化学习(Online RL)——以及如何有效使用它们。
二、课程讲师:华盛顿大学助理教授,刚任命英伟达首席研究科学家的大佬这是该课程的讲师——朱邦华(Banghua Zhu):

朱邦华(Banghua Zhu)是华盛顿大学电子与计算机工程系(ECE)助理教授,并兼任计算机科学与工程系(CSE)教职,2023 年联合创立 AI 企业 Nexusflow,专注于企业级智能体开发。他拥有加州大学伯克利分校 EECS 博士学位(师从 Jiantao Jiao 和 Michael I. Jordan)及清华大学电子工程学士学位,曾获伯克利 2023 年度 David J. Sakrison 纪念奖。其研究横跨基础模型理论、训练与应用,主导开发了 LMArena 评测框架及 Starling-7B、Athene 系列等高性能模型,在函数调用、多语言能力等场景表现超越 GPT-4o。他提出的 RLHF 改进算法、大语言模型水印技术及 S-LoRA 服务框架,推动了 AI 领域的工程与理论进展。半个月前,刚刚被黄仁勋任命为新首席研究科学家。
三、课程简介该课程包含 9 个视频课程,4 个代码示例。通过这些内容带你学习:
了解在什么情况下应使用后训练方法,包括监督微调(SFT)、直接偏好优化(DPO)和在线强化学习(RL),并深入分析其应用背景和优势。深入理解大语言模型(LLM)后训练的三大方法:SFT、DPO 和 Online RL。探索这些方法的核心原理、典型应用场景,并学习如何精心筛选和准备高质量训练数据,从而有效地提升模型性能。下载预训练模型,然后通过后训练的流程,将基础模型转化为指令型模型,来调整聊天助手的身份设定,并增强模型的数学计算能力。
这里简单总结了该课程的目录,可以在课程主页观看对应视频课并观看和实践:后训练简介SFT 基础SFT 实践DPO 基础知识DPO 实践在线强化学习基础在线强化学习实践总结测试附录 – 提示、帮助和下载本课程适合:希望针对特定任务、行为或场景定制语言模型的 AI 开发者。如果你已经掌握了 LLM 的基本知识,并准备深入学习预训练之外的内容,这门课程将帮助你全面了解并熟练运用让 LLM 真正发挥价值的核心技术。一起“点赞”三连↓
阅读原文
跳转微信打开