Datawhale 07月11日 00:57

英伟达大牛主讲！斯坦福吴恩达：大语言模型的后训练课程全网发布

吴恩达最新课程聚焦大语言模型后训练，旨在帮助AI开发者掌握将通用语言模型转化为智能助手的关键技术。课程涵盖监督微调（SFT）、直接偏好优化（DPO）和在线强化学习（Online RL）等后训练方法，并提供代码示例。课程由华盛顿大学助理教授、英伟达首席研究科学家朱邦华主讲，适合希望定制语言模型的AI开发者学习。

💡 课程核心在于后训练，这是将预训练的通用语言模型转化为能理解并执行特定指令的智能助手的关键过程。后训练对于打造更安全的AI助手、调整模型语言风格以及提升特定任务精确度至关重要。

👨‍🏫 课程讲师为朱邦华，华盛顿大学助理教授，也是英伟达新任首席研究科学家。朱邦华在基础模型理论、训练与应用方面有深入研究，其开发的LMArena评测框架及Starling-7B等模型表现出色。

📚 课程包含9个视频课程和4个代码示例，涵盖了SFT、DPO和Online RL三种后训练方法。通过学习，可以了解这些方法的核心原理、应用场景，并学习如何准备高质量的训练数据。

🛠️ 课程内容包括如何通过后训练流程，将基础模型转化为指令型模型，例如调整聊天助手的身份设定、增强模型的数学计算能力等，从而提升模型的实用性和针对性。

原创和吴恩达一起学的 2025-07-10 22:02 浙江

Datawhale学习
最新课程：大语言模型后训练

刚刚，吴恩达新课程「大语言模型的后训练（Post-training of LLMs）」，相关课程和材料现已在网上全面发布！

课程主页：https://www.deeplearning.ai/short-courses/post-training-of-llms/

一、为什么值得学：大模型训练发展最迅速的研究方向

大型语言模型在能够执行指令和回答问题之前，需要经历预训练（Pre-training）和后训练（Post-training）两个核心阶段。

预训练阶段，模型通过学习从海量未标注的文本中预测下一个词或token来掌握基础知识。而在后训练阶段，模型则着重学习实际应用中的关键能力，包括准确理解并执行指令、熟练运用工具，以及进行复杂的逻辑推理。

后训练是将在海量无标签文本上训练的原始的通用语言模型转变为能够理解并执行特定指令的智能助手的过程。无论是想打造一个更安全的 AI 助手、调整模型的语言风格，还是提升特定任务的精确度，后训练都不可或缺。

后训练是大语言模型训练中发展最迅速的研究方向之一。

而在本课程中，就可以学习到三种常见的后训练方法——监督微调（SFT）、直接偏好优化（DPO）和在线强化学习（Online RL）——以及如何有效使用它们。

二、课程讲师：华盛顿大学助理教授，刚任命英伟达首席研究科学家的大佬

这是该课程的讲师——朱邦华（Banghua Zhu）：

朱邦华（Banghua Zhu）是华盛顿大学电子与计算机工程系（ECE）助理教授，并兼任计算机科学与工程系（CSE）教职，2023 年联合创立 AI 企业 Nexusflow，专注于企业级智能体开发。他拥有加州大学伯克利分校 EECS 博士学位（师从 Jiantao Jiao 和 Michael I. Jordan）及清华大学电子工程学士学位，曾获伯克利 2023 年度 David J. Sakrison 纪念奖。其研究横跨基础模型理论、训练与应用，主导开发了 LMArena 评测框架及 Starling-7B、Athene 系列等高性能模型，在函数调用、多语言能力等场景表现超越 GPT-4o。他提出的 RLHF 改进算法、大语言模型水印技术及 S-LoRA 服务框架，推动了 AI 领域的工程与理论进展。

半个月前，刚刚被黄仁勋任命为新首席研究科学家。