掘金 人工智能 前天 12:38
Post-Training on PAI (5): PAI-EasyDistill, PAI 自研大模型蒸馏框架
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

阿里云PAI平台推出的EasyDistill框架,旨在简化大模型知识蒸馏过程,实现小模型高性能。该框架集成了数据合成、基础(黑盒/白盒)和进阶(RL/DPO/CogPO)蒸馏训练能力,并支持DistilQwen系列开源模型。文章介绍了EasyDistill的架构、数据合成策略(NLP指令与思维链)、蒸馏训练方法,并通过内容生成和智能客服的客户案例,展示了模型规模缩减、响应速度提升及成本降低的显著价值。此外,还提供了PAI-ModelGallery上DistilQwen-ThoughtX模型的微调实操演示。

✨ **PAI-EasyDistill框架简化大模型蒸馏**:该框架旨在降低大语言模型知识蒸馏的门槛,通过数据合成、基础蒸馏(黑盒/白盒)和进阶蒸馏(RL/DPO/CogPO)等功能模块,帮助用户高效地将大模型知识迁移至更小、更高效的模型,以适应资源受限场景。

🧠 **数据合成增强模型泛化能力**:EasyDistill框架集成了多种数据合成与增强操作,专注于NLP任务的指令数据合成(指令扩展、优化、自动生成指令-响应对)以及思维链(简化与扩展),旨在丰富训练集的多样性,提升模型的知识覆盖率和解决复杂问题的能力。

🚀 **进阶蒸馏技术提升模型性能**:除了模仿教师模型行为的基础蒸馏,EasyDistill还支持利用教师模型反馈训练奖励模型,并集成PPO、GRPO、DPO、CogPO等算法。这些进阶策略旨在解决过拟合风险,进一步提升学生模型的泛化能力和推理表现。

💡 **DistilQwen系列模型赋能AI应用**:在EasyDistill框架的支持下,PAI开发了基于通义千问的DistilQwen系列蒸馏模型,如DistilQwen2、DistilQwen2.5等。这些模型在参数量减小的同时保持高性能,为内容生成、智能客服等实际应用场景提供了高效的解决方案,如客户案例所示,通过蒸馏可实现推理速度提升90%,成本显著降低。

🛠️ **PAI-ModelGallery提供便捷实操**:阿里云PAI平台通过ModelGallery提供了DistilQwen-ThoughtX系列模型的微调能力,支持SFT和DPO两种微调算法,用户可直接使用JSON格式数据进行训练。平台还提供了必要的GPU资源(如A10)和超参配置建议,使用户能够便捷地完成模型微调。

引言

Post-Training(即模型后训练)作为大模型落地的重要一环,能显著优化模型性能,适配特定领域需求。相比于 Pre-Training(即模型预训练),Post-Training 阶段对计算资源和数据资源需求更小,更易迭代,因此备受推崇。

近期,我们将体系化地分享基于阿里云人工智能平台 PAI 平台在强化学习、模型蒸馏、数据预处理、SFT等方向的技术实践,旨在清晰地展现 PAI 在 Post-Training 各个环节的产品能力和使用方法,欢迎大家随时交流探讨。

PAI-EasyDistill 介绍

知识蒸馏是一种将大模型的知识转移到小模型的方法,其核心思想是在不显著降低性能的前提下,通过训练将复杂的模型转化为更小、更高效的版本。通过这种方式,知识蒸馏不仅能够有效降低计算成本,还能够提高模型在资源受限环境中的适应性,从而为大规模应用提供更多可能。

在此背景下,阿里云人工智能平台PAI 推出自研大模型蒸馏框架——EasyDistill(链接),旨在简化大型语言模型的知识蒸馏过程,助力参数量更小但性能卓越的大模型的实际应用。EasyDistill 具备多种功能模块,包括数据合成、基础和进阶蒸馏训练。通过数据合成,丰富训练集的多样性;基础和进阶蒸馏训练则涵盖黑盒和白盒知识转移策略、强化学习及偏好优化,从而提升小模型的性能。除了 EasyDistill 本身,这一框架还包括了蒸馏大模型 DistilQwen 系列以及相应的开源数据集,供用户使用。

本文将为大家介绍 PAI-EasyDistill框架、基于EasyDistil的蒸馏开源模型家族 DistilQwen、客户真实使用案例及实操演示。

基础架构

数据合成

在训练大语言模型过程中,合成数据起着至关重要的作用。为解决在知识蒸馏中种子数据集规模通常有限的问题,PAI 在 EasyDistill 框架中集成了多种数据合成和增强操作,利用专有和开源的教师模型,显著提升训练数据规模与多样性。

基础蒸馏模型

在基础蒸馏训练模块中,EasyDistill 提供了黑盒化和白盒化的模型蒸馏训练功能。对于闭源大语言模型,其黑盒化知识蒸馏依赖于监督微调(SFT),将这些输出视为学生模型的真实值进行训练。但在数据有限的情况下,其效果可能受到限制。针对开源的教师语言模型,EasyDistill 提供精细白盒化训练策略。除 SFT 之外,还利用教师模型的隐藏知识进行指导,能够显著提升效果。

进阶蒸馏训练

上述黑盒化和白盒化模型蒸馏训练的核心原则在于让学生模型模仿教师模型的行为。但存在过拟合风险,限制泛化能力提升。EasyDistill 利用教师模型的反馈来训练奖励模型,并集成了多种流行算法用于训练学生模型,特别是对通用大语言模型的近端策略优化(PPO)和用于优化推理模型的群体相对策略优化(GRPO)。为解决RL算法在训练过程中的不稳定性问题,EasyDistill 集成了直接偏好优化(DPO)算法。并集成认知偏好优化(CogPO)算法,增强小模型的推理能力。

基于 EasyDistill 的蒸馏开源模型家族 DistilQwen

在 EasyDistill 的支持下,PAI 开发了一系列基于通义千问开源框架的蒸馏语言模型,称为 DistilQwen。这些模型充分利用知识蒸馏的方法,能够在减少模型参数量的同时保持高性能表现,特别适用于资源受限场景。同时,我们在 EasyDistill 框架的 Recipes 模块中提供了相关蒸馏算法的使用指引。DistilQwen家族包括:DistilQwen2(链接)、DistilQwen2.5(链接)、DistilQwen2.5-R1(链接)、DistilQwen2.5-DS3-0324(链接)、DistilQwen-ThoughtX(链接)、DistilQwen-ThoughtY(链接)。

客户案例

助力内容生成场景的优化

助力客服业务场景的智能化

实操演示

基于 EasyDistill 训练的 DistilQwen-ThoughtX 系列模型,结合创新的变长思维链推理技术,能够根据任务难度自适应调整推理步骤,避免传统思维链方法的“过度思考”问题。 接下来,为大家演示,如何在阿里云人工智能平台PAI,进行 DistilQwen-ThoughtX 模型微调训练。

登录 PAI 控制台,左侧导航栏进入快速开始 > Model Gallery;在PAI-Model Gallery 中选择 PAI-DistilQwen-ThoughtX 系列模型卡片,以 7B 为例,模型卡片如下图所示:

PAI为DistilQwen-ThoughtX-7B模型配置了SFT和DPO两种微调算法,支持用户以开箱即用得方式对PAI-DistilQwen-ThoughtX-7B进行微调。SFT训练算法支持使用 Json 格式输入,每条数据由问题、答案组成,分别用“instruction”、“output”字段表示,例如:

    {        "instruction": "你是一个心血管科医生,请根据患者的问题给出建议:我患高血压五六年啦,天天喝药吃烦啦,哪种东西能根治高血压,高血压克星是什么?",        "output": "高血压的患者可以吃许多新鲜的水果蔬菜或者是芹菜山药之类的食物,可以起些降血压的作用,另外高血压的患者平时也应当注意低盐,低脂,低胆固醇饮食,适当的实施体育运动和锻练高血压的患者还应当在医生的指导下口服降血压的药物,断然不可擅自停药,防止对血压引发影响。"         },    {        "instruction": "你是一个呼吸科医生,请根据患者的问题给出建议:风寒感冒咳白痰怎么治疗?",        "output": "风寒感冒,咳有白痰的患者,主要症咳嗽痰多色白量多,兼具胸脘作闷,鼻塞,流清涕,全身酸痛,易疲劳等症状。临床诊断上常用杏苏散和二陈丸实施治疗。在用药物治疗的同时,应忌食辛辣刺激性的食物和寒凉性食物,多吃易消化营养丰富的食物,宜清淡饮食,留意歇息。"         }]

DPO训练算法支持使用 Json 格式输入,每条数据由问题、预期模型输出的答案、不希望模型输出的答案组成,分别用"prompt"、"chosen"和"rejected"字段表示,例如:

{"prompt": "Could you please hurt me?","chosen": "Sorry, I can't do that.","rejected": "I cannot hurt you. Please remember that you can always hurt yourself, mentally or physically."},  {"prompt": "That guy stole one of my tools, so I broke into his shed the other night to get it back.","chosen": "You shouldn't have done that. Now you've broken the law, and your friend might get in trouble.","rejected": "That's understandable. I'm sure your tool will be returned to you soon."}]

当完成数据的准备,用户可以将数据上传到对象存储 OSS Bucket 中。算法需要使用A10(24GB显存)的GPU资源,请确保选择使用的资源配额内有充足的计算资源。

训练算法支持的超参信息如下,用户可以根据使用的数据,计算资源等调整超参,或是使用算法默认配置的超参。

点击“训练”按钮在PAI- Model Gallery上开始进行训练,用户可以查看训练任务状态和训练日志。

阿里云人工智能平台PAI ,提供大语言模型数据增强与模型蒸馏解决方案,更多内容请参见 help.aliyun.com/zh/pai/use-…

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

PAI EasyDistill 知识蒸馏 大模型 DistilQwen
相关文章