魔搭ModelScope社区 2024年12月19日
社区供稿 | 引入隐式模型融合技术,中山大学团队推出 FuseChat-3.0
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

中山大学研究团队提出了FuseChat-3.0,一种创新的隐式模型融合方法。该方法通过偏好优化,无需显式对齐词表,即可有效提升大语言模型的性能,且不增加推理开销。FuseChat-3.0 通过构建偏好数据集,并应用监督微调(SFT)和直接偏好优化(DPO)两个阶段,将多个源模型的优势隐式迁移到目标模型中。该方法在指令遵循、通用问答、数学推理和代码生成等多个基准测试中均取得了显著的性能提升,尤其在指令遵循方面表现突出,相较于其他模型具有显著优势。FuseChat-3.0的提出,为大语言模型融合提供了新的思路,使得模型性能提升更加高效和轻量化。

💡FuseChat-3.0 是一种隐式模型融合方法,它利用偏好优化技术,避免了传统方法中复杂的词表对齐问题,从而提升了模型融合的效率。

🎯该方法包含两个关键阶段:监督微调(SFT)和直接偏好优化(DPO)。SFT阶段通过微调缩小目标模型与源模型之间的差距,DPO阶段则利用源模型的偏好数据进一步优化目标模型。

🧪研究团队通过在多个基准测试上进行评估,证明了 FuseChat-3.0 在指令遵循、通用问答、数学推理和代码生成等多个方面均取得了显著的性能提升,特别是在指令遵循方面的提升尤为突出。

📚 FuseChat-3.0 的数据集构建过程非常关键,它针对不同任务(指令遵循、数学、代码和中文)采用了不同的数据处理和采样策略,确保了数据集的多样性和高质量。

FuseAI团队 2024-12-19 17:41 浙江

中山大学研究团队提出了FuseChat-3.0,一种新的隐式模型融合方法,通过偏好优化无需显式对齐词表,有效提升了大语言模型的性能而不增加推理开销。

01


前言



在大语言模型(LLM)领域,结合多个模型的优势以提升单个模型的能力已成为一大趋势。然而,以往的模型融合方法例如 FuseLLM[1], FuseChat-1.0/2.0[2] 等存在词表对齐困难、效率低下等问题。近日,中山大学的研究团队提出了 FuseChat-3.0,一种利用偏好优化进行隐式模型融合的新方法。


不同于显式模型融合需要对齐不同模型的概率分布,FuseChat-3.0 通过构建偏好数据集并应用监督微调(SFT)和直接偏好优化(DPO)两个阶段,将多个源模型的能力隐式地迁移到目标模型中,实现了在不增加推理开销的前提下,显著提升目标模型的性能。


项目主页:

https://slit-ai.github.io/FuseChat-3.0


模型地址:

https://www.modelscope.cn/organization/FuseAI


论文链接:

https://arxiv.org/abs/2412.03187


02


方法介绍



FuseChat-3.0的核心在于利用偏好优化进行隐式模型融合(IMF),从多个强大的源模型中学习偏好,将其能力迁移到更小的目标模型中。作为对WRPO[3]核心思想的实践性延伸和优化,我们对原始方案进行了精简和改进,以提升开源社区的可复现性和降低计算资源消耗。整体方法由以下三个主要步骤构成:


这些优化调整在保留隐式模型融合核心优势的同时,使得实现更加轻量化和实用化,更适合开源社区的实际应用场景。


03


实验设置



源模型

Gemma-2-27B-ItMistral-Large-Instruct-2407Qwen-2.5-72B-InstructLlama-3.1-70B-Instruct


目标模型

Llama-3.1-8BLlama-3.2-3BLlama-3.2-1BQwen-2.5-7BGemma-2-9B

数据集

数据集构建的目的在于增强模型的指令遵循、通用对话、数学、代码和中文能力。研究团队从开源社区数据集中选择数据,进行了有针对性的过滤和预处理。主要的数据集和过滤标准包括:


针对每个数据集的问题,研究团队主要从四个不同系列的源模型合成回复,包括 Gemma-2-27b-It、Mistral-Large-Instruct-2407、Qwen-2.5-72B-Instruct 和Llama-3.1-70B-Instruct。



由于不同领域数据存在各自特点,研究团队设计如下方案为每个领域构建 SFT 和 DPO 数据集。



最终数据集包含 158,784 条样本,其中 94,539 条用于 SFT 阶段,64,245 个偏好对用于DPO 阶段。数据集的整体构成如下所示。


04


结果评估



针对指令微调模型的评估主要集中在模型在指令遵循、自然语言理解、通用问答、推理、数学、代码等方面的性能。对于 FuseChat-3.0 的评估,包含了 14 个基准测试,划分为以下四类:


研究团队选择了多个目标模型进行实验,包括 Llama-3.1-8B-Instruct、Gemma-2-9B-It、Qwen-2.5-7B-Instruct,以及更小的Llama-3.2-3B-Instruct 和 Llama-3.2-1B-Instruct。在包括指令遵循、通用问答、数学推理、代码生成等 14 个基准测试上,FuseChat-3.0 显示出了显著的性能提升。


以 Llama-3.1-8B-Instruct 作为目标模型的实验为例,FuseChat-3.0在所有基准测试上的平均性能提升了 6.8 分。其中,在指令遵循测试集 AlpacaEval-2 和 Arena-Hard 上,性能分别提升了 37.1 分和 30.1 分,表现出色。


此外,和 AllenAI 最近发布的 Llama-3.1-Tulu-3-8B 模型对比,FuseChat-3.0 在除 GSM8K 和 GPQA-Diamond 外的所有基准测试中都展现出显著性能优势。关于更多目标模型上的实验结果,请参考原文(https://slit-ai.github.io/FuseChat-3.0)。


05


参考论文



[1]Wan F, Huang X, Cai D, et al. Knowledge Fusion of Large Language Models[C]//TheTwelfth International Conference on Learning Representations.

[2] Wan F, Zhong L, Yang Z, et al. Fusechat: Knowledge fusion of chatmodels[J]. arXiv preprint arXiv:2408.07990, 2024.

[3]Yang Z, Wan F, Zhong L, et al.Weighted-Reward Preference Optimization for Implicit Model Fusion[J]. arXivpreprint arXiv:2412.03187, 2024.


点击阅读原文,即可跳转模型合集链接~




?点击关注ModelScope公众号获取

更多技术信息~




阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

FuseChat-3.0 隐式模型融合 偏好优化 大语言模型 模型微调
相关文章