PaperAgent 2024年10月28日
一篇大模型数据合成和增强技术最新综述
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文全面回顾并总结了大型语言模型整个生命周期中的数据生成技术,包括数据准备、预训练、微调、指令调优、偏好对齐和应用等方面,探讨了数据合成和增强的方法及作用。

🎯数据生成包含数据增强和合成两种主要方法,数据增强从数据到数据,增加多样性和数量;数据合成从头创建新数据,与真实数据分布相似。

📋数据准备阶段,通用模型蒸馏利用强大LLMs蒸馏高质量数据,数据增强通过多种技术处理现有数据,以获得多样化高质量数据集。

💪预训练阶段,从模型自我改进、通用模型蒸馏和数据增强三个角度讨论现有方法,提供丰富多样且可控制的训练数据,提升模型性能并减少偏见。

🎯微调阶段,通过模型自我改进、通用模型蒸馏和数据增强的方法,利用生成的数据对LLMs进行微调,提升模型在特定任务上的表现。

📖指令调优阶段,将现有方法分为通用模型蒸馏、模型自我改进和数据增强三类,帮助生成高质量指令遵循数据。

2024-10-26 16:09 湖北

大型语言模型(LLMs)高质量数据的增长速度远远落后于训练数据集的扩张,在这种情况下,合成数据已成为一个有希望的解决方案。目前,数据生成主要包含两种主要方法:数据增强和合成。全面回顾并总结了LLMs整个生命周期中的数据生成技术,包括数据准备、预训练、微调、指令调优、偏好对齐和应用

本综述的主要内容流程和分类

现有关于数据合成和增强技术的调查与本次工作的比较。先前的调查主要关注基于大型语言模型(LLM)的数据合成和增强方法,旨在支持下游任务。相比之下,我们的工作强调以LLM为导向的数据合成和增强,系统地涵盖了LLM的完整生命周期——从数据准备到应用——并解决核心LLM功能,如理解和生成,最终目标是通过以数据为中心的技术来改进LLM本身。

数据增强与合成

介绍了数据生成方法的分类,这些方法在处理数据稀缺性和不平衡性方面起着关键作用,从而提高模型性能和泛化能力,将数据增强和合成技术的发展和演变进行了总结:

    数据增强(Data Augmentation)

数据合成(Data Synthesis)

大型模型数据合成和增强技术发展演变步骤的说明图

数据准备阶段

讨论了在大型语言模型(LLMs)的数据准备阶段,数据合成和增强如何帮助生成多样化和高质量的数据集,以应对真实世界数据稀缺的挑战。根据之前讨论的分类,将当前的研究分为通用模型蒸馏数据增强两部分:

    通用模型蒸馏(General Model Distillation)

数据增强(Data Augmentation)

数据准备中的数据合成和增强。在表格中,方法概述了每项研究提出的技术。数据源和合成数据分别指用于生成合成数据的原始数据和为训练目的创建的合成数据。任何单元格中的破折号(-)表示在引用的文献中没有提及相应的内容。

预训练阶段

探讨了在大型语言模型(LLMs)的预训练阶段,数据合成和增强如何提供丰富、多样化且可控制的训练数据,以提升模型性能并减少偏见。从模型自我改进、通用模型蒸馏和数据增强三个角度讨论了现有的方法:

    模型自我改进(Model Self-Improvement)

通用模型蒸馏(General Model Distillation)

数据增强(Data Augmentation)

预训练中的数据合成和增强。方法概述了每项研究提出的技术。数据源和合成数据分别指用于生成合成数据的原始数据和为预训练创建的合成数据。基础模型和预训练模型分别指基础模型和已经过预训练的模型。任何单元格中的破折号(-)表示在引用的文献中没有提及相应的内容。

微调阶段

讨论了在大型语言模型(LLMs)的微调阶段,数据合成和增强如何通过生成的数据对LLMs进行微调,以提升模型在特定任务上的表现。从模型自我改进、通用模型蒸馏和数据增强三个角度探讨了现有的方法:

    模型自我改进(Model Self-Improvement)

通用模型蒸馏(General Model Distillation)

数据增强(Data Augmentation)

微调中的数据合成和增强。在表格中,方法概述了每项研究提出的技术。数据源和合成数据分别指用于生成合成数据的原始数据和为微调创建的合成数据。基础模型和微调模型分别指基础模型和已经过微调的模型。任何单元格中的破折号(-)表示在引用的文献中没有提及相应的内容。

指令调优阶段

探讨了在大型语言模型(LLMs)的指令调优阶段,数据合成和增强如何帮助生成高质量的指令遵循数据。将现有的方法分为三个类别:通用模型蒸馏、模型自我改进和数据增强。

    通用模型蒸馏(General Model Distillation)

模型自我改进(Model Self-Improvement)

数据增强(Data Augmentation)

偏好对齐阶段

讨论了如何通过数据合成和增强技术来优化大型语言模型(LLMs)以符合复杂的人类偏好。这个过程涉及以下几个关键阶段:

    通用模型蒸馏(General Model Distillation)

领域模型蒸馏(Domain Model Distillation)

模型自我改进(Model Self-Improvement)

数据增强(Data Augmentation)

应用阶段

探讨了大型语言模型(LLMs)在特定应用领域中如何通过数据合成和增强技术来提升性能。这些应用领域通常需要高质量的数据集来实现有效的指令调优。将这些应用分为几个主要领域,以及在这些领域中数据合成和增强的方法:

    数学(Math)

科学(Science)

编程(Code)

医疗(Medical)

法律(Law)

按发表年份和会议场所分组的,与以LLM为导向的数据合成和增强技术相关的出版物统计数据。


https://arxiv.org/pdf/2410.12896A Survey on Data Synthesis and Augmentation for Large Language Models

推荐阅读


欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

大型语言模型 数据合成 数据增强 模型性能
相关文章