机器之心 前天 03:00
ICML 2025 | 如何在合成文本数据时避免模型崩溃?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了一种名为Token-Level Editing的创新数据生成策略,旨在解决合成数据可能引发的“模型崩溃”问题。该策略并非直接生成数据,而是在真实数据上进行细粒度的“微编辑”,构建更稳定、泛化性更强的“半合成”数据。研究表明,即使少量合成数据也可能导致模型性能下降。Token-Level Editing通过替换模型过度自信的token,保留原始数据的长尾结构,避免分布转移和特征过度集中,从而有效规避模型崩溃风险,并在预训练、持续预训练和监督微调等阶段均展现出有效性。

📉 **模型崩溃风险**: 合成数据比例过高会导致模型性能显著下降,难以泛化到真实数据,研究揭示了非迭代式模型崩溃现象。

🔑 **Token-Level Editing核心思想**: 通过编辑而非纯粹生成数据,在训练数据中仅替换模型“过度自信”的token,保留原始数据的长尾结构。

📈 **理论与实验验证**: 线性回归分析框架证明Token-Level Editing过程的测试误差存在固定上界,实验在预训练、持续预训练和监督微调等阶段全面验证了该方法的有效性。

🧪 **多轮消融实验验证稳健性**: 通过改变编辑阈值、采样策略和替换比例,验证了该方法在不增加训练数据规模的前提下,依然具备良好可控性与可迁移性。

原创 关注数据的 2025-05-14 12:37 四川

更精细、更高质量的数据生成方式。


随着生成式人工智能技术的飞速发展,合成数据正日益成为大模型训练的重要组成部分。未来的 GPT 系列语言模型不可避免地将依赖于由人工数据和合成数据混合构成的大规模语料。


然而,这一趋势也带来了严峻挑战:合成数据如果不加控制地使用,可能引发 “模型崩溃”(Model Collapse)问题。即便仅在一次训练中混入较多比例的合成数据,也可能导致模型性能急剧下降,难以泛化到真实世界的数据中。



最近在 ICML 2025 会议上,来自上交大等研究机构的研究团队系统性地剖析了这一问题,并提出了一种创新的数据生成策略,Token-Level Editing,旨在有效避免模型崩溃。




不同于直接使用生成数据,该方法在真实数据上引入细粒度的 “微编辑” 操作,从而构建出结构更稳定、泛化性更强的 “半合成” 数据,有效规避了模型崩溃风险。



非迭代式模型崩溃现象识别


为了揭示合成数据对语言模型训练的影响,研究团队系统分析了不同合成比例下的模型训练行为。实验显示,即使只进行一次预训练,在数据中混入高比例的合成数据,也会显著导致性能下降。这种现象被称为非迭代式模型崩溃(Non-iterative Collapse),并在多个语言理解任务上得到了验证。



通过进一步统计分析,研究发现,合成数据相较于人工数据存在两类结构性缺陷:




Token-Level Editing

以编辑替代纯生成

更精细、更高质量的数据生成方式


为了解决上述问题,作者团队提出了一种 Token-Level Editing 方法不依赖生成整段文本,而是在训练数据中仅针对模型 “过度自信” 的 token 进行替换,定义如下编辑规则:



其中, 是模型对  的条件概率估计,p 是编辑阈值, 是从先验分布中重新采样的新 token。这一过程保留了原始数据的长尾结构,仅对 “重复高置信度区域” 进行微调。


理论结果

测试误差有限上界,避免模型崩溃


作者进一步构建了线性回归分析框架,并证明 Token-Level Editing 过程的测试误差存在固定上界:



相比模型崩溃中的误差线性上升,这里误差被严格约束,不随迭代轮次增长。其关键原理在于:


每轮编辑操作只对一小部分样本进行调整,模型始终保持对真实数据分布的覆盖,避免了分布转移和特征过度集中。


进一步地,如果编辑矩阵 M_n 的影响强度递减(满足 ),则最终误差上界进一步优化为:



该理论说明,即使在多轮训练中,Token-Level Editing 依然能够从数学上阻止误差的无界增长,实现 “理论上不崩溃” 的数据增强路径。


实验结果

从预训练到微调全面验证方法有效性



为全面验证 Token-Level Editing 的有效性,研究团队在语言模型训练的三个关键阶段进行了系统实验:



此外,为验证方法的稳健性,研究还进行了多轮消融实验,包括:



结果显示:在不增加训练数据规模的前提下,该方法依然具备良好可控性与可迁移性,具备强大的实际落地潜力。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Token-Level Editing 模型崩溃 合成数据 数据增强
相关文章