PaperAgent 02月10日
仅817样本超越o1-preview,上交大LIMO"少即是多"推理新范式
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

LIMO提出“Less-Is-More Reasoning Hypothesis”,认为预训练充分的基础模型,仅需少量精心设计的认知过程演示,即可激发复杂推理能力。该模型仅用817个样本,在数学基准测试中表现出色,超越以往模型。LIMO的关键在于数据集的构建,通过多阶段筛选选择高质量问题,并构建高质量的推理链。实验表明,推理链和问题质量对模型性能有显著影响。LIMO使用监督式微调,采用DeepSpeed ZeRO-3优化和FlashAttention2技术。

🧠LIMO假设:在预训练阶段已全面编码领域知识的基础模型中,复杂的推理能力可以通过最少但精心策划的认知过程演示来激发,即“Less-Is-More Reasoning Hypothesis”。

📚数据集构建:LIMO的数据集构建过程至关重要,通过从多个数据源收集大量候选问题,并经过多阶段筛选过程,最终选择了817个高质量问题,这些问题的选择标准包括难度、普遍性和知识多样性。

🔗推理链质量:实验表明,推理链的质量对模型性能有显著影响,从基础(L1)到专家(L5)级别的解决方案测试表明,推理链的质量可能比想象的更为关键。

🎯问题质量:在MATH/AIME基准测试中,使用500个高级问题进行训练的表现优于使用500个简单问题,问题的选择质量也很重要。

2025-02-07 16:23 湖北

不要1000(李飞飞大佬的s1-32B),只要817样本

复杂推理能力一直是大型语言模型(LLM)面临的挑战之一。LIMO(代码数据模型已全开源)提出了一种新的假设:“Less-Is-More Reasoning Hypothesis”(LIMO假设),即在预训练阶段已经全面编码了领域知识的基础模型中,复杂的推理能力可以通过最少但精心策划的认知过程演示来激发

LIMO(817 个样本)的表现优于o1-preview、QwQ-32B-Preview

LIMO vs RL Scaling:如果LLM本身已经具备推理能力,LIMO只是在激活它们的推理能力强化学习扩展(DeepSeek R1/OpenAI o1)则通过大规模的搜索和优化来发现推理路径

从LIMA到LIMO:Less is More的原则扩展到了数学领域!两个关键点:LLM已经在海量数学数据上进行了训练。推理链的质量比训练数据的数量更重要。

数据集构建

LIMO的数据集构建过程非常关键。从多个数据源收集了大量候选问题,并通过多阶段筛选过程,最终选择了817个高质量问题。这些问题的选择标准包括难度、普遍性和知识多样性。同时,还精心构建了高质量的推理链(reasoning chain),这些推理链具有清晰的结构、有效的认知支持和严格的验证。

不同数据质量下训练的模型的统计分析

训练方法

LIMO使用Qwen2.5-32B-Instruct模型进行监督式微调,采用DeepSpeed ZeRO-3优化和FlashAttention2技术,序列长度限制为16,384个token。

实验结论

LIMO仅使用817个精心策划的训练样本,就在AIME(美国数学邀请赛)基准测试中达到了57.1%的准确率,在MATH基准测试中达到了94.8%的准确率,显著优于以往的SFT模型。

在数学上比较 Qwen2.5、DeepSeek-R1 和 LIMO:LIMO 凭借深度自我反思和更长的推理链脱颖而出,为复杂方程式分配了额外的计算。

推理链质量的影响
推理链的质量对模型性能有显著影响。从基础(L1)到专家(L5)级别的解决方案测试表明,推理链的质量可能比想象的更为关键。

问题质量的影响
在MATH/AIME基准测试中,使用500个高级问题进行训练的表现优于使用500个简单问题。问题的选择质量也很重要!

https://arxiv.org/pdf/2502.03387LIMO: Less is More for Reasoninghttps://github.com/GAIR-NLP/LIMO

推荐阅读


欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

LIMO LLM 推理能力 小样本学习
相关文章