2025-02-07 16:23 湖北
不要1000(李飞飞大佬的s1-32B),只要817样本
复杂推理能力一直是大型语言模型(LLM)面临的挑战之一。LIMO(代码数据模型已全开源)提出了一种新的假设:“Less-Is-More Reasoning Hypothesis”(LIMO假设),即在预训练阶段已经全面编码了领域知识的基础模型中,复杂的推理能力可以通过最少但精心策划的认知过程演示来激发。
LIMO(817 个样本)的表现优于o1-preview、QwQ-32B-Preview
LIMO vs RL Scaling:如果LLM本身已经具备推理能力,LIMO只是在激活它们的推理能力;强化学习扩展(DeepSeek R1/OpenAI o1)则通过大规模的搜索和优化来发现推理路径。
从LIMA到LIMO:Less is More的原则扩展到了数学领域!两个关键点:LLM已经在海量数学数据上进行了训练。推理链的质量比训练数据的数量更重要。
数据集构建
LIMO的数据集构建过程非常关键。从多个数据源收集了大量候选问题,并通过多阶段筛选过程,最终选择了817个高质量问题。这些问题的选择标准包括难度、普遍性和知识多样性。同时,还精心构建了高质量的推理链(reasoning chain),这些推理链具有清晰的结构、有效的认知支持和严格的验证。
不同数据质量下训练的模型的统计分析
训练方法
LIMO使用Qwen2.5-32B-Instruct模型进行监督式微调,采用DeepSpeed ZeRO-3优化和FlashAttention2技术,序列长度限制为16,384个token。
实验结论
LIMO仅使用817个精心策划的训练样本,就在AIME(美国数学邀请赛)基准测试中达到了57.1%的准确率,在MATH基准测试中达到了94.8%的准确率,显著优于以往的SFT模型。
在数学上比较 Qwen2.5、DeepSeek-R1 和 LIMO:LIMO 凭借深度自我反思和更长的推理链脱颖而出,为复杂方程式分配了额外的计算。
推理链质量的影响
推理链的质量对模型性能有显著影响。从基础(L1)到专家(L5)级别的解决方案测试表明,推理链的质量可能比想象的更为关键。
问题质量的影响
在MATH/AIME基准测试中,使用500个高级问题进行训练的表现优于使用500个简单问题。问题的选择质量也很重要!
https://arxiv.org/pdf/2502.03387
LIMO: Less is More for Reasoning
https://github.com/GAIR-NLP/LIMO
推荐阅读
• 对齐LLM偏好的直接偏好优化方法:DPO、IPO、KTO
• DeepSeek R1/o1大型推理模型蓝图:架构设计及快速原型实现框架x1
• RAG全景图:从RAG启蒙到高级RAG之36技,再到终章Agentic RAG!
• Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解(1.2万字,20+文献,27张图)
欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。