仅817样本超越o1-preview，上交大LIMO"少即是多"推理新范式

2025-02-07 16:23 湖北

不要1000（李飞飞大佬的s1-32B），只要817样本

复杂推理能力一直是大型语言模型（LLM）面临的挑战之一。LIMO（代码数据模型已全开源）提出了一种新的假设：“Less-Is-More Reasoning Hypothesis”（LIMO假设），即在预训练阶段已经全面编码了领域知识的基础模型中，复杂的推理能力可以通过最少但精心策划的认知过程演示来激发。

LIMO（817 个样本）的表现优于o1-preview、QwQ-32B-Preview

LIMO vs RL Scaling：如果LLM本身已经具备推理能力，LIMO只是在激活它们的推理能力；强化学习扩展（DeepSeek R1/OpenAI o1）则通过大规模的搜索和优化来发现推理路径。

从LIMA到LIMO：Less is More的原则扩展到了数学领域！两个关键点：LLM已经在海量数学数据上进行了训练。推理链的质量比训练数据的数量更重要。

数据集构建

LIMO的数据集构建过程非常关键。从多个数据源收集了大量候选问题，并通过多阶段筛选过程，最终选择了817个高质量问题。这些问题的选择标准包括难度、普遍性和知识多样性。同时，还精心构建了高质量的推理链（reasoning chain），这些推理链具有清晰的结构、有效的认知支持和严格的验证。

不同数据质量下训练的模型的统计分析

训练方法

LIMO使用Qwen2.5-32B-Instruct模型进行监督式微调，采用DeepSpeed ZeRO-3优化和FlashAttention2技术，序列长度限制为16,384个token。

实验结论

LIMO仅使用817个精心策划的训练样本，就在AIME（美国数学邀请赛）基准测试中达到了57.1%的准确率，在MATH基准测试中达到了94.8%的准确率，显著优于以往的SFT模型。

在数学上比较 Qwen2.5、DeepSeek-R1 和 LIMO：LIMO 凭借深度自我反思和更长的推理链脱颖而出，为复杂方程式分配了额外的计算。

推理链质量的影响
推理链的质量对模型性能有显著影响。从基础（L1）到专家（L5）级别的解决方案测试表明，推理链的质量可能比想象的更为关键。

问题质量的影响
在MATH/AIME基准测试中，使用500个高级问题进行训练的表现优于使用500个简单问题。问题的选择质量也很重要！

https://arxiv.org/pdf/2502.03387LIMO: Less is More for Reasoninghttps://github.com/GAIR-NLP/LIMO

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签