PaperAgent 02月10日
仅1k样本超越o1,媲美DeepSeek-R1蒸馏模型,李飞飞新作s1发布
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

李飞飞团队新作s1旨在寻找一种最简单的测试时扩展方法,以提升语言模型的推理性能。该研究构建了一个包含1000个高质量推理问题的数据集s1K,并通过预算强制技术控制测试时的计算量。实验结果表明,通过对Qwen2.5-32B-Instruct模型进行监督微调得到的s1-32B模型,在竞赛数学问题上的表现超越了OpenAI的o1-preview模型,并且通过预算强制技术扩展测试时计算量,性能可进一步提升。s1-32B是目前最高效的开放数据推理模型。

💡s1研究的核心是探索一种简便的测试时扩展方法,旨在通过增加计算资源来显著提升语言模型在推理任务中的性能表现。

📚s1K数据集的构建是关键一步,它包含1000个精选问题,这些问题都配有详细的推理轨迹,并严格遵循难度、多样性和质量三大标准,确保数据集的高质量和代表性。

⏱️预算强制技术是一种创新的解码时干预方法,通过强制设定最大和/或最小思考token数量,灵活控制模型在测试时的计算量,从而在推理速度和性能之间找到最佳平衡。

🏆实验结果表明,经过监督微调的s1-32B模型在多个基准测试中表现出色,尤其是在竞赛数学问题上,甚至超越了OpenAI的o1-preview模型,证明了该方法的有效性。

2025-02-06 16:25 湖北

测试时扩展(Test-time Scaling)是一种语言建模方法,通过在测试时增加额外的计算来提升性能,OpenAI的o1模型展示了这一点。李飞飞等新作s1(s1-32B模型已开源)旨在寻找一种最简单的测试时扩展方法,以实现强大的推理性能。

s1精心构建了一个包含1000个问题的小型数据集s1K,这些问题都配有推理轨迹,依据三个标准:难度、多样性和质量。开发了预算强制技术,通过强制终止模型的思考过程或延长思考时间来控制测试时的计算量。

推理数据策划以创建s1K:

测试时扩展:将测试时扩展方法分为两类:

顺序和并行测试时扩展。 (a):预算强制显示出清晰的扩展趋势,并在一定程度上进行外推。对于最右边的三个点,阻止模型停止思考2/4/6次,每次在其当前推理过程后附加“Wait”。(b):对于Qwen2.5-32B-Instruct,对每个样本执行64次评估,温度为1,并在对2、4、8、16、32和64次评估结果进行多数投票时可视化性能。

预算强制:

使用Qwen2.5-32B-Instruct语言模型在s1K上进行监督微调(SFT)得到了模型s1-32B,然后应用预算强制技术。

示例模型输出。从AIME24(左侧)、MATH500(中间)和GPQA(右侧)中各选取一个问题,其中s1-32B模型生成了正确答案。黑色文本是提示浅蓝色文本是推理过程蓝色文本是s1-32B模型的答案。灰色省略号[...]表示文本已被截断以适应此页面,但实际生成的文本更长。

https://arxiv.org/pdf/2501.19393s1: Simple test-time scalinghttps://github.com/simplescaling/s1

推荐阅读


欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

测试时扩展 语言模型 推理性能 s1-32B 预算强制
相关文章