原创 阶跃星辰 2025-01-16 12:04 北京
Step Reasoner mini 开启大模型“慢思考”探索。
今天,阶跃星辰自研推理模型 Step Reasoner mini 上线(简称“Step R-mini”)。登录跃问网页端 https://yuewen.cn,在左上角中选择“Step R-mini”,即可体验。
Step Reasoner mini 是 Step 系列模型家族的首个推理模型,擅长主动进行规划、尝试和反思,能通过慢思考和反复验证的逻辑机制,为用户提供准确可靠的回复。它既擅长通过超长推理能力,解决逻辑推理、代码和数学等复杂问题,也能兼顾文学创作等通用领域。
目前,阶跃星辰自研的 Step 系列基座模型矩阵,已经覆盖了从语言、多模态到推理的全面能力。
文理兼修
在 AIME 和 Math 等数学基准测试上,Step Reasoner mini 的成绩超过了 o1-preview,比肩 OpenAI o1-mini。在 LiveCodeBench 代码任务上,也比o1-preview 效果更佳。
值得一提的是,目前大部分推理模型难以兼顾文理科双方向能力,随着训练参数规模增加,模型的文科能力会得到提升,但也会因此损失确定性,造成理工科能力的下滑。Step Reasoner mini 通过大规模的强化学习训练,并使用 On-Policy(同策略)强化学习算法,实现了“文理兼修”。Step Reasoner mini 除了能准确解答数学、代码、逻辑推理问题,还能富有创意地完成文学内容创作和日常聊天的任务。
范式转移 Scaling Law不变
Step Reasoner mini 作为推理大模型,其擅长的规划、尝试与反思机制背后,离不开我们对 Scaling Law 原则的坚持:
1. Scaling Reinforcement Learning:从模仿学习到强化学习,从人类偏好到环境反馈,我们坚持Scaling Reinforcement Training,以 Reinforcement Learning 为模型迭代的核心训练阶段。
2. Scaling Data Quality:数据质量是重中之重。在确保数据质量的前提下,我们持续扩大数据分布与规模,为 Reinforcement Learning 训练提供坚实保障。
3. Scaling Test-Time Compute:坚定执行 Training-Time Scaling 的同时,亦兼顾 Test-Time Scaling。在测试阶段我们发现,System 2 的范式让 Step-Reasoner mini 能在极复杂任务推理上,达到 50,000 tokens 来进行深度思考。
4. Scaling Model Size:我们坚持 Model Scaling 仍然是 System-2 的核心,已经在开发更智能、更通用、综合能力更强的 Step Reasoner 推理模型。
案例分享
下面一起来看看 Step Reasoner mini 在数学、逻辑推理、代码、内容创作等场景下的模型效果吧:
数学题
对于大语言模型来说,奥数难题有着天然的挑战性。在解答下面这道北方数学奥林匹克邀请赛 CNMO 赛题时,Step Reasoner mini 能够构建出合理的推理链,实现复杂数学问题的规划和逐步求解,并枚举出不同的解法方案交叉验证。在处理几何题目时,它能够主动通过画草图构建深度思考的内容介质:
在解答下面这道题目时,Step Reasoner mini 展现了全面和严谨的思维链路。先分析用户题目需求,然后选择出最佳的解题公式,在得到初步答案后,它通过多次自我追问确定是否有没被考虑到的因素。
逻辑推理
在处理逻辑推理任务时,Step Reasoner mini 会自主进行多种解题思路的尝试,在得到初步答案后,会自我反问尝试有没有其他可能性,确保枚举出所有效果良好的解决方案,并在交卷前检查有无遗漏。
代码题
Step Reasoner mini 能够通过长推理链,正确解答 LeetCode 技术平台上难度评级为“Hard”的算法题:
Step Reasoner mini 还可以处理复杂的开发需求,逐步分析用户的需求和意图,构建代码逻辑,在代码写作中穿插对当前代码片段的分析和验证,最终给到可执行的代码。
开发过程:
游戏成品:
内容创作
当接到创作类题目的任务,Step Reasoner mini 能够深入理解用户的表达需求,是个“追求完美”的创作者。它会先分析用户对创作主题、文学题材的要求,然后思考处理创作角度、描绘的景物、修辞手法、内容结构,赋予事物人类情感层面的象征意义,并增加个性化的、创新的表达风格。
在处理翻译问题时,Step Reasoner mini 可以遵循指令,以“信达雅”的原则“咬文嚼字”,力求呈现最精准和含义丰富的翻译结果。
视觉推理模型
除了语言推理模型,我们也在打造视觉推理模型,将推理能力融入更多交互形态的大模型中。针对复杂视觉场景下的Reasoning 问题,我们引入了慢感知和空间推理的思想,把 Test-Time Scaling 从文本空间转移到视觉空间,实现在视觉空间下的 Spatial-Slow-Thinking。
以下是我们取得的阶段性成果,视觉推理模型的正式版本也会在今年跟大家见面,敬请期待!
1. 解答图中的题目
2. 从蓝色箭头出发,我能到达哪个?
3. 这些小球分别对应什么数字?
上下滑动布局+自动对齐
滑动时会有自动对齐的效果
只适合放图片/SVG图片通过设置宽高比来调整显示大小需使用同步/插件上传到公众号后