阶跃星辰推理模型Step R-mini上线！

原创阶跃星辰 2025-01-16 12:04 北京

Step Reasoner mini 开启大模型“慢思考”探索。

今天，阶跃星辰自研推理模型 Step Reasoner mini 上线（简称“Step R-mini”）。登录跃问网页端 https://yuewen.cn，在左上角中选择“Step R-mini”，即可体验。

Step Reasoner mini 是 Step 系列模型家族的首个推理模型，擅长主动进行规划、尝试和反思，能通过慢思考和反复验证的逻辑机制，为用户提供准确可靠的回复。它既擅长通过超长推理能力，解决逻辑推理、代码和数学等复杂问题，也能兼顾文学创作等通用领域。

目前，阶跃星辰自研的 Step 系列基座模型矩阵，已经覆盖了从语言、多模态到推理的全面能力。

文理兼修

在 AIME 和 Math 等数学基准测试上，Step Reasoner mini 的成绩超过了 o1-preview，比肩 OpenAI o1-mini。在 LiveCodeBench 代码任务上，也比o1-preview 效果更佳。

值得一提的是，目前大部分推理模型难以兼顾文理科双方向能力，随着训练参数规模增加，模型的文科能力会得到提升，但也会因此损失确定性，造成理工科能力的下滑。Step Reasoner mini 通过大规模的强化学习训练，并使用 On-Policy（同策略）强化学习算法，实现了“文理兼修”。Step Reasoner mini 除了能准确解答数学、代码、逻辑推理问题，还能富有创意地完成文学内容创作和日常聊天的任务。

范式转移 Scaling Law不变

Step Reasoner mini 作为推理大模型，其擅长的规划、尝试与反思机制背后，离不开我们对 Scaling Law 原则的坚持：

1. Scaling Reinforcement Learning：从模仿学习到强化学习，从人类偏好到环境反馈，我们坚持Scaling Reinforcement Training，以 Reinforcement Learning 为模型迭代的核心训练阶段。

2. Scaling Data Quality：数据质量是重中之重。在确保数据质量的前提下，我们持续扩大数据分布与规模，为 Reinforcement Learning 训练提供坚实保障。

3. Scaling Test-Time Compute：坚定执行 Training-Time Scaling 的同时，亦兼顾 Test-Time Scaling。在测试阶段我们发现，System 2 的范式让 Step-Reasoner mini 能在极复杂任务推理上，达到 50,000 tokens 来进行深度思考。

4. Scaling Model Size：我们坚持 Model Scaling 仍然是 System-2 的核心，已经在开发更智能、更通用、综合能力更强的 Step Reasoner 推理模型。

案例分享

下面一起来看看 Step Reasoner mini 在数学、逻辑推理、代码、内容创作等场景下的模型效果吧：

数学题

对于大语言模型来说，奥数难题有着天然的挑战性。在解答下面这道北方数学奥林匹克邀请赛 CNMO 赛题时，Step Reasoner mini 能够构建出合理的推理链，实现复杂数学问题的规划和逐步求解，并枚举出不同的解法方案交叉验证。在处理几何题目时，它能够主动通过画草图构建深度思考的内容介质：

在解答下面这道题目时，Step Reasoner mini 展现了全面和严谨的思维链路。先分析用户题目需求，然后选择出最佳的解题公式，在得到初步答案后，它通过多次自我追问确定是否有没被考虑到的因素。

逻辑推理

在处理逻辑推理任务时，Step Reasoner mini 会自主进行多种解题思路的尝试，在得到初步答案后，会自我反问尝试有没有其他可能性，确保枚举出所有效果良好的解决方案，并在交卷前检查有无遗漏。

代码题

Step Reasoner mini 能够通过长推理链，正确解答 LeetCode 技术平台上难度评级为“Hard”的算法题：

Step Reasoner mini 还可以处理复杂的开发需求，逐步分析用户的需求和意图，构建代码逻辑，在代码写作中穿插对当前代码片段的分析和验证，最终给到可执行的代码。

开发过程：

游戏成品：

内容创作

当接到创作类题目的任务，Step Reasoner mini 能够深入理解用户的表达需求，是个“追求完美”的创作者。它会先分析用户对创作主题、文学题材的要求，然后思考处理创作角度、描绘的景物、修辞手法、内容结构，赋予事物人类情感层面的象征意义，并增加个性化的、创新的表达风格。

在处理翻译问题时，Step Reasoner mini 可以遵循指令，以“信达雅”的原则“咬文嚼字”，力求呈现最精准和含义丰富的翻译结果。

视觉推理模型

除了语言推理模型，我们也在打造视觉推理模型，将推理能力融入更多交互形态的大模型中。针对复杂视觉场景下的Reasoning 问题，我们引入了慢感知和空间推理的思想，把 Test-Time Scaling 从文本空间转移到视觉空间，实现在视觉空间下的 Spatial-Slow-Thinking。

以下是我们取得的阶段性成果，视觉推理模型的正式版本也会在今年跟大家见面，敬请期待！

1. 解答图中的题目

2. 从蓝色箭头出发，我能到达哪个？

‍3. 这些小球分别对应什么数字？

上下滑动布局+自动对齐
滑动时会有自动对齐的效果
只适合放图片/SVG图片通过设置宽高比来调整显示大小需使用同步/插件上传到公众号后‍‍

阅读原文

跳转微信打开

今天，阶跃星辰自研推理模型 Step Reasoner mini 上线（简称“Step R-mini”）。登录跃问网页端 https://yuewen.cn，在左上角中选择“Step R-mini”，即可体验。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签