阶跃星辰 04月09日 18:06
阶跃星辰推理模型Step R-mini上线!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

阶跃星辰发布自研推理模型Step Reasoner mini,该模型通过“慢思考”和反复验证的逻辑机制,在解决复杂问题上表现出色。它在数学、代码、逻辑推理等领域展现了超长推理能力,同时兼顾文学创作等通用领域。Step R-mini 实现了“文理兼修”,在AIME和Math等数学基准测试上成绩优异。该模型基于Scaling Law原则,在强化学习、数据质量、测试计算和模型规模上持续投入,并在数学、逻辑推理、代码和内容创作等多个场景中展示了其卓越性能,同时也在积极探索视觉推理模型。

🧠 Step Reasoner mini 是阶跃星辰推出的推理模型,它擅长规划、尝试和反思,通过“慢思考”提供准确回复。

📐 该模型在AIME和Math等数学基准测试中表现出色,成绩超过了o1-preview,比肩OpenAI o1-mini,并在LiveCodeBench代码任务上优于o1-preview。

📚 Step Reasoner mini 实现了“文理兼修”,通过大规模的强化学习训练,并使用On-Policy强化学习算法,解决了传统模型在文理科能力上的平衡问题。

💡 该模型坚持Scaling Law原则,在强化学习、数据质量、测试计算和模型规模上持续投入,从而提升模型性能。

🖼️ 阶跃星辰也在打造视觉推理模型,将推理能力融入更多交互形态的大模型中,并已取得阶段性成果,正式版本将在今年发布。

原创 阶跃星辰 2025-01-16 12:04 北京

Step Reasoner mini 开启大模型“慢思考”探索。

今天,阶跃星辰自研推理模型 Step Reasoner mini 上线(简称“Step R-mini”)。登录跃问网页端 https://yuewen.cn,在左上角中选择“Step R-mini”,即可体验

Step Reasoner mini 是 Step 系列模型家族的首个推理模型,擅长主动进行规划、尝试和反思,能通过慢思考和反复验证的逻辑机制,为用户提供准确可靠的回复。它既擅长通过超长推理能力,解决逻辑推理、代码和数学等复杂问题,也能兼顾文学创作等通用领域。

目前,阶跃星辰自研的 Step 系列基座模型矩阵,已经覆盖了从语言、多模态到推理的全面能力。

文理兼修

在 AIME 和 Math 等数学基准测试上,Step Reasoner mini 的成绩超过了 o1-preview,比肩 OpenAI o1-mini。在 LiveCodeBench 代码任务上,也比o1-preview 效果更佳。

值得一提的是,目前大部分推理模型难以兼顾文理科双方向能力,随着训练参数规模增加,模型的文科能力会得到提升,但也会因此损失确定性,造成理工科能力的下滑。Step Reasoner mini 通过大规模的强化学习训练,并使用 On-Policy(同策略)强化学习算法,实现了“文理兼修”。Step Reasoner mini 除了能准确解答数学、代码、逻辑推理问题,还能富有创意地完成文学内容创作和日常聊天的任务。

范式转移 Scaling Law不变

Step Reasoner mini 作为推理大模型,其擅长的规划、尝试与反思机制背后,离不开我们对 Scaling Law 原则的坚持:

1. Scaling Reinforcement Learning:从模仿学习到强化学习,从人类偏好到环境反馈,我们坚持Scaling Reinforcement Training,以 Reinforcement Learning 为模型迭代的核心训练阶段。

2. Scaling Data Quality:数据质量是重中之重。在确保数据质量的前提下,我们持续扩大数据分布与规模,为 Reinforcement Learning 训练提供坚实保障。

3. Scaling Test-Time Compute:坚定执行 Training-Time Scaling 的同时,亦兼顾 Test-Time Scaling。在测试阶段我们发现,System 2 的范式让 Step-Reasoner mini 能在极复杂任务推理上,达到 50,000 tokens 来进行深度思考。

4. Scaling Model Size:我们坚持 Model Scaling 仍然是 System-2 的核心,已经在开发更智能、更通用、综合能力更强的 Step Reasoner 推理模型。

案例分享

下面一起来看看 Step Reasoner mini 在数学、逻辑推理、代码、内容创作等场景下的模型效果吧:

数学题

对于大语言模型来说,奥数难题有着天然的挑战性。在解答下面这道北方数学奥林匹克邀请赛 CNMO 赛题时,Step Reasoner mini 能够构建出合理的推理链,实现复杂数学问题的规划和逐步求解,并枚举出不同的解法方案交叉验证。在处理几何题目时,它能够主动通过画草图构建深度思考的内容介质:


在解答下面这道题目时,Step Reasoner mini 展现了全面和严谨的思维链路。先分析用户题目需求,然后选择出最佳的解题公式,在得到初步答案后,它通过多次自我追问确定是否有没被考虑到的因素。

逻辑推理

在处理逻辑推理任务时,Step Reasoner mini 会自主进行多种解题思路的尝试,在得到初步答案后,会自我反问尝试有没有其他可能性,确保枚举出所有效果良好的解决方案,并在交卷前检查有无遗漏。

代码题

Step Reasoner mini 能够通过长推理链,正确解答 LeetCode 技术平台上难度评级为“Hard”的算法题:


Step Reasoner mini 还可以处理复杂的开发需求,逐步分析用户的需求和意图,构建代码逻辑,在代码写作中穿插对当前代码片段的分析和验证,最终给到可执行的代码。

开发过程:

游戏成品:

内容创作

当接到创作类题目的任务,Step Reasoner mini 能够深入理解用户的表达需求,是个“追求完美”的创作者。它会先分析用户对创作主题、文学题材的要求,然后思考处理创作角度、描绘的景物、修辞手法、内容结构,赋予事物人类情感层面的象征意义,并增加个性化的、创新的表达风格。

在处理翻译问题时,Step Reasoner mini 可以遵循指令,以“信达雅”的原则“咬文嚼字”,力求呈现最精准和含义丰富的翻译结果。

视觉推理模型

除了语言推理模型,我们也在打造视觉推理模型,将推理能力融入更多交互形态的大模型中。针对复杂视觉场景下的Reasoning 问题,我们引入了慢感知和空间推理的思想,把 Test-Time Scaling 从文本空间转移到视觉空间,实现在视觉空间下的 Spatial-Slow-Thinking。

以下是我们取得的阶段性成果,视觉推理模型的正式版本也会在今年跟大家见面,敬请期待!

1. 解答图中的题目

2. 从蓝色箭头出发,我能到达哪个?

3. 这些小球分别对应什么数字?

上下滑动布局+自动对齐
滑动时会有自动对齐的效果
只适合放图片/SVG图片通过设置宽高比来调整显示大小需使用同步/插件上传到公众号后‍‍


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Step Reasoner mini 大模型 推理 慢思考
相关文章