原创 阶跃星辰 2025-04-08 20:17 北京
欢迎体验!
此前我们先后推出视觉理解模型 Step-1V、Step-1.5V,以及语言推理模型 Step-R-mini。
今天,阶跃星辰正式发布全新多模态推理模型——Step-R1-V-Mini,支持图文输入、文字输出、有良好的指令遵循和通用能力,能够高精度感知图像并完成复杂推理任务。
Step-R1-V-Mini 已正式上线阶跃AI 网页端,并在阶跃星辰开放平台提供 API 接口,欢迎体验:
阶跃AI 网页端:
阶跃星辰开放平台:
技术亮点
为了提升模型在多模态协同场景下的推理表现,我们在训练方法上做了两项重要尝试:
第一,多模态联合强化学习
Step-R1-V-Mini 的训练路径基于 PPO 强化学习策略,在图像空间引入 verifiable reward 来解决图片空间推理链路复杂、容易产生混淆的相关和因果推理错误的问题。相较 DPO 等方法,在处理图像空间的复杂链路时更具泛化性与鲁棒性。
第二,充分利用多模态合成数据
目前多模态数据的反馈信号相对难以获得。我们设计了大量基于环境反馈的多模态数据合成链路,合成了可规模化训练的多模态推理数据,并通过基于 PPO 的强化学习训练同步提升模型文本和视觉的推理能力,有效避免了训练跷跷板问题。
视觉推理榜单成绩领先
Step-R1-V-Mini 在多个公开榜单中表现亮眼,在 MathVision 视觉推理榜单位列国内第一,在视觉推理、数学逻辑和代码等方面表现优异。
案例分享
案例1:看图识地点
输入网友温布利球场的实拍图片,Step-R1-V-Mini 能迅速识别图中元素进行地点推理,结合图中的不同元素,如颜色、物体(体育场、曼城队徽)等等,综合后做出判断,得出温布利体育场,并给出对战双方的可能。
案例2:看图识菜谱
输入一张美食图,无论是菜品还是蘸料,统统识别得清清楚楚,并把做法详细到“鲜虾 300g、大葱白2根”等具体用量,识别精准推理严谨。
输入一张含有不同形状、不同颜色、不同位置的物体摆放图,从空间感知、颜色形状、逻辑推理逐一识别,根据物体的颜色、形状、位置推理计算,最终得出剩下的物体数量是 8-1 =7。
推荐阅读