阶跃星辰 04月09日 18:15
Step-R1-V-Mini 发布:多模态推理新成员,轻量亦强大
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

阶跃星辰发布多模态推理模型Step-R1-V-Mini,支持图文输入与文字输出,有良好指令遵循和通用能力,能高精度感知图像并完成复杂推理任务,已上线阶跃AI网页端并提供API接口。

🎯Step-R1-V-Mini支持图文输入、文字输出,具备良好指令遵循和通用能力。

💪在训练方法上做了两项重要尝试,解决图像空间推理问题并提升推理能力。

🎉在多个公开榜单中表现亮眼,在视觉推理等方面成绩优异。

🌟通过案例展示其在识地点、识菜谱、物体数量计算等方面的精准推理。

原创 阶跃星辰 2025-04-08 20:17 北京

欢迎体验!

此前我们先后推出视觉理解模型 Step-1V、Step-1.5V,以及语言推理模型 Step-R-mini。

今天,阶跃星辰正式发布全新多模态推理模型——Step-R1-V-Mini,支持图文输入、文字输出、有良好的指令遵循和通用能力,能够高精度感知图像并完成复杂推理任务

Step-R1-V-Mini 已正式上线阶跃AI 网页端,并在阶跃星辰开放平台提供 API 接口,欢迎体验:

阶跃AI 网页端:

https://yuewen.cn/chats/new

阶跃星辰开放平台:

https://platform.stepfun.com/docs/llm/reasoning

阶跃AI 网页端已上线

技术亮点

为了提升模型在多模态协同场景下的推理表现,我们在训练方法上做了两项重要尝试:

第一,多模态联合强化学习

Step-R1-V-Mini 的训练路径基于 PPO 强化学习策略,在图像空间引入 verifiable reward 来解决图片空间推理链路复杂、容易产生混淆的相关和因果推理错误的问题。相较 DPO 等方法,在处理图像空间的复杂链路时更具泛化性与鲁棒性。

第二,充分利用多模态合成数据

目前多模态数据的反馈信号相对难以获得。我们设计了大量基于环境反馈的多模态数据合成链路,合成了可规模化训练的多模态推理数据,并通过基于 PPO 的强化学习训练同步提升模型文本和视觉的推理能力,有效避免了训练跷跷板问题。

视觉推理榜单成绩领先

Step-R1-V-Mini 在多个公开榜单中表现亮眼,在 MathVision 视觉推理榜单位列国内第一,在视觉推理、数学逻辑和代码等方面表现优异。

案例分享

案例1:看图识地点

输入网友温布利球场的实拍图片,Step-R1-V-Mini 能迅速识别图中元素进行地点推理,结合图中的不同元素,如颜色、物体(体育场、曼城队徽)等等,综合后做出判断,得出温布利体育场,并给出对战双方的可能。

和当时的比赛资料核对后,Step-R1-V-Mini 推理的很准确。

案例2:看图识菜谱

输入一张美食图,无论是菜品还是蘸料,统统识别得清清楚楚,并把做法详细到“鲜虾 300g、大葱白2根”等具体用量,识别精准推理严谨。

案例3:物体数量计算

输入一张含有不同形状、不同颜色、不同位置的物体摆放图,从空间感知、颜色形状、逻辑推理逐一识别,根据物体的颜色、形状、位置推理计算,最终得出剩下的物体数量是 8-1 =7。 

Step-R1-V-Mini 是我们在多模态推理方向的阶段性成果,欢迎大家体验并反馈。我们也将在推理模型方向持续探索,敬请期待。

推荐阅读

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Step-R1-V-Mini 多模态推理 图像感知 推理能力
相关文章