阶跃星辰Step-1o重大升级，多模态视觉双榜夺冠，国内第一！

原创狂卷多模态的 2025-01-21 14:47 北京

Step 系列新春大礼包第三弹来啦！

喜迎春节，继续上新！

继推理模型 Step R-mini 之后，春节前夕 Step 系列模型上新第三弹来啦！

Step-1o 系列是阶跃星辰最新研发的原生端到端文本、视觉、语音三模态生成理解一体化模型。一个月前，我们发布了 1o 家族的首个模型 Step-1o Audio，这也是国内首个千亿参数端到端语音大模型，今天我们很高兴地为大家带来 Step-1o 系列的最新动态：新成员 Step-1o Vision 多模态理解大模型上线！Step-1o Audio 语音模型能力升级！

相对于 Step-1V 系列多模态理解模型，Step-1o Vision 是更强大的版本：在视觉识别、感知、指令跟随、推理等方面实现了显著提升。

而全面升级后的 Step-1o Audio 情商更高，有了更强大的情绪感知与理解能力和个性化的风格表达，声音更自然，支持多语种及方言理解，同时实现了更低的时延。

现在两款模型均已全量开放，登录跃问 App 即可使用 Step-1o Audio 和 Step-1o Vision，且 Step-1o Vision 也可在跃问网页端（https://yuewen.cn）调用。

Step-1o Vision 使用入口：点击跃问 App 右下角➕，上传图片

Step-1o Audio 使用入口：点击跃问 App 右上角话筒键，发起语音通话

Step-1o Vision：更精准，更智能

Step-1o Vision 是 Step-1o 多模态系列模型中的视觉版本，相比 Step-1V 和 Step-1.5V 视觉理解模型，实现了架构升级，在视觉感知和识别、指令跟随、空间理解与推理等视觉任务效果上实现了大幅提升。

Step-1o Vision 多模态大模型刚上线，就在多个国内外权威榜单拿下第一名的好成绩！

1 月 20 日，LMSYS Org 发布了大模型竞技场 Chatbot Arena 最新榜单，Step-1o Vision 在其中位列视觉领域中国大模型第一，超过所有国内大模型公司。

LMSYS Org 网址：https://lmarena.ai/

同时，在国内权威的大型模型评估平台“司南”（OpenCompass）多模态模型评测实时榜单中，位列第一。

OpenCompass 网址：https://rank.opencompass.org.cn

话不多说，找几张图片考考它。

更精准的视觉理解

Step-1o Vision 能够精准识别各种复杂图像，包括自然场景、物体细节、图表等，即使遇到图像质量欠佳或存在遮挡、变形等情况，也能准确识别。

对于复杂场景（物体重叠模糊、多种文字），以下图为例，Step-1o Vision 准确捕捉了画面的复古未来风格，并识别出“个人交通工具”、“未来城市”等关键要素，特别是识别并翻译了小字的意大利语，展现了优秀的复杂场景理解、多语言理解和识别能力。

我们上传了一张挤在一块儿的幼年猫科动物图，试图骗过 Step-1o Vision。不过它精准识别了动物数量和品种，还具备一定的幽默感和互动性。

除了最基础的识别和感应之外，对于图片里极其微小但很重要的视觉细节，Step-1o Vision 的理解也不在话下。

Prompt：黑线代表人类知识范围，红圈代表 phd 的工作。这张图说明 phd 的工作特性是什么？

以上面的图片为例，我们分别把它传给 Step-1.5v 和 Step-1o Vision，Step-1o Vision 模型对图片的理解超越了 Step-1.5v。

Step-1o Vision 注意到了 Step-1.5v 遗漏的红色部分（红圈超出黑线），并准确解读出其代表“探索和扩展人类知识边界”的含义，体现了更深入的视觉信息提取和推理能力。

对蓝色部分（红圈虽小但更接近知识前沿）的解读也更准确，将“相对较小”和“更接近前沿”联系起来，说明了博士研究的专精和前瞻性。

模型还额外识别了图中没有提到的圆形这个关键信息，并对其进行了正确的解读。

在下面这张图中，模型能通过表格、logo 等元素精准识别出对应的软件工具，并理解了其中黑色幽默的表达方式，将软件分成了五个等级，还对每个层级的软件进行了介绍。体现了模型优秀的图表识别、图像识别和理解能力，并能结合常识对这些软件的特点进行总结说明。其中，模型成功识别了几个较小的软件图标（例如 Apache OpenOffice 和 LaTeX），表现非常出色。