六小虎「阶跃星辰」疯狂了！连发6款大模型，多模态霸榜第一

原创夕小瑶编辑部 2025-01-21 21:41 北京

提一个冷知识。

在 2024 年年初的时候，中国的大模型独角兽是五家——当时业内常把智谱、月之暗面、MiniMax、百川智能、零一万物这几个备受资本方青睐的大模型初创企业称为大模型五虎。

这事儿，在去年年中的时候，发生了变化。

2024 年 6 月，由前微软全球副总裁姜大昕创办的 AI 大模型公司「阶跃星辰」，被曝出正在进行一轮估值 20 亿美元的新融资。

大模型五小虎，从此变成了六小虎。

坊间提到阶跃星辰时，还常伴随着“低调”和“神秘”两个词。

自此之后，我也一直在关注这家公司的动态，因为我知道，长期低调之后必有大招。

果然，终于等到了！

不过，本以为临近年底，要发一个重磅模型。

结果，我错了，是六个——语言、语音、推理、视频生成、视觉理解全模态覆盖。

其中，阶跃星辰在最擅长的多模态上继续领跑国内。全新发布的 Step-1o 系列模型，拿下了国内外 LMSYS Org 和 OpenCompass 多模态 + 视觉双榜中国 TOP1。阶跃多模态的上一个版本 Step-1V 系列，就曾拿下 LMSYS Org 中国大模型第一，这次继续霸榜。此外，阶跃新推出的推理模型 Step R-mini 在视觉推理领域取得突破性进展。

名副其实的多模态卷王。

多模态 Step-1o 系列：视觉 + 语音

多模态是阶跃的传统强项了，此前就霸榜了中国大模型第一，所以这次最大的看点便是 Step-1o 系列的全新发布和升级。

包括了一个视觉模型 Step-1o Vision 和一个语音模型 Step-1o Audio。

要注意的是，这俩模型跃问 APP 里已经能体验了，Step-1o Vision 也可在跃问网页端（https://yuewen.cn）调用。

Step-1o Vision 刚上线，在大模型竞技场 Chatbot Arena 最新榜单上，便拿下视觉领域国产大模型第一。

而且，在国内权威的大型模型评估平台“司南”（OpenCompass）多模态模型评测实时榜单中，也是第一。

据阶跃官方说法，Step-1o Vision 相比于 step-1v 系列模型（上一代视觉模型），对模型架构进行了升级，视觉性能更强大，在视觉识别、感知、指令跟随、推理等任务上都有大幅提升。

我比较怀疑，阶跃在模型的文科能力上，做了一些普适性的训练黑科技，因此在模型的行为上，能明显感知到它在这方面的一些差异性。

众所周知，无论国内还是国外的模型，其普遍对于网络梗图的理解能力一般甚至 get 不到，因为这不只涉及要素理解，还要求模型要具备相当的背景知识和关联。

但我发现，对于下面这种梗图，Step-1o Vision 竟然都做到了准确理解——

下面这道图形题就更有意思了——

哈？跃问说 C 选项的牛少了一只牛角，这也太细节了，我看了三次都没发现。

这是我第一次在视觉问题上输给 AI。

Step-1o Audio 是 1o 家族的首个模型，也是国内首款千亿参数的端到端语音模型，实现了语音理解和生成一体化，一个月前发布的，这次我发现升级后的 Step-1o Audio，在情绪感知与理解、多语种和多方言、通话体验上均有不错的体验。

先来看看情绪感知——

这个回答给足了对方情绪价值，一直在安抚对方的情绪，让我觉得“有点舒适”。

而且我发现，这个语音模型竟然支持了多语言，配合着这个超低延迟，感觉可以当个同声传译 AI 来用了，英语陪练更不用说了。

实话说，虽然阶跃这波升级的视觉 + 语音模型的表现出色，但我并不意外。

因为，阶跃公司从创立之初，“多模态”就是其主打特色。

Step R-mini 主打文理兼修，不偏科

这次还让我眼前一亮的，是阶跃这波连类 o1 推理模型都安排上了，名为“Step R-mini”（全称 Step Reasoner mini ）

跃问网页端就能体验，左上角中选择“Step R-mini”

传送门：https://yuewen.cn/chats

关于 Step R-mini，官方非常有意思的定位是“文理兼修”。

也就是说，Step R-mini 与其他国内外类 o1 模型的定位不同，Step R-mini 模型不仅强调数学、编程等传统的理科推理任务，而且还在文科推理任务上做了模型效果优化，率先让模型具备了文科类的推理和创作能力。

首先来看看理科能力。

根据官方的定位，Step R-mini 在理科上直接对标的是 o1-mini，并且官方放出了学术测试集上的评测结果：

其在 AIME2024 和 MATH500 两个数学测试集上都超越了 o1-mini 和 o1-preview。

我先简单跑了几个经典的理科测试 case。

比如曾经难倒一众类 o1 模型的取水问题——

Step R-mini 成功给出了答案。

再来一道概率题！

做对 +1。

再来看看阶跃首发的“文科推理”能力。

首先，我觉得“文科推理”这个切入点确实是有现实意义的，推理能力不仅适用于理科任务场景，在一些文科任务上，同样需要推理。

比如，算卦

起名字这事儿，看似是个拍脑袋、跟推理不搭边的文科任务，而在现实场景中，其实是根据父母的期许、生辰八字等诸多信息来综合推理，找到候选集。

但由于文科类任务很难定义出标准化的答案和优化目标，且难以构建封闭获取 reward 信号的“沙箱环境”，因此模型训练的难度会比单纯优化理科任务大得多。

这里，我找了些文科推理能力测试题。

比如我这里找了一道「对对联」的题目，不仅涉及对联仄起平收和对偶的一些语法知识，还考察信息的提取、筛选、概括，并进一步“推理”实现“条件满足”的思考过程。

从分析思考过程来看，确实 Step R-mini 的语法推理是在线的，最终得出了正确的答案。

再来一道中学时期不少小伙伴遇到过的语文题——

同样，Step R-mini 经过一顿“文科推理”后，找到了正确答案。

总之，我觉得 Step R-mini 是另辟蹊径，找到一条奇妙的蓝海赛道。会玩的小伙伴，可以脑洞更多的文科推理题目为难一下 Step R-mini，欢迎评论区分享结果！

值得关注的是，在推理模型的研发上，阶跃也在将自己擅长的多模态融入进去，打造视觉推理模型，将推理能力融入更多交互形态的大模型中。我找阶跃的小伙伴要到了剧透信息——

我们正针对复杂视觉场景下的 Reasoning 问题，引入了慢感知和空间推理的思想，把 Test-Time Scaling 从文本空间转移到视觉空间，实现在视觉空间下的 Spatial-Slow-Thinking。多模态视觉推理模型预计将在今年发布。

Step-Video V2 视频生成模型

虽然阶跃的多模态能力很强不意外，但阶跃的小伙伴和我说，这波全家桶竟然还有视频生成模型 Step-Video V2，这事儿意外到我了。

因为我觉得，他们今年发布的模型已经够多了，而且赛道跨度相当大。这里面，视频生成又是一个非常吃算力、吃数据和吃人才的赛道，国内能玩转的大模型公司一只手都能数得过来。

结果，阶跃也杀进来了。

直接贴官方的 showcase 感受一下——

prompt：低角度旋转镜头围绕着一个鼓手和他的架子鼓。鼓手穿着深色 T 恤和浅色裤子，戴着帽子，手臂上有纹身。

我们知道，运动控制一直是视频生成中极具挑战的镜头，非常考验模型对物理规律的理解和掌握，即使每一帧的画面都是合理的，按照时间轴串起来也不一定合理。甚至，生成反物理规律的镜头一度成为了短视频流量密码...

从上面这个 case 来看，无论是人物与物体之间的空间关系，击鼓的落脚点还是击鼓轨迹，都没有出现反物理规律的情况。尤其是，这还叠加了旋转运镜，一不留神就容易穿帮。从这一点来看，运动控制的细节着实到位。

除此之外，我发现 Step-Video V2 似乎在人物生成方面表现更优秀，无论是面部细节还是人物表情，都非常细腻。比如生成外国小姐姐——

prompt：视频展示了一位人物在阳光下的特写镜头。背景中可以看到围栏和一些建筑物，阳光柔和地洒在人物的头发上，增加了画面的温暖感。人物的表情自然，时而微笑，时而眨眼，给人一种轻松愉悦的感觉。整个视频运用了特写镜头，突出了人物的表情和细节，具有写实风格。

当然，我实测了一些 case 后，发现 Step-Video V2 跟其他视频模型类似，也免不了强依赖“抽卡”动作。但作为早期版本，我觉得表现已经可圈可点了。

其他模型：Step-2 mini，Step-2 文学大师版

除了多模态，阶跃的语言模型同样能打。最后两款模型是对标 GPT-4o mini 并提供了 API 调用的 Step-2 mini 模型，以及擅长文学创作的 Step-2 文学大师版。

这两款模型都脱胎于 Step-2，Step-2 是国内最早的创业公司发布的万亿大模型，国内外榜单打榜第一的常客就是它。

这里贴下 Step-2 mini 模型的关键数据——

极速响应&低延迟：在输入 4000 tokens 的情况下，Step-2 mini 的平均首字时延仅 0.17 秒

白菜价：输入 1 元/百万 token；输出 2 元/百万 token

直接贴 API 传送门：
(https://platform.stepfun.com/

而 Step-2 文学大师版，则顾名思义，是为文学创作而生的。其在记忆海量世界知识的基础上，进一步强化了写作时对文字细节的把控能力，避免通用模型在文字创作时经常出现的“泛泛而谈”的空洞感。

我尝试用这个 Step 文学大师版给本瑶写了一部穿越小说。

实话说，我直接看楞了——

长图警告

好家伙，这也太长了吧，足足 5000 字，直接给我把一部短篇小说干完了。

而且看到跃问写到“我，夕小瑶，大明洪武皇帝的孙女”时，还挺开心，没想到后面就被当成凄惨的妖女了。这剧情，我真想试试发布到小说平台恰点稿费...

愿意为这个小说付费的，请在评论区扣 1

阶跃星辰：AGI 信仰派

体验完这六个模型之后，我对阶跃的认知，发生了很大的变化。

我常常根据对 AGI 的笃定程度，来把大模型创业公司分为两类——

AGI 信仰派

实用主义派

对于后者“实用主义派”，你常常能感觉到的是，对方公司不会很强调 AGI 概念，以及基础模型能力建设，而是把大部分精力和资源放在了 AI 应用方面。

而对于前者“AGI 信仰派”，你则会感受到对方很强烈的 AGI 概念和模型能力布局。其中，一个很突出的感知就是「实现了全模态能力覆盖」。

阶跃已经是模型矩阵最全的公司之一，多模态能力更是有口皆碑，从频繁的更新动作就能感受到它的多模态上的“卷”。

此前，我不太确信阶跃是哪一个流派。

现在我很明确了，是绝对的 AGI 信仰派。

国内敢做全模态能力栈的大模型公司非常少，若没有强大的 AGI 信仰，是不敢这么做的。

算下来，就算加上 BAT 等老一代互联网大厂，如今国内能做到语言、视觉、语音、视频、推理这五大模态 + 模型范式全覆盖的公司，细数下来也仅有 3 家——阿里、智谱、阶跃。

要知道，用户对于 AI 的预期是越来越高的。

2023 年，大家谈论多的还是写作，2024 年，大家谈论多的已经到 AI 的智商乃至情商问题了。而到了 2025，几乎可以确信——只做单边能力建设的大模型公司，与 AGI 的距离很可能会日行渐远，进而难以支撑起用户对 AI 能力的预期。

而阶跃，不仅坚守住了 AGI 信仰，又于上个月，刚刚完成数亿美元的 B 轮融资。我对其在 2025 年的大模型&产品期待值已经拉满了。

六小虎中最晚亮相的「阶跃星辰」，很可能成为 2025 年率先杀出的黑马。

阅读原文

跳转微信打开

多模态 Step-1o 系列：视觉 + 语音

Step R-mini 主打文理兼修，不偏科

Step-Video V2 视频生成模型

其他模型：Step-2 mini，Step-2 文学大师版

阶跃星辰：AGI 信仰派

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签

多模态 Step-1o 系列 ：视觉 + 语音

Step R-mini 主打文理兼修，不偏科

Step-Video V2 视频生成模型

其他模型：Step-2 mini，Step-2 文学大师版

阶跃星辰：AGI 信仰派

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签

多模态 Step-1o 系列：视觉 + 语音