六虎中的「多模态狂魔」：阶跃星辰

原创金色传说大聪明 2025-01-22 16:19 北京

阶跃：我在卷哪些事儿，和在招哪些人？

这是一个新系列，唤做 江湖录 ：　

对于主流的 AI 玩家：在卷哪些事儿，和在招哪些人？

（我真的有在扒拉，各家有哪些坑位）　

作为开篇，先聊聊「AI 六小虎之低调虎」：阶跃星辰　

下面这个图片推理模型，便是他们的杰作（强悍异常）　

顺道说一下“AI 六小虎”，其具体源头不可靠，指的是国内做大模型的六家头部公司，估值均在百亿人民币以上，按首字母排序为：百川，阶跃星辰，零一万物，MiniMax，月之暗面，智谱　

「阶跃星辰」便是其中的一员，总部在上海，中关村也有办公室，低调且神秘：　

24 年之前，几乎无从听闻；

24 年崭露头角，模型频出，融资不断；

很多我们耳熟能详的产品，比如「胃之书」、「林间疗愈室」，背后都是阶跃的模型；

如果给「阶跃星辰」上几个 tag ，我想会是：　

根正苗红 ：“土生土长”的原生 AI 团队

多模态卷王 ：尤其是视觉理解能力，无论从榜单还是体感，都相当卓越

低调的六边形战士 ：视觉、声音、推理...什么模型都有，但很少 PR

广泛的产业间合作 ：远有 OPPO 一起来共建 OS 级生态，近有同茶百道一起用 AI 守护奶茶，还有支持开发者的「繁星计划」

下面，我也会就这几个 tag，来聊一聊阶跃。以及...文末有内推链接，简历直达，专人查阅 - 没有中间商赚差距 ahhhhh　

Tag：根正苗红

根正苗红，应该是形容「阶跃星辰」的一个贴切用词。其核心团队，都是“土生土长”的老 AIer ——

CEO 姜大昕：前微软全球副总裁，微软亚洲互联网工程研究院（STCA）副院长和首席科学家，曾全面负责必应搜索的技术研发工作。2024 年 12 月入选 2025 IEEE Fellow 名单。

系统负责人朱亦博：大规模 AI 基础设施专家，曾在微软、字节跳动、谷歌等公司从事系统设计与优化工作，有着丰富的系统建设经验。

数据负责人焦斌星：前微软必应引擎核心搜索团队负责人，专注于数据挖掘与高效索引算法开发。其开发的自动挖掘算法广泛应用于全球高质量站点的排序与搜索优化。

首席科学家张祥雨：ResNet 论文作者之一，90 后 AI 科学家，孙剑教授的首位深度学习博士生。研究方向涵盖深度学习模型设计与优化，成果引用超过 13 万次。

...

另一方面，1 个月前，阶跃星辰刚刚完成 B 轮融资，总融资金额达数亿美元，其核心投资方便包括了上海国有资本投资有限公司及其旗下基金。　

Tag：多模态卷王

阶跃昨天升级了 step-1o 系列，应该是第一个做到「文本、视觉、语音三模态」端到端融合的模型。这个系列，包括多模态理解模型 Step-1o Vision 和升级后的语音模型 Step-1o Audio。　

对于阶跃来说，视觉理解算是传统艺能，尤其是在 LMSYS Org 最新的 Chatbot Arena 视觉领域排名中一骑绝尘。　

穿插个乐子：点左上角小红书，会发现...　

Chatbot Arena，竟然还做了个小红书的号....看来...美国的 AI 圈，也来小红书逃难了...倒反天罡...　

话说回来，从实际体感来说，我觉得阶跃的模型，是超过榜单排名的，这里有个不错的例子　

但其强大之处远不止于此... 　

上图，是我做的一个测试：「大模型视力表 - 看看不同大模型能读到第几行」。方法是这样，拿下面这个 1024*1024 的古诗词视力表，去问大模型，看看不同家的模型，能读到第几行，发现，阶跃的视力遥遥领先　

顺道说下，这里其实照顾了下 ChatGPT 和 Claude 的面子，其实他们从第二行开始，就有小错了。比如第二句的“处处分流白玉渠”，ChatGPT 写的是“百玉溪”，Claude 写的是“百玉湾”。以及... 我稍微改了下图，这样可能更直观：

这个事儿其实挺严重的，当我们把文档截图问 AI 的时候，它实际上并没看清里面的文字，而是靠瞎编...那么可想而知，给到你的答案，也只能是瞎说的。而在这个场景下，阶跃的图片理解则明显更准确，更值得信赖。　

这两天，阶跃也同时发布了其语音模型 Step-1o Audio，端到端，延迟低，可感知情绪，语气丰沛，甚至在多语种对话时实现近乎“同声传译”的流畅程度，属于目前的第一梯队。比如下面两个...真的没崩住...

来自赛博禅心音频：撒娇女友

来自赛博禅心音频：川味 Talk

Tag：低调的六边型战士

很可见的，大模型洗牌已经进入下半场。一些公司开始在技术和产品之间进行取舍，或改变了发展路线。便有个争论：大模型公司，还要不要坚持预训练？　

阶跃属于笃定的技术理想派，按照其最初规划的 AGI 技术路线图推进。阶跃在大语言模型的预训练、视频生成模型和推理模型都在持续下注，并开创性的带来了“视觉推理”等全新形态。　

先说大语言模型 Step-2。这两天进行了一轮迭代升级，刷榜 Chatbot Arena，和 DeepSeek 并列国产第一。同时，阶跃还推出了更轻量化的 Step-2 mini 和专注创作领域的 Step 文学大师版。　

前者 Step-2 mini 好理解，是 Step-2 的青春版；

后者 Step 文学大师版则更适合内容创作，尤其是小说（此刻内心 os：能不能它写公众号？)

顺道说一下，这个模型未蒸馏任何 o1-like 数据，便取得了 o1-mini 相当的成绩（甚至还略微高了些）。可以期待一下未来的更新～　

在视频生成领域，阶跃的 Step-Video 2 也没有落下。其在“复杂运动”“镜头语言多样化”等方面得到了全面升级，人像的五官、表情、动作细节都更加逼真自然，甚至能生成准确的场景文字。　

Prompt: 低角度旋转镜头围绕着一个鼓手和他的架子鼓。鼓手穿着深色T恤和浅色裤子，戴着帽子，手臂上有纹身。

Prompt: 视频中，一名强壮的美式橄榄球队球员，身穿专业的橄榄球服，在球场上进行练习。整个场景在一个开阔的球场上进行，背景是其他球员和教练。视频采用固定机位平移方式，捕捉了球员跑动的每一个细节，清晰地展示了橄榄球运动的激烈和速度感。

接着是最新发布的推理模型 Step R-mini，特点是文理兼修：除了能准确解答数学、代码、逻辑推理问题，还能富有创意地完成文学内容创作和日常聊天的任务。　

当然，最令我惊愕的，还是即将推出的“视觉推理”，也就是文章最开始的那张图：通过在视觉空间中加入“慢感知”和空间推理的思想，对图像、视频等内容的进行深度推理。　

Tag：广泛的产业间合作

阶跃的风格，属于「有机会让伙伴来」：这个「伙伴」，相当广泛，既包括头部大厂，也包括个人开发者。　

一方面，阶跃和头部大厂玩得火热。茶百道、OPPO、飞书... 各行业领头羊都成了阶跃的座上宾。同茶百道深度合作，发力智能巡检，一起用 AI 守护你喝到的每杯奶茶；联手 OPPO 打造 OS 级 AI 体验，让 ColorOS 更聪明更好用；作为荣耀的大模型合作方，在其 Agent 生态中大放异彩；还跟飞书多维表格深度融合，批量读图，一键生成报告。这些合作，把阶跃的多模态能力用到实处，实实在在赋能产业升级。　

另一方面，阶跃的“繁星计划”则是对开发者的各种补贴和照顾。 4 万元 tokens 免费送，宣发资源、合作伙伴对接、技术支持、免费工位... 全方位扶持给到位，优秀项目还能拿到阶跃的直接投资！教育、医疗、零售... 各行各业的开发者都能来，特别是玩多模态的，更是“重点关照对象”。目标很明确：孵化更多“胃之书”，让多模态大模型真正火起来。　

顺道说一下，林间聊愈室也是“繁星计划”的一员，它的创始人 Joshua 表示，阶跃的模型的识别效果，是测试的模型中表现最好的。而另一个“繁星计划er”，胃之书的开发者赵纯想，则说：“通过 A/B 测试发现，阶跃星辰的模型付费率最高”　

如果你对繁星计划感兴趣，可以扫描这个码参与。推荐人可以写「赛博禅心」，有成功率加成。　

工作机会

刚刚确认，以下的职位都有坑，待遇相当可以，也欢迎保存&发给你的好友。当然，也可以点「查看原文」，直达招聘：

阅读原文

跳转微信打开

Tag：根正苗红

Tag：多模态卷王

Tag：低调的六边型战士

Tag：广泛的产业间合作

工作机会

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签