夕小瑶科技说 01月21日
六小虎「阶跃星辰」疯狂了!连发6款大模型,多模态霸榜第一
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

阶跃星辰作为一家低调神秘的AI大模型公司,在2024年底发布了覆盖语言、语音、推理、视频生成、视觉理解的全模态Step-1o系列模型,并在多模态领域继续领跑国内。其中,视觉模型Step-1o Vision在多个榜单中位居第一,语音模型Step-1o Audio在情绪感知和多语种方面表现出色。此外,推理模型Step R-mini在文理科推理上均有突破,而视频生成模型Step-Video V2则在运动控制和人物生成方面表现出色。阶跃星辰还推出了对标GPT-4o mini的Step-2 mini模型和擅长文学创作的Step-2文学大师版。这些模型展示了阶跃星辰在全模态领域的强大实力和对AGI的坚定信仰。

🌟Step-1o系列多模态模型:包括视觉模型Step-1o Vision和语音模型Step-1o Audio,在国内外多个榜单中名列前茅,视觉模型在视觉识别、感知、指令跟随和推理等方面均有提升,语音模型在情绪感知、多语种和多方言支持上表现出色。

🧠Step R-mini推理模型:该模型在文理科推理上均有突破,不仅在数学和编程等理科任务上表现优秀,还在文科推理任务上进行了优化,如对对联、语文题等,展现了模型在文科领域的推理和创作能力,并融入多模态能力,打造视觉推理模型。

🎬Step-Video V2视频生成模型:在运动控制和人物生成方面表现出色,能生成符合物理规律的镜头,人物表情和细节细腻,但仍存在依赖抽卡动作的问题。

📚Step-2系列语言模型:包括对标GPT-4o mini的Step-2 mini模型,具有极速响应和低延迟的特点,以及擅长文学创作的Step-2文学大师版,后者在记忆海量知识的基础上,强化了写作时对文字细节的把控能力。

原创 夕小瑶编辑部 2025-01-21 21:41 北京

提一个冷知识。

在 2024 年年初的时候,中国的大模型独角兽是五家——当时业内常把智谱、月之暗面、MiniMax、百川智能、零一万物这几个备受资本方青睐的大模型初创企业称为大模型五虎。

这事儿,在去年年中的时候,发生了变化。

2024 年 6 月,由前微软全球副总裁姜大昕创办的 AI 大模型公司「阶跃星辰」,被曝出正在进行一轮估值 20 亿美元的新融资。

大模型五小虎,从此变成了六小虎。

坊间提到阶跃星辰时,还常伴随着“低调”和“神秘”两个词。

自此之后,我也一直在关注这家公司的动态,因为我知道,长期低调之后必有大招。

果然,终于等到了!

不过,本以为临近年底,要发一个重磅模型。

结果,我错了,是六个——语言、语音、推理、视频生成、视觉理解全模态覆盖

其中,阶跃星辰在最擅长的多模态上继续领跑国内。全新发布的 Step-1o 系列模型,拿下了国内外 LMSYS Org 和 OpenCompass 多模态 + 视觉双榜中国 TOP1。阶跃多模态的上一个版本 Step-1V 系列,就曾拿下 LMSYS Org 中国大模型第一,这次继续霸榜。此外,阶跃新推出的推理模型 Step R-mini 在视觉推理领域取得突破性进展。

名副其实的多模态卷王。

多模态 Step-1o 系列 :视觉 + 语音

多模态是阶跃的传统强项了,此前就霸榜了中国大模型第一,所以这次最大的看点便是 Step-1o 系列的全新发布和升级。

包括了一个视觉模型 Step-1o Vision 和一个语音模型 Step-1o Audio

要注意的是,这俩模型跃问 APP 里已经能体验了,Step-1o Vision 也可在跃问网页端(https://yuewen.cn)调用。

Step-1o Vision 刚上线,在大模型竞技场 Chatbot Arena 最新榜单上,便拿下视觉领域国产大模型第一。

而且,在国内权威的大型模型评估平台“司南”(OpenCompass)多模态模型评测实时榜单中,也是第一。

据阶跃官方说法,Step-1o Vision 相比于 step-1v 系列模型(上一代视觉模型),对模型架构进行了升级,视觉性能更强大,在视觉识别、感知、指令跟随、推理等任务上都有大幅提升。

我比较怀疑,阶跃在模型的文科能力上,做了一些普适性的训练黑科技,因此在模型的行为上,能明显感知到它在这方面的一些差异性。

众所周知,无论国内还是国外的模型,其普遍对于网络梗图的理解能力一般甚至 get 不到,因为这不只涉及要素理解,还要求模型要具备相当的背景知识和关联。

但我发现,对于下面这种梗图,Step-1o Vision 竟然都做到了准确理解——

下面这道图形题就更有意思了——

哈?跃问说 C 选项的牛少了一只牛角,这也太细节了,我看了三次都没发现。

这是我第一次在视觉问题上输给 AI。

Step-1o Audio 是 1o 家族的首个模型,也是国内首款千亿参数的端到端语音模型,实现了语音理解和生成一体化,一个月前发布的,这次我发现升级后的 Step-1o Audio,在情绪感知与理解、多语种和多方言、通话体验上均有不错的体验。

先来看看情绪感知——

这个回答给足了对方情绪价值,一直在安抚对方的情绪,让我觉得“有点舒适”。

而且我发现,这个语音模型竟然支持了多语言,配合着这个超低延迟,感觉可以当个同声传译 AI 来用了,英语陪练更不用说了。

实话说,虽然阶跃这波升级的视觉 + 语音模型的表现出色,但我并不意外。

因为,阶跃公司从创立之初,“多模态”就是其主打特色。

Step R-mini 主打文理兼修,不偏科

这次还让我眼前一亮的,是阶跃这波连类 o1 推理模型都安排上了,名为“Step R-mini”(全称 Step Reasoner mini

跃问网页端就能体验,左上角中选择“Step R-mini”

传送门:https://yuewen.cn/chats

关于 Step R-mini,官方非常有意思的定位是“文理兼修”。

也就是说,Step R-mini 与其他国内外类 o1 模型的定位不同,Step R-mini 模型不仅强调数学、编程等传统的理科推理任务,而且还在文科推理任务上做了模型效果优化,率先让模型具备了文科类的推理和创作能力。

首先来看看理科能力。

根据官方的定位,Step R-mini 在理科上直接对标的是 o1-mini,并且官方放出了学术测试集上的评测结果:

其在 AIME2024 和 MATH500 两个数学测试集上都超越了 o1-mini 和 o1-preview。

我先简单跑了几个经典的理科测试 case。

比如曾经难倒一众类 o1 模型的取水问题——

Step R-mini 成功给出了答案。

再来一道概率题!

做对 +1。

再来看看阶跃首发的“文科推理”能力。

首先,我觉得“文科推理”这个切入点确实是有现实意义的,推理能力不仅适用于理科任务场景,在一些文科任务上,同样需要推理。

比如,算卦

起名字这事儿,看似是个拍脑袋、跟推理不搭边的文科任务,而在现实场景中,其实是根据父母的期许、生辰八字等诸多信息来综合推理,找到候选集。

但由于文科类任务很难定义出标准化的答案和优化目标,且难以构建封闭获取 reward 信号的“沙箱环境”,因此模型训练的难度会比单纯优化理科任务大得多。

这里,我找了些文科推理能力测试题。

比如我这里找了一道「对对联」的题目,不仅涉及对联仄起平收和对偶的一些语法知识,还考察信息的提取、筛选、概括,并进一步“推理”实现“条件满足”的思考过程。

从分析思考过程来看,确实 Step R-mini 的语法推理是在线的,最终得出了正确的答案。

再来一道中学时期不少小伙伴遇到过的语文题——

同样,Step R-mini 经过一顿“文科推理”后,找到了正确答案。

总之,我觉得 Step R-mini 是另辟蹊径,找到一条奇妙的蓝海赛道。会玩的小伙伴,可以脑洞更多的文科推理题目为难一下 Step R-mini,欢迎评论区分享结果!

值得关注的是,在推理模型的研发上,阶跃也在将自己擅长的多模态融入进去,打造视觉推理模型,将推理能力融入更多交互形态的大模型中。我找阶跃的小伙伴要到了剧透信息——

我们正针对复杂视觉场景下的 Reasoning 问题,引入了慢感知和空间推理的思想,把 Test-Time Scaling 从文本空间转移到视觉空间,实现在视觉空间下的 Spatial-Slow-Thinking。多模态视觉推理模型预计将在今年发布。

Step-Video V2 视频生成模型

虽然阶跃的多模态能力很强不意外,但阶跃的小伙伴和我说,这波全家桶竟然还有视频生成模型 Step-Video V2,这事儿意外到我了。

因为我觉得,他们今年发布的模型已经够多了,而且赛道跨度相当大。这里面,视频生成又是一个非常吃算力、吃数据和吃人才的赛道,国内能玩转的大模型公司一只手都能数得过来。

结果,阶跃也杀进来了。

直接贴官方的 showcase 感受一下——

prompt:低角度旋转镜头围绕着一个鼓手和他的架子鼓。鼓手穿着深色 T 恤和浅色裤子,戴着帽子,手臂上有纹身。

我们知道,运动控制一直是视频生成中极具挑战的镜头,非常考验模型对物理规律的理解和掌握,即使每一帧的画面都是合理的,按照时间轴串起来也不一定合理。甚至,生成反物理规律的镜头一度成为了短视频流量密码...

从上面这个 case 来看,无论是人物与物体之间的空间关系,击鼓的落脚点还是击鼓轨迹,都没有出现反物理规律的情况。尤其是,这还叠加了旋转运镜,一不留神就容易穿帮。从这一点来看,运动控制的细节着实到位。

除此之外,我发现 Step-Video V2 似乎在人物生成方面表现更优秀,无论是面部细节还是人物表情,都非常细腻。比如生成外国小姐姐——

prompt:视频展示了一位人物在阳光下的特写镜头。背景中可以看到围栏和一些建筑物,阳光柔和地洒在人物的头发上,增加了画面的温暖感。人物的表情自然,时而微笑,时而眨眼,给人一种轻松愉悦的感觉。整个视频运用了特写镜头,突出了人物的表情和细节,具有写实风格。

当然,我实测了一些 case 后,发现 Step-Video V2 跟其他视频模型类似,也免不了强依赖“抽卡”动作。但作为早期版本,我觉得表现已经可圈可点了。

其他模型:Step-2 mini,Step-2 文学大师版

除了多模态,阶跃的语言模型同样能打。最后两款模型是对标 GPT-4o mini 并提供了 API 调用的 Step-2 mini 模型,以及擅长文学创作的 Step-2 文学大师版

这两款模型都脱胎于 Step-2,Step-2 是国内最早的创业公司发布的万亿大模型,国内外榜单打榜第一的常客就是它。

这里贴下 Step-2 mini 模型的关键数据——

直接贴 API 传送门:
(https://platform.stepfun.com/

而 Step-2 文学大师版,则顾名思义,是为文学创作而生的。其在记忆海量世界知识的基础上,进一步强化了写作时对文字细节的把控能力,避免通用模型在文字创作时经常出现的“泛泛而谈”的空洞感。

我尝试用这个 Step 文学大师版给本瑶写了一部穿越小说。

实话说,我直接看楞了——

长图警告


好家伙,这也太长了吧,足足 5000 字,直接给我把一部短篇小说干完了。

而且看到跃问写到“我,夕小瑶,大明洪武皇帝的孙女”时,还挺开心,没想到后面就被当成凄惨的妖女了。这剧情,我真想试试发布到小说平台恰点稿费...

愿意为这个小说付费的,请在评论区扣 1

阶跃星辰:AGI 信仰派

体验完这六个模型之后,我对阶跃的认知,发生了很大的变化。

我常常根据对 AGI 的笃定程度,来把大模型创业公司分为两类——

    AGI 信仰派

    实用主义派

对于后者“实用主义派”,你常常能感觉到的是,对方公司不会很强调 AGI 概念,以及基础模型能力建设,而是把大部分精力和资源放在了 AI 应用方面。

而对于前者“AGI 信仰派”,你则会感受到对方很强烈的 AGI 概念和模型能力布局。其中,一个很突出的感知就是「实现了全模态能力覆盖」

阶跃已经是模型矩阵最全的公司之一,多模态能力更是有口皆碑,从频繁的更新动作就能感受到它的多模态上的“卷”。

此前,我不太确信阶跃是哪一个流派。

现在我很明确了,是绝对的 AGI 信仰派。

国内敢做全模态能力栈的大模型公司非常少,若没有强大的 AGI 信仰,是不敢这么做的。

算下来,就算加上 BAT 等老一代互联网大厂,如今国内能做到语言、视觉、语音、视频、推理这五大模态 + 模型范式全覆盖的公司,细数下来也仅有 3 家——阿里、智谱、阶跃。

要知道,用户对于 AI 的预期是越来越高的。

2023 年,大家谈论多的还是写作,2024 年,大家谈论多的已经到 AI 的智商乃至情商问题了。而到了 2025,几乎可以确信——只做单边能力建设的大模型公司,与 AGI 的距离很可能会日行渐远,进而难以支撑起用户对 AI 能力的预期。

而阶跃,不仅坚守住了 AGI 信仰,又于上个月,刚刚完成数亿美元的 B 轮融资。我对其在 2025 年的大模型&产品期待值已经拉满了。

六小虎中最晚亮相的「阶跃星辰」,很可能成为 2025 年率先杀出的黑马。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

阶跃星辰 多模态 AI模型 AGI Step-1o
相关文章