赛博禅心 01月23日
六虎中的「多模态狂魔」:阶跃星辰|江湖录
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了国内AI六小虎之一的阶跃星辰,这家公司以低调务实著称,在2024年崭露头角,模型频出,融资不断。阶跃星辰的核心团队由来自微软、字节跳动等公司的资深AI专家组成,技术实力雄厚。在多模态领域,阶跃星辰的视觉理解能力尤为突出,其模型在榜单和实际体验中都表现卓越。此外,阶跃星辰还在大语言模型、视频生成和推理模型等领域持续投入,并积极开展产业合作,赋能各行各业,同时通过“繁星计划”扶持开发者,推动多模态大模型应用。

🌱 根正苗红:阶跃星辰的核心团队由前微软、字节跳动等公司的资深AI专家组成,拥有深厚的AI技术背景和丰富的行业经验,是“土生土长”的原生AI团队。

👁️ 多模态卷王:阶跃星辰在多模态领域表现卓越,尤其在视觉理解方面处于领先地位,其Step-1o系列模型实现了文本、视觉、语音三模态的端到端融合,并在视觉理解能力测试中遥遥领先。

💪 低调的六边形战士:阶跃星辰在预训练大语言模型、视频生成模型和推理模型等领域均有布局,并开创性地提出了“视觉推理”等新概念,技术实力全面,但宣传低调。

🤝 广泛的产业合作:阶跃星辰与茶百道、OPPO、飞书等各行业头部企业展开深度合作,将多模态AI技术应用于实际产业场景,同时通过“繁星计划”扶持开发者,推动AI技术应用落地。

原创 金色传说大聪明 2025-01-22 16:19 北京

阶跃:我在卷哪些事儿,和在招哪些人?

这是一个新系列,唤做 江湖录 : 

对于主流的 AI 玩家:在卷哪些事儿,和在招哪些人?

(我真的有在扒拉,各家有哪些坑位) 


 

作为开篇,先聊聊「AI 六小虎之低调虎」:阶跃星辰 

下面这个图片推理模型,便是他们的杰作(强悍异常) 


顺道说一下“AI 六小虎”,其具体源头不可靠,指的是国内做大模型的六家头部公司,估值均在百亿人民币以上,按首字母排序为:百川,阶跃星辰,零一万物,MiniMax,月之暗面,智谱 

 

「阶跃星辰」便是其中的一员,总部在上海,中关村也有办公室,低调且神秘: 

 

如果给「阶跃星辰」上几个 tag ,我想会是: 

 

下面,我也会就这几个 tag,来聊一聊阶跃。以及...文末有内推链接,简历直达,专人查阅 - 没有中间商赚差距 ahhhhh 

 


 

 Tag:根正苗红 

 

根正苗红,应该是形容「阶跃星辰」的一个贴切用词。其核心团队,都是“土生土长”的老 AIer ——


另一方面,1 个月前,阶跃星辰刚刚完成 B 轮融资,总融资金额达数亿美元,其核心投资方便包括了上海国有资本投资有限公司及其旗下基金。 



 

 Tag:多模态卷王 

 

阶跃昨天升级了 step-1o 系列,应该是第一个做到「文本、视觉、语音三模态」端到端融合的模型。这个系列,包括多模态理解模型 Step-1o Vision 和升级后的语音模型 Step-1o Audio。 

 

对于阶跃来说,视觉理解算是传统艺能,尤其是在 LMSYS Org 最新的 Chatbot Arena 视觉领域排名中一骑绝尘。 

 

穿插个乐子:点左上角小红书,会发现... 

Chatbot Arena,竟然还做了个小红书的号....看来...美国的 AI 圈,也来小红书逃难了...倒反天罡... 

 

话说回来,从实际体感来说,我觉得阶跃的模型,是超过榜单排名的,这里有个不错的例子 

 

但其强大之处远不止于此...  



上图,是我做的一个测试:「大模型视力表 - 看看不同大模型能读到第几行」。方法是这样,拿下面这个 1024*1024 的古诗词视力表,去问大模型,看看不同家的模型,能读到第几行,发现,阶跃的视力遥遥领先 

 

顺道说下,这里其实照顾了下 ChatGPT 和 Claude 的面子,其实他们从第二行开始,就有小错了。比如第二句的“处处分流白玉渠”,ChatGPT 写的是“百玉溪”,Claude 写的是“百玉湾”。以及... 我稍微改了下图,这样可能更直观:



这个事儿其实挺严重的,当我们把文档截图问 AI 的时候,它实际上并没看清里面的文字,而是靠瞎编...那么可想而知,给到你的答案,也只能是瞎说的。而在这个场景下,阶跃的图片理解则明显更准确,更值得信赖。 

 

这两天,阶跃也同时发布了其语音模型 Step-1o Audio,端到端,延迟低,可感知情绪,语气丰沛,甚至在多语种对话时实现近乎“同声传译”的流畅程度,属于目前的第一梯队。比如下面两个...真的没崩住...


来自赛博禅心音频:撒娇女友

来自赛博禅心音频:川味 Talk

 


 

 Tag:低调的六边型战士 

 

很可见的,大模型洗牌已经进入下半场。一些公司开始在技术和产品之间进行取舍,或改变了发展路线。便有个争论:大模型公司,还要不要坚持预训练? 


 

阶跃属于笃定的技术理想派,按照其最初规划的 AGI 技术路线图推进。阶跃在大语言模型的预训练、视频生成模型和推理模型都在持续下注,并开创性的带来了“视觉推理”等全新形态。 

 

先说大语言模型 Step-2。这两天进行了一轮迭代升级,刷榜 Chatbot Arena,和 DeepSeek 并列国产第一。同时,阶跃还推出了更轻量化的 Step-2 mini 和专注创作领域的 Step 文学大师版。 

顺道说一下,这个模型未蒸馏任何 o1-like 数据,便取得了 o1-mini 相当的成绩(甚至还略微高了些)。可以期待一下未来的更新~ 

 

在视频生成领域,阶跃的 Step-Video 2 也没有落下。其在“复杂运动”“镜头语言多样化”等方面得到了全面升级,人像的五官、表情、动作细节都更加逼真自然,甚至能生成准确的场景文字。 


Prompt: 低角度旋转镜头围绕着一个鼓手和他的架子鼓。鼓手穿着深色T恤和浅色裤子,戴着帽子,手臂上有纹身。


Prompt: 视频中,一名强壮的美式橄榄球队球员,身穿专业的橄榄球服,在球场上进行练习。整个场景在一个开阔的球场上进行,背景是其他球员和教练。视频采用固定机位平移方式,捕捉了球员跑动的每一个细节,清晰地展示了橄榄球运动的激烈和速度感。


Prompt: 视频中,一名强壮的美式橄榄球队球员,身穿专业的橄榄球服,在球场上进行练习。整个场景在一个开阔的球场上进行,背景是其他球员和教练。视频采用固定机位平移方式,捕捉了球员跑动的每一个细节,清晰地展示了橄榄球运动的激烈和速度感。


接着是最新发布的推理模型 Step R-mini,特点是文理兼修:除了能准确解答数学、代码、逻辑推理问题,还能富有创意地完成文学内容创作和日常聊天的任务。 

 

当然,最令我惊愕的,还是即将推出的“视觉推理”,也就是文章最开始的那张图:通过在视觉空间中加入“慢感知”和空间推理的思想,对图像、视频等内容的进行深度推理。 

 


 

 Tag:广泛的产业间合作 

 

阶跃的风格,属于「有机会让伙伴来」:这个「伙伴」,相当广泛,既包括头部大厂,也包括个人开发者。 

 

一方面,阶跃和头部大厂玩得火热。 茶百道、OPPO、飞书... 各行业领头羊都成了阶跃的座上宾。同茶百道深度合作,发力智能巡检,一起用 AI 守护你喝到的每杯奶茶;联手 OPPO 打造 OS 级 AI 体验,让 ColorOS 更聪明更好用;作为荣耀的大模型合作方,在其 Agent 生态中大放异彩;还跟飞书多维表格深度融合,批量读图,一键生成报告。这些合作,把阶跃的多模态能力用到实处,实实在在赋能产业升级。 

 

另一方面,阶跃的“繁星计划”则是对开发者的各种补贴和照顾。 4 万元 tokens 免费送,宣发资源、合作伙伴对接、技术支持、免费工位... 全方位扶持给到位,优秀项目还能拿到阶跃的直接投资!教育、医疗、零售... 各行各业的开发者都能来,特别是玩多模态的,更是“重点关照对象”。目标很明确:孵化更多“胃之书”,让多模态大模型真正火起来。 


顺道说一下,林间聊愈室也是“繁星计划”的一员,它的创始人 Joshua 表示,阶跃的模型的识别效果,是测试的模型中表现最好的而另一个“繁星计划er”,胃之书的开发者赵纯想,则说:通过 A/B 测试发现,阶跃星辰的模型付费率最高” 

 

如果你对繁星计划感兴趣,可以扫描这个码参与。推荐人可以写「赛博禅心」,有成功率加成。 


 



 

 工作机会 

刚刚确认,以下的职位都有坑,待遇相当可以,也欢迎保存&发给你的好友。当然,也可以点「查看原文」,直达招聘:


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

阶跃星辰 多模态AI 视觉理解 AI产业合作 繁星计划
相关文章