智源社区 21小时前
又一SOTA级开源模型!阶跃Step-3多模态推理登顶,百万token解码成本不到4毛钱
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

国产AI公司阶跃星辰正式开源了其最新的多模态推理模型Step-3。该模型在MMMU等榜单上取得了开源多模态推理模型的新SOTA成绩,展现出强大的推理能力。Step-3的解码速度极快,在Hopper GPU上可达每秒4039个Token,是DeepSeek-V3的174%。其模型-Infra一体化设计带来了极高的性价比,321B参数的模型可在8块48GB GPU上运行,处理高达80万个Token,且解码成本远低于同类模型。Step-3的成功开源,再次彰显了中国在AI大模型领域的实力和领先地位。

🚀 **国产Step-3模型开源,引领多模态推理新高度**:阶跃星辰正式发布了其最新多模态推理模型Step-3,并在MMMU、AIME25、LiveCodeBench等关键榜单上刷新了开源SOTA记录。该模型凭借其卓越的性能,在多模态理解与推理方面展现出领先实力,进一步巩固了中国在AI大模型领域的地位。

⚡ **极致高效能,解码速度与成本双突破**:Step-3在4K上下文长度下,平均解码吞吐量达到3910 token/GPU/秒,峰值更是高达4039 token/GPU/秒,比DeepSeek-V3快74%。更令人瞩目的是其极低的成本,在H20+H800异构组合下,8K长度每百万Token成本仅约0.055美元。在H20上,Step-3的解码成本仅为DeepSeek-V3的30%,甚至低于华为盘古大模型,展现了惊人的性价比。

💡 **模型-Infra协同设计,创新技术驱动性能**:Step-3的卓越表现得益于其“模型—系统”一体化协同设计理念。核心在于自研的MFA(Multi-Matrix Factorization Attention)注意力机制,通过低秩分解和多查询头共享Key/Value,有效压缩KV缓存和计算量。同时,AFD(Attention-FFN Disaggregation)机制将Attention和FFN计算拆分到最适合的GPU群组,并通过三阶段流水线优化通信,实现了小规模集群的高吞吐量。StepMesh通信库的开源也为跨硬件部署提供了标准接口。

🏆 **中国开源模型领跑全球,生态日益繁荣**:Huggingface模型榜单显示,中国开源模型已占据主导地位,前十名中有八席来自中国。Step-3的出现再次证明了中国团队在AI领域的创新能力和贡献。这种将王牌模型直接开源的策略,极大地推动了开源社区的发展,也让中国AI力量在全球舞台上闪耀。

又一个SOTA基础模型开源,而且依然是国产。

刚刚,阶跃星辰兑现了WAIC上的承诺,将最新多模态推理模型Step-3正式开源

在MMMU等多个多模态榜单上,它一现身就取得了开源多模态推理模型新SOTA的成绩。

并且速度飞快,在Hopper GPU上每秒可以解码4039个Token(4K上下文、FP8、无MTP),是DeepSeek-V3的174%

这一表现,也给大模型解码设定了新的帕累托前沿(资源分配的一种理想状态)

另外,Step-3采用了模型-Infra一体化设计,因此性价比也极高。

它有321B参数,但可以运行在8块48GB的GPU上,处理多达80万个token。

如果直观比较,Step-3在H20上的解码成本仅有DeepSeek-V3的30%。

Huggingface工程师评价,这种模型-Infra共同设计的理念,代表了一种前进方向。

百万Token解码成本不到4毛

Step-3是一款MoE模型,包含48个专家,总参数量321B,其中316B为语言模型,5B为视觉编码器,激活参数量则为38B(3个专家)。

在MMMU、AIME25、LiveCodeBench等多个数学、代码及多模态榜单中,Step-3都达到了开源SOTA水平。

而且Step-3主打一个高效能,在4K上下文长度下,平均解码吞吐达到了3910token/GPU/秒,峰值4039 token/GPU/秒,比DeepSeek-V3的峰值高74%

成本方面,Step-3使用H20+H800的异构组合,8K长度下每百万Token成本为0.055美元,合人民币不到4毛钱

相比于只用H800的DeepSeek-V3,Step-3激活参数量更高,但成本只有V3的80%。

如果对比采用同样异构组合的Qwen MoE,Step-3的成本也要少将近12%。

如果不使用异构,Step-3在各个芯片上的成本,也低于DeepSeek-V3和Qwen。

例如在32K长度下,H20计算卡上,Step-3的解码成本只有V3的30%

特别值得一提的是,在昇腾910B上,Step-3的解码成本甚至比华为自家的盘古大模型还要低

之所以能实现如此高的性价比,关键就在于Step-3采用了模型-Infra协同设计

模型-Infra协同设计

Step-3通过“模型—系统”一体化思路,把注意力、前馈网络和集群调度当作同一个优化对象,而不是单独微调某个算子。

核心中的核心是阶跃自研的MFA(Multi-Matrix Factorization Attention,多矩阵因子分解)注意力机制

MFA在Query-Key路径上进行低秩分解,并让多个查询头共享同一组Key/Value表示,从根源上压缩 KV 缓存和乘加量。

技术报告显示,Step-3的KV缓存大小小于DeepSeek-V3,使得Step-3更适用于长上下文场景。

并且与传统稀疏或线性注意力不同,MFA还特地把算力-带宽比调到刚好略低于主流GPU的屋脊线,让同一套权重在高带宽卡和算力卡上都能维持高利用率。

系统层面,阶跃团队提出了AFD(Attention-FFN Disaggregation)机制。

传统情况下,模型关于Attention和FNN的推理计算任务,会同时交给同一组GPU同时处理,常常导致资源浪费。

AFD则把注意力和 FFN 分拆到各自最擅长的GPU群组,通过专门的三阶段流水线把隐藏态在两端之间“穿针引线”。

这样一来,每类算子都能选用最合拍的硬件和并行策略,同时流水线把通信延迟掩藏在计算之下,实现小规模集群就能跑满卡的解码吞吐。

为支撑这一细粒度拆分,阶跃团队编写了StepMesh通信库,通过GPUDirect RDMA实现,SM占用为0,可在子毫秒时间内完成双向流式传输。

并且StepMesh库已随模型一同开源,提供可跨硬件的标准部署接口。

One More Thing

Hugging Face模型榜单,已经被中国开源模型占据主导,前十名中有8个模型全都来自中国

其中第一名是智谱AI的GLM-4.5,第二名是腾讯推出的混元世界模型,4-6名为不同版本的Qwen。

之后的国产模型包括智谱GLM-4.5的Air版本,以及同一团队的Wan2.2视频生成模型,第十名则是上海AI Lab的Intern-S1。

Kimi-K2则位列第十一,之前也曾进入过前十,这次的Step-3也位列第一页。

此外,第一页中还能看到字节Seed、昆仑万维、上交大PowerInfer等中国团队研发的模型。

并且这些厂商都选择了把自家的王牌模型直接开源,而不是发布新一代才开源上一代。

在开源世界,国产模型已成为当之无愧的领军者。

Github:
https://github.com/stepfun-ai/Step3
Hugging Face:
https://huggingface.co/stepfun-ai/step3
魔搭ModelScope:
https://www.modelscope.cn/models/stepfun-ai/step3
https://www.modelscope.cn/models/stepfun-ai/step3-fp8
技术blog:
https://www.stepfun.com/research/zh/step3
StepMesh开源地址:
https://github.com/stepfun-ai/StepMesh

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

🎉 希望了解AI产品最新趋势?
量子位智库「AI 100」2025上半年
「旗舰产品榜」和「创新产品榜」
给出最新参考👇

🌟 点亮星标 🌟

科技前沿进展每日见

内容中包含的图片若涉及版权问题,请及时与我们联系删除

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Step-3 多模态推理 AI模型 开源 国产AI
相关文章