IT之家 前天 22:23
阶跃星辰新一代基础大模型 Step 3 正式开源:拥有强大视觉感知和复杂推理能力
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

阶跃星辰正式开源其新一代基础大模型 Step 3,并上线了相应的 API 接口,用户也可通过官网及 App 体验。Step 3 模型在设计上着重于实现智能与效率的极致均衡,特别适合追求高性能与成本效益的企业和开发者。该模型采用了 MoE 架构,总参数量达 321B,激活参数量为 38B,展现出强大的视觉感知和复杂的推理能力,能够处理跨领域知识理解、数理视觉交叉分析等任务。通过 MFA 和 AFD 等技术优化,Step 3 在各类芯片上的推理效率显著提升。此外,面向 AFD 场景的 StepMesh 通信库也已开源,为模型的跨硬件标准部署提供了支持。目前,Step 3 模型提供限时折扣,价格极具竞争力,为用户提供了极佳的应用选择。

🌟 **模型架构与性能优势**:Step 3 模型采用 MoE 架构,总参数量 321B,激活参数量 38B,在多项行业评测中表现领先。通过自研 MFA 注意力机制,有效降低了 KV 缓存开销与算力消耗,实现了资源利用与推理效率的平衡,能在 8×48GB 显卡上实现大吞吐量推理,具备实际部署的可行性。

👁️ **多模态能力与效率提升**:Step 3 在多模态能力上,通过“轻量视觉路径”和“稳定协同训练”解决了视觉信息引入带来的 token 负担和训练干扰问题。采用 5B Vision Encoder 并通过双层 2D 卷积降采样,将视觉 token 数量减少到原来的 1/16,显著减轻了上下文长度压力,提升了推理效率。训练过程分为两个阶段,并优化了多模语料,以确保图文协同质量与训练鲁棒性。

🚀 **AFD 解耦系统与通信优化**:Step 3 系统架构重构了解码流程,通过 AFD(Attention-FFN Disaggregation)方案将 Attention 与 FFN 计算解耦,并通过多级流水线并行调度提升了整体吞吐效率。为满足解耦后的数据传输需求,研发了 StepMesh 通信库,基于 GPU Direct RDMA 实现低延迟、高带宽传输,且不占用 GPU 计算资源,适配多种异构硬件。在 50ms 解码 SLA 下,Step 3 在 Hopper GPU 上的吞吐量远超同类模型。

💰 **成本效益与应用前景**:Step 3 模型旨在面向推理时代打造最适合应用的模型,专为追求性能与成本极致均衡的企业和开发者设计。模型提供限时折扣,每百万 token 价格低至输入 1.5 元,输出 4 元,极大地降低了使用成本。其强大的视觉感知和复杂推理能力,使其在跨领域知识理解、数学视觉交叉分析等方面具有广泛的应用潜力。

IT之家 7 月 31 日消息,阶跃星辰宣布新一代基础大模型 Step 3 正式开源,Step 3 API 已上线阶跃星辰开放平台(platform.stepfun.com),用户也可以在“阶跃 AI”官网(stepfun.com)和“阶跃 AI”App 进行体验。

据介绍,Step 3 的多模态能力围绕“轻量视觉路径”与“稳定协同训练”展开,重点解决视觉引入带来的 token 负担与训练干扰问题。为此,其采用 5B Vision Encoder,并通过双层 2D 卷积对视觉特征进行降采样,将视觉 token 数量减少到原来的 1/16,减轻上下文长度压力,提升推理效率。

IT之家附官方对 Step 3 模型的介绍如下:

核心要点

Step 3 API 已上线阶跃星辰开放平台(platform.stepfun.com),大家也可以在“阶跃 AI”官网(stepfun.com)和“阶跃 AI”App(应用商店搜索下载)进行体验。

行业领先的模型性能

我们在 MMMU、MathVision、SimpleVQA、AIME 2025、GPQA-Diamond、LiveCodeBench (2024.08-2025.05)等评测集上对 Step 3 进行了测试,在同类型开源模型中,Step 3 成绩行业领先。

技术亮点

Step 3 重点解决多模态协同、系统解码成本与推理效率问题,在训练路径、架构设计和推理部署上做了系统级优化。

1、预训练架构

Step 3 的核心结构采用自研 MFA 注意力机制,有效降低注意力计算中的 KV 缓存开销与算力消耗。在不牺牲模型能力的前提下,这一方案实现了资源利用与推理效率的平衡,使得模型可在 8×48GB 显卡上完成大吞吐量推理,具备真实部署的可行性。

2、多模态预训练

Step 3 的多模态能力围绕“轻量视觉路径”与“稳定协同训练”展开,重点解决视觉引入带来的 token 负担与训练干扰问题。为此,我们采用 5B Vision Encoder,并通过双层 2D 卷积对视觉特征进行降采样,将视觉 token 数量减少到原来的 1/16,减轻上下文长度压力,提升推理效率。

为保证多模态训练的稳定性,训练过程分为两个阶段:第一阶段强化 Encoder 感知,第二阶段冻结视觉编码器,仅优化主干与连接层,以减少梯度干扰。训练语料也需与策略匹配,保障稳定协同。多模语料涵盖 Pair、Interleave 与多任务数据,在清洗环节中引入相似度过滤、重采样与任务比例控制,进一步提升图文协同质量与训练鲁棒性。

3、AFD 解耦系统

Step 3 在系统架构层重构了解码流程,重点解决 Attention 与 FFN 混合执行带来的推理瓶颈以及资源不匹配问题。为此,我们实现了高性能的 AFD(Attention-FFN Disaggregation)方案,将两类计算任务解耦成为两个子系统,并通过多级流水线并行调度,有效提升整体吞吐效率。

由于解耦后的子系统之间对数据传输有极高要求,我们同时研发了面向 AFD 场景的 StepMesh 通信库,基于 GPU Direct RDMA 实现跨卡的低延迟和高带宽传输,同时兼备不占用 GPU 计算资源、适配多类异构硬件等优势。在 50ms 解码的 SLA 前提下,Step 3 在 Hopper GPU 上的吞吐达到 4039 token / gpu / s,显著高于类似设置下的 DeepSeek V3(2324 token / gpu / s),且该性能增益在特定硬件与长文场景会进一步放大至 300%。

StepMesh 库已随模型一同开源,提供可跨硬件的标准部署接口,支持关键性能在实际服务中的稳定复现。之后我们也会积极与各开源社区合作推广,让以上技术更容易被采纳和使用。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

阶跃星辰 Step 3 大模型 AI 开源
相关文章