阶跃Step 3炸场WAIC！最强多模态推理开源，推理效率提升300%

原创夕小瑶编辑部 2025-07-26 18:28 北京

坐标上海，WAIC 2025 现场！全中国 AI 圈的半壁江山都来了，整个会场都充满了多巴胺的味道。

今天是 WAIC 2025 世界人工智能大会开幕的第一天，我正穿梭在上海世博中心，腿已经快“跑废”了！

每个展台都挤满了人，放眼望去，最火爆的展台里，阶跃绝对是 C 位之一。

没错，我说的就是阶跃星辰。就在 WAIC 开幕的前一天，我参加了他们新一代基础大模型 Step 3 的发布会。

会前并没有什么预热，但现场人超级多。那种热闹不是靠布景和流程撑起来的，而是一种“行业气氛到了”的感觉。很难形容，但如果你一直在 AI 行业里跑得够多，大概会明白我说的是什么。

当狂热的百模大战和参数竞赛逐渐回归理性，一个更本质、更尖锐的问题摆在了所有从业者面前：

到底什么样的模型，才是最适合应用的模型？

谁都知道，AI 要落地，不能只追分数。推理效率、推理成本、芯片适配、开源生态、上下文长度、多模态理解……一个模型想进入现实世界，比刷新榜单要多得多。

阶跃星辰，用这场发布会回答了这个问题。答案就在他们发布的新一代基座模型——Step 3。

阶跃将其核心特点高度浓缩为四个字：「多、开、好、省」。

听起来像顺口溜，但每一个字后面，都是一场难打的仗。

先说“多”，也就是多模态。

你去翻一翻现在主流模型的表现，大概就会明白“多模态”这个坑到底有多深。文本推理强的模型确实不少，比如 DeepSeek、Kimi K2、MiniMax M1，这些在纯文本任务上都非常能打，但统一的问题是：只有单模态。

图像语言都能处理的，也有，比如 LLaVA 这一类，但性能又拉不动、稳定性不足，难以打进商用线；而那些你真看着强的模型，比如 Gemini、Claude，压根就不开源。

Step 3 想补的，就是这个空档。

我们来看几个具体的 case。

比如说，有一张经典的色盲测试图，上面是由密集的小圆点组成的数字图案，大部分人一眼就能分辨出这写的是几，但 AI 模型往往读不出来。

Step 3 不仅准确识别出这是一张以“STEP3”为字样组成的视觉图案，还把整个思考过程解释得一清二楚。

再比如一张菜单，画质模糊、有反光，图文混排。你问它：“无骨鸭掌多少钱？”Step 3 不仅能在众多菜名中锁定目标，还能从价格区中正确匹配到“58 元/份”，这可不是简单 OCR，是图文结构理解。

这些场景看起来碎，却构成了真实世界的主要输入方式。

“多”这个字，背后不是模态的堆叠，而是逻辑的融合。而融合之后，才有可能发生真正的推理。

而阶跃说，我不光做了，还开源了。

这就来到了第二个关键词：“开”。

Step 3 预计将在 7 月 31 日开源。（期待ing

接着看第三个词：“好”。

在权威评测成绩方面，Step 3 不止是“能跑”，而是在多个国际权威榜单上全面领先，是最强的开源多模态推理模型。

在 MMMU、MathVision、SimpleVQA 这类多模态推理任务中，Step 3 均跑在第一梯队，力压 GLM、Qwen、MIMO 等熟面孔

在语言能力上，和同类型模型相比，在 AIME 2025 打出断层式领先；

在专业问答/代码任务 GPQA-Diamond 和 LiveCodeBench 中，Step 3 同样保持第一梯队位置。

如果说前三代多模态模型还在拼“看得懂”，那 Step 3 的优势，就在于“想得明白”，真正把多模态从感知堆叠推进到逻辑融合，往“推理智能”迈出了一步。

但我觉得，真正能封神的，是最后这个字：“省”。

也就是推理成本低、部署效率高，尤其是对国产芯片格外友好。

在国产芯片 32K 上下文，推理效率最高可达 Deepseek R1 的 300%。

什么意思？你可以简单理解成：如果 DeepSeek R1 花 3 块钱才能跑完一段任务，Step‑3 只用 1 块钱就能跑完，而且还调动了更多参数去思考。

再专业一点，就是推理效率=单位成本能调动多少有效算力。

我给你看这几张图你就懂了：

这张是在国产卡环境下（32K 上下文）测的推理理论成本 vs 激活参数量。

首先，Step 3 是一款原生多模态大模型、MoE（专家混合）架构，总参数量 321B，激活参数量 38B。K2、M1、DS、Qwen 这些都是 MoE 架构。

Step 3 激活约 38B 参数，理论成本约 1 块钱；DeepSeek（DSv3/R1）：激活约 34B 参数，理论成本约 3 块多钱。虽然 Step 3 激活参数更多，但成本只有对方的三分之一左右。

而激活参数越多代表模型实际参与计算的能力越强，Step 3 那颗红星的位置，意味着，几乎是所有模型中“花最少的钱，激活最多参数”的。

那 Step 3 是怎么做到的？这张图是答案：

横轴是显存带宽（memory access），纵轴是算力需求（compute），斜线代表不同硬件的算力。比如 A800、H20、910B 的 roofline（性能天花板）。

我们能看到两个典型：

DeepSeek V3：点很高、内存访问不算大，但计算强度高，代表是“重计算、轻内存”。它的斜率接近 H800 那条高斜率线，说明放在算力很强的 H800 上能把计算单元利用起来，直白点讲：ds 适合跑在 h800 上。

Qwen3-MoE：点在右侧，内存访问特别多但计算量低，属于“重内存、轻计算”，在带宽充足的 H20 上更容易发挥；放在纯算力强但带宽一般的卡上会被内存拖慢。

而 Step 3，那颗红星，点居中，卡在所有芯片都能接受的黄金区域。计算与内存访问比例适中，落在国产芯片（算力相对有限、带宽也有限）的那条较低斜率线附近。所以非常适配国产芯片，性价比最好，跑起来最高效。

特别是在低 compute / low bandwidth 卡上，也能保持线性稳定的吞吐。

最后一张图，是整个通用部署场景下的验证：

换个角度，不看国产卡，只看推理 8K 长度下，所有模型在国际市场（GPU/HPC 云平台）上的“美元推理单价”。

Step-3 依然稳居左上角。

无论你是跑在 NVIDIA 云、AWS、青云、还是浪潮本地集群——Step-3 都是成本压得最狠、激活效率最强的那一个。

在我看来，这是 Step 3 真正厉害的地方，把性能、推理、成本、兼容性这些极难统一的维度，拉到了一个极少数模型才能企及的平衡点上。

这才是基座模型该有的样子。

所以你会看到，这次发布会不仅在讲模型本身，还请来了几乎整个国产芯片圈的代表，一起官宣成立「模芯生态创新联盟」。

模型厂商和芯片厂商，开始坐到一张桌子上，联手打通从底层硬件到上层推理的完整链路。

因为大模型要真正跑进现实世界，从来就不是某一家公司、某一个模型能单干的事。

而阶跃星辰这次的动作，正在释放一个明确的信号：一个真正聪明的模型，不止要理解世界，还得适应世界，适配它的每一块芯片、每一种算力现实。

现在的大模型，也不再只是卷谁更大、谁跑分更高，而是卷谁更能跑进真实场景，更能被设备用起来，被生态接住。

而 Step 3，显然已经先走了一步。

阅读原文

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签