原创 夕小瑶编辑部 2025-07-26 18:28 北京
坐标上海,WAIC 2025 现场!全中国 AI 圈的半壁江山都来了,整个会场都充满了多巴胺的味道。
今天是 WAIC 2025 世界人工智能大会开幕的第一天,我正穿梭在上海世博中心,腿已经快“跑废”了!
每个展台都挤满了人,放眼望去,最火爆的展台里,阶跃绝对是 C 位之一。
没错,我说的就是阶跃星辰。就在 WAIC 开幕的前一天,我参加了他们新一代基础大模型 Step 3 的发布会。
会前并没有什么预热,但现场人超级多。那种热闹不是靠布景和流程撑起来的,而是一种“行业气氛到了”的感觉。很难形容,但如果你一直在 AI 行业里跑得够多,大概会明白我说的是什么。
当狂热的百模大战和参数竞赛逐渐回归理性,一个更本质、更尖锐的问题摆在了所有从业者面前:
到底什么样的模型,才是最适合应用的模型?
谁都知道,AI 要落地,不能只追分数。推理效率、推理成本、芯片适配、开源生态、上下文长度、多模态理解……一个模型想进入现实世界,比刷新榜单要多得多。
阶跃星辰,用这场发布会回答了这个问题。答案就在他们发布的新一代基座模型——Step 3。
阶跃将其核心特点高度浓缩为四个字:「多、开、好、省」。
听起来像顺口溜,但每一个字后面,都是一场难打的仗。
先说“多”,也就是多模态。
你去翻一翻现在主流模型的表现,大概就会明白“多模态”这个坑到底有多深。文本推理强的模型确实不少,比如 DeepSeek、Kimi K2、MiniMax M1,这些在纯文本任务上都非常能打,但统一的问题是:只有单模态。
图像语言都能处理的,也有,比如 LLaVA 这一类,但性能又拉不动、稳定性不足,难以打进商用线;而那些你真看着强的模型,比如 Gemini、Claude,压根就不开源。
Step 3 想补的,就是这个空档。
我们来看几个具体的 case。
比如说,有一张经典的色盲测试图,上面是由密集的小圆点组成的数字图案,大部分人一眼就能分辨出这写的是几,但 AI 模型往往读不出来。
Step 3 不仅准确识别出这是一张以“STEP3”为字样组成的视觉图案,还把整个思考过程解释得一清二楚。
再比如一张菜单,画质模糊、有反光,图文混排。你问它:“无骨鸭掌多少钱?”Step 3 不仅能在众多菜名中锁定目标,还能从价格区中正确匹配到“58 元/份”,这可不是简单 OCR,是图文结构理解。
这些场景看起来碎,却构成了真实世界的主要输入方式。
“多”这个字,背后不是模态的堆叠,而是逻辑的融合。而融合之后,才有可能发生真正的推理。
而阶跃说,我不光做了,还开源了。
这就来到了第二个关键词:“开”。
Step 3 预计将在 7 月 31 日开源。(期待ing
接着看第三个词:“好”。
在权威评测成绩方面,Step 3 不止是“能跑”,而是在多个国际权威榜单上全面领先,是最强的开源多模态推理模型。
在 MMMU、MathVision、SimpleVQA 这类多模态推理任务中,Step 3 均跑在第一梯队,力压 GLM、Qwen、MIMO 等熟面孔
在语言能力上,和同类型模型相比,在 AIME 2025 打出断层式领先;
在专业问答/代码任务 GPQA-Diamond 和 LiveCodeBench 中,Step 3 同样保持第一梯队位置。
如果说前三代多模态模型还在拼“看得懂”,那 Step 3 的优势,就在于“想得明白”,真正把多模态从感知堆叠推进到逻辑融合,往“推理智能”迈出了一步。
但我觉得,真正能封神的,是最后这个字:“省”。
也就是推理成本低、部署效率高,尤其是对国产芯片格外友好。
在国产芯片 32K 上下文,推理效率最高可达 Deepseek R1 的 300%。
什么意思?你可以简单理解成:如果 DeepSeek R1 花 3 块钱才能跑完一段任务,Step‑3 只用 1 块钱就能跑完,而且还调动了更多参数去思考。
再专业一点,就是推理效率=单位成本能调动多少有效算力。
我给你看这几张图你就懂了:
这张是在国产卡环境下(32K 上下文)测的推理理论成本 vs 激活参数量。
首先,Step 3 是一款原生多模态大模型、MoE(专家混合)架构,总参数量 321B,激活参数量 38B。K2、M1、DS、Qwen 这些都是 MoE 架构。
Step 3 激活约 38B 参数,理论成本约 1 块钱;DeepSeek(DSv3/R1):激活约 34B 参数,理论成本约 3 块多钱。虽然 Step 3 激活参数更多,但成本只有对方的三分之一左右。
而激活参数越多代表模型实际参与计算的能力越强,Step 3 那颗红星的位置,意味着,几乎是所有模型中“花最少的钱,激活最多参数”的。
那 Step 3 是怎么做到的?这张图是答案:
横轴是显存带宽(memory access),纵轴是算力需求(compute),斜线代表不同硬件的算力。比如 A800、H20、910B 的 roofline(性能天花板)。
我们能看到两个典型:
DeepSeek V3:点很高、内存访问不算大, 但计算强度高,代表是“重计算、轻内存”。它的斜率接近 H800 那条高斜率线,说明放在算力很强的 H800 上能把计算单元利用起来,直白点讲:ds 适合跑在 h800 上。
Qwen3-MoE:点在右侧,内存访问特别多但计算量低,属于“重内存、轻计算”,在带宽充足的 H20 上更容易发挥;放在纯算力强但带宽一般的卡上会被内存拖慢。
而 Step 3,那颗红星,点居中,卡在所有芯片都能接受的黄金区域。计算与内存访问比例适中,落在国产芯片(算力相对有限、带宽也有限)的那条较低斜率线附近。所以非常适配国产芯片,性价比最好,跑起来最高效。
特别是在低 compute / low bandwidth 卡上,也能保持线性稳定的吞吐。
最后一张图,是整个通用部署场景下的验证:
换个角度,不看国产卡,只看推理 8K 长度下,所有模型在国际市场(GPU/HPC 云平台)上的“美元推理单价”。
Step-3 依然稳居左上角。
无论你是跑在 NVIDIA 云、AWS、青云、还是浪潮本地集群——Step-3 都是成本压得最狠、激活效率最强的那一个。
在我看来,这是 Step 3 真正厉害的地方,把性能、推理、成本、兼容性这些极难统一的维度,拉到了一个极少数模型才能企及的平衡点上。
这才是基座模型该有的样子。
所以你会看到,这次发布会不仅在讲模型本身,还请来了几乎整个国产芯片圈的代表,一起官宣成立「模芯生态创新联盟」。
模型厂商和芯片厂商,开始坐到一张桌子上,联手打通从底层硬件到上层推理的完整链路。
因为大模型要真正跑进现实世界,从来就不是某一家公司、某一个模型能单干的事。
而阶跃星辰这次的动作,正在释放一个明确的信号:一个真正聪明的模型,不止要理解世界,还得适应世界,适配它的每一块芯片、每一种算力现实。
现在的大模型,也不再只是卷谁更大、谁跑分更高,而是卷谁更能跑进真实场景,更能被设备用起来,被生态接住。
而 Step 3,显然已经先走了一步。