index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html
![]()
在WAIC 2025世界人工智能大会上,阶跃星辰发布了新一代基础大模型Step 3。该模型以“多、开、好、省”为核心特点,在多模态理解、开源承诺、权威评测和推理成本方面均表现出色。Step 3不仅能精准处理复杂的图文混排信息,还承诺开源,并在多项国际榜单上取得领先。尤为突出的是其在推理成本上的优势,特别对国产芯片的适配性极高,大幅降低了AI应用的门槛。此次发布也标志着大模型与芯片产业的深度融合,预示着AI落地应用的加速。
🌟 **多模态能力出众**:Step 3原生支持多模态,能够深度理解和融合图像与文本信息,例如准确识别色盲测试图中的文字并解释过程,或从模糊带反光的菜单中精准匹配菜品信息,实现真正的逻辑融合而非简单的模态堆叠。
🚀 **积极推进开源生态**:阶跃星辰承诺将在7月31日开源Step 3模型,旨在打破当前主流模型多为闭源的局面,为AI社区提供更强的多模态推理能力,推动AI技术的普惠与发展。
🏆 **权威评测全面领先**:在MMMU、MathVision、SimpleVQA等多模态推理任务中,Step 3均位列国际权威榜单前沿,在语言能力方面也在AIME 2025评测中取得断层式领先,并保持在GPQA-Diamond和LiveCodeBench等专业任务的第一梯队。
💰 **极致的成本效益**:Step 3在推理成本上表现卓越,尤其对国产芯片适配性极高。在国产32K上下文场景下,其推理效率最高可达Deepseek R1的300%,以更低的成本实现更强的模型计算能力,有效降低AI应用部署的经济门槛。
🤝 **构建软硬一体化生态**:阶跃星辰携手国产芯片厂商成立「模芯生态创新联盟」,致力于打通从底层硬件到上层推理的完整链路,推动大模型在真实场景中的广泛应用,以及芯片与模型的协同优化。
原创 夕小瑶编辑部 2025-07-26 18:28 北京

坐标上海,WAIC 2025 现场!全中国 AI 圈的半壁江山都来了,整个会场都充满了多巴胺的味道。今天是 WAIC 2025 世界人工智能大会开幕的第一天,我正穿梭在上海世博中心,腿已经快“跑废”了!每个展台都挤满了人,放眼望去,最火爆的展台里,阶跃绝对是 C 位之一。 没错,我说的就是阶跃星辰。就在 WAIC 开幕的前一天,我参加了他们新一代基础大模型 Step 3 的发布会。会前并没有什么预热,但现场人超级多。那种热闹不是靠布景和流程撑起来的,而是一种“行业气氛到了”的感觉。很难形容,但如果你一直在 AI 行业里跑得够多,大概会明白我说的是什么。当狂热的百模大战和参数竞赛逐渐回归理性,一个更本质、更尖锐的问题摆在了所有从业者面前:到底什么样的模型,才是最适合应用的模型?
谁都知道,AI 要落地,不能只追分数。推理效率、推理成本、芯片适配、开源生态、上下文长度、多模态理解……一个模型想进入现实世界,比刷新榜单要多得多。阶跃星辰,用这场发布会回答了这个问题。答案就在他们发布的新一代基座模型——Step 3。阶跃将其核心特点高度浓缩为四个字:「多、开、好、省」。听起来像顺口溜,但每一个字后面,都是一场难打的仗。先说“多”,也就是多模态。你去翻一翻现在主流模型的表现,大概就会明白“多模态”这个坑到底有多深。文本推理强的模型确实不少,比如 DeepSeek、Kimi K2、MiniMax M1,这些在纯文本任务上都非常能打,但统一的问题是:只有单模态。图像语言都能处理的,也有,比如 LLaVA 这一类,但性能又拉不动、稳定性不足,难以打进商用线;而那些你真看着强的模型,比如 Gemini、Claude,压根就不开源。Step 3 想补的,就是这个空档。我们来看几个具体的 case。比如说,有一张经典的色盲测试图,上面是由密集的小圆点组成的数字图案,大部分人一眼就能分辨出这写的是几,但 AI 模型往往读不出来。Step 3 不仅准确识别出这是一张以“STEP3”为字样组成的视觉图案,还把整个思考过程解释得一清二楚。再比如一张菜单,画质模糊、有反光,图文混排。你问它:“无骨鸭掌多少钱?”Step 3 不仅能在众多菜名中锁定目标,还能从价格区中正确匹配到“58 元/份”,这可不是简单 OCR,是图文结构理解。这些场景看起来碎,却构成了真实世界的主要输入方式。“多”这个字,背后不是模态的堆叠,而是逻辑的融合。而融合之后,才有可能发生真正的推理。而阶跃说,我不光做了,还开源了。这就来到了第二个关键词:“开”。Step 3 预计将在 7 月 31 日开源。(期待ing接着看第三个词:“好”。在权威评测成绩方面,Step 3 不止是“能跑”,而是在多个国际权威榜单上全面领先,是最强的开源多模态推理模型。在 MMMU、MathVision、SimpleVQA 这类多模态推理任务中,Step 3 均跑在第一梯队,力压 GLM、Qwen、MIMO 等熟面孔在语言能力上,和同类型模型相比,在 AIME 2025 打出断层式领先;在专业问答/代码任务 GPQA-Diamond 和 LiveCodeBench 中,Step 3 同样保持第一梯队位置。如果说前三代多模态模型还在拼“看得懂”,那 Step 3 的优势,就在于“想得明白”,真正把多模态从感知堆叠推进到逻辑融合,往“推理智能”迈出了一步。但我觉得,真正能封神的,是最后这个字:“省”。也就是推理成本低、部署效率高,尤其是对国产芯片格外友好。在国产芯片 32K 上下文,推理效率最高可达 Deepseek R1 的 300%。什么意思?你可以简单理解成:如果 DeepSeek R1 花 3 块钱才能跑完一段任务,Step‑3 只用 1 块钱就能跑完,而且还调动了更多参数去思考。再专业一点,就是推理效率=单位成本能调动多少有效算力。我给你看这几张图你就懂了:这张是在国产卡环境下(32K 上下文)测的推理理论成本 vs 激活参数量。首先,Step 3 是一款原生多模态大模型、MoE(专家混合)架构,总参数量 321B,激活参数量 38B。K2、M1、DS、Qwen 这些都是 MoE 架构。Step 3 激活约 38B 参数,理论成本约 1 块钱;DeepSeek(DSv3/R1):激活约 34B 参数,理论成本约 3 块多钱。虽然 Step 3 激活参数更多,但成本只有对方的三分之一左右。而激活参数越多代表模型实际参与计算的能力越强,Step 3 那颗红星的位置,意味着,几乎是所有模型中“花最少的钱,激活最多参数”的。那 Step 3 是怎么做到的?这张图是答案:横轴是显存带宽(memory access),纵轴是算力需求(compute),斜线代表不同硬件的算力。比如 A800、H20、910B 的 roofline(性能天花板)。我们能看到两个典型:DeepSeek V3:点很高、内存访问不算大, 但计算强度高,代表是“重计算、轻内存”。它的斜率接近 H800 那条高斜率线,说明放在算力很强的 H800 上能把计算单元利用起来,直白点讲:ds 适合跑在 h800 上。Qwen3-MoE:点在右侧,内存访问特别多但计算量低,属于“重内存、轻计算”,在带宽充足的 H20 上更容易发挥;放在纯算力强但带宽一般的卡上会被内存拖慢。而 Step 3,那颗红星,点居中,卡在所有芯片都能接受的黄金区域。计算与内存访问比例适中,落在国产芯片(算力相对有限、带宽也有限)的那条较低斜率线附近。所以非常适配国产芯片,性价比最好,跑起来最高效。特别是在低 compute / low bandwidth 卡上,也能保持线性稳定的吞吐。最后一张图,是整个通用部署场景下的验证:换个角度,不看国产卡,只看推理 8K 长度下,所有模型在国际市场(GPU/HPC 云平台)上的“美元推理单价”。Step-3 依然稳居左上角。无论你是跑在 NVIDIA 云、AWS、青云、还是浪潮本地集群——Step-3 都是成本压得最狠、激活效率最强的那一个。在我看来,这是 Step 3 真正厉害的地方,把性能、推理、成本、兼容性这些极难统一的维度,拉到了一个极少数模型才能企及的平衡点上。这才是基座模型该有的样子。所以你会看到,这次发布会不仅在讲模型本身,还请来了几乎整个国产芯片圈的代表,一起官宣成立「模芯生态创新联盟」。模型厂商和芯片厂商,开始坐到一张桌子上,联手打通从底层硬件到上层推理的完整链路。因为大模型要真正跑进现实世界,从来就不是某一家公司、某一个模型能单干的事。而阶跃星辰这次的动作,正在释放一个明确的信号:一个真正聪明的模型,不止要理解世界,还得适应世界,适配它的每一块芯片、每一种算力现实。现在的大模型,也不再只是卷谁更大、谁跑分更高,而是卷谁更能跑进真实场景,更能被设备用起来,被生态接住。而 Step 3,显然已经先走了一步。


阅读原文
跳转微信打开