夕小瑶科技说 10小时前
阶跃Step 3炸场WAIC!最强多模态推理开源,推理效率提升300%
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

阶跃星辰在WAIC 2025大会上发布了新一代基础大模型Step 3,强调其在多模态处理、开源生态、性能和成本方面的优势。该模型旨在解决AI落地问题,通过多模态融合、开源策略、高性能和低成本设计,更好地适应现实应用场景,并与国产芯片厂商合作,推动AI生态发展。

🔍 Step 3 是一款多模态大模型,能够处理文本、图像等多种输入,并在色盲测试图和模糊菜单识别等场景中展现出强大的理解和推理能力,填补了现有模型在多模态推理方面的空白。

🌐 Step 3 计划于7月31日开源,为AI社区提供更多可用的工具,促进AI技术的普及和应用。

🏆 Step 3 在多个国际权威榜单上表现出色,在MMMU、MathVision、SimpleVQA等多模态推理任务中排名第一,并在AIME 2025等专业问答和代码任务中保持领先地位,展现出强大的推理智能。

💰 Step 3 在推理成本和部署效率方面具有显著优势,特别是在国产芯片上表现出色,推理效率最高可达Deepseek R1的300%,且激活参数量更少,实现了性能和成本的平衡。

🤝 阶跃星辰与国产芯片厂商合作,成立「模芯生态创新联盟」,共同推动AI模型与硬件的适配,促进AI技术在现实场景中的应用。

原创 夕小瑶编辑部 2025-07-26 18:28 北京

坐标上海,WAIC 2025 现场!全中国 AI 圈的半壁江山都来了,整个会场都充满了多巴胺的味道。

今天是 WAIC 2025 世界人工智能大会开幕的第一天,我正穿梭在上海世博中心,腿已经快“跑废”了!

每个展台都挤满了人,放眼望去,最火爆的展台里,阶跃绝对是 C 位之一。 

没错,我说的就是阶跃星辰。就在 WAIC 开幕的前一天,我参加了他们新一代基础大模型 Step 3 的发布会。

会前并没有什么预热,但现场人超级多。那种热闹不是靠布景和流程撑起来的,而是一种“行业气氛到了”的感觉。很难形容,但如果你一直在 AI 行业里跑得够多,大概会明白我说的是什么。

当狂热的百模大战和参数竞赛逐渐回归理性,一个更本质、更尖锐的问题摆在了所有从业者面前:

到底什么样的模型,才是最适合应用的模型?

谁都知道,AI 要落地,不能只追分数。推理效率、推理成本、芯片适配、开源生态、上下文长度、多模态理解……一个模型想进入现实世界,比刷新榜单要多得多。

阶跃星辰,用这场发布会回答了这个问题。答案就在他们发布的新一代基座模型——Step 3

阶跃将其核心特点高度浓缩为四个字:「多、开、好、省」

听起来像顺口溜,但每一个字后面,都是一场难打的仗。

先说“多”,也就是多模态。

你去翻一翻现在主流模型的表现,大概就会明白“多模态”这个坑到底有多深。文本推理强的模型确实不少,比如 DeepSeek、Kimi K2、MiniMax M1,这些在纯文本任务上都非常能打,但统一的问题是:只有单模态。

图像语言都能处理的,也有,比如 LLaVA 这一类,但性能又拉不动、稳定性不足,难以打进商用线;而那些你真看着强的模型,比如 Gemini、Claude,压根就不开源。

Step 3 想补的,就是这个空档。

我们来看几个具体的 case。

比如说,有一张经典的色盲测试图,上面是由密集的小圆点组成的数字图案,大部分人一眼就能分辨出这写的是几,但 AI 模型往往读不出来。

Step 3 不仅准确识别出这是一张以“STEP3”为字样组成的视觉图案,还把整个思考过程解释得一清二楚。

再比如一张菜单,画质模糊、有反光,图文混排。你问它:“无骨鸭掌多少钱?”Step 3 不仅能在众多菜名中锁定目标,还能从价格区中正确匹配到“58 元/份”,这可不是简单 OCR,是图文结构理解。

这些场景看起来碎,却构成了真实世界的主要输入方式。

“多”这个字,背后不是模态的堆叠,而是逻辑的融合。而融合之后,才有可能发生真正的推理。

而阶跃说,我不光做了,还开源了。

这就来到了第二个关键词:“开”。

Step 3 预计将在 7 月 31 日开源。(期待ing

接着看第三个词:“好”。

在权威评测成绩方面,Step 3 不止是“能跑”,而是在多个国际权威榜单上全面领先,是最强的开源多模态推理模型

    在 MMMU、MathVision、SimpleVQA 这类多模态推理任务中,Step 3 均跑在第一梯队,力压 GLM、Qwen、MIMO 等熟面孔

    在语言能力上,和同类型模型相比,在 AIME 2025 打出断层式领先;

    在专业问答/代码任务 GPQA-Diamond 和 LiveCodeBench 中,Step 3 同样保持第一梯队位置。

如果说前三代多模态模型还在拼“看得懂”,那 Step 3 的优势,就在于“想得明白”,真正把多模态从感知堆叠推进到逻辑融合,往“推理智能”迈出了一步。

但我觉得,真正能封神的,是最后这个字:“省”。

也就是推理成本低、部署效率高,尤其是对国产芯片格外友好。

在国产芯片 32K 上下文,推理效率最高可达 Deepseek R1 的 300%。

什么意思?你可以简单理解成:如果 DeepSeek R1 花 3 块钱才能跑完一段任务,Step‑3 只用 1 块钱就能跑完,而且还调动了更多参数去思考。

再专业一点,就是推理效率=单位成本能调动多少有效算力。

我给你看这几张图你就懂了:

这张是在国产卡环境下(32K 上下文)测的推理理论成本 vs 激活参数量。

首先,Step 3 是一款原生多模态大模型、MoE(专家混合)架构,总参数量 321B,激活参数量 38B。K2、M1、DS、Qwen 这些都是 MoE 架构。

Step 3 激活约 38B 参数,理论成本约 1 块钱;DeepSeek(DSv3/R1):激活约 34B 参数,理论成本约 3 块多钱。虽然 Step 3 激活参数更多,但成本只有对方的三分之一左右。

而激活参数越多代表模型实际参与计算的能力越强,Step 3 那颗红星的位置,意味着,几乎是所有模型中“花最少的钱,激活最多参数”的。

那 Step 3 是怎么做到的?这张图是答案:

横轴是显存带宽(memory access),纵轴是算力需求(compute),斜线代表不同硬件的算力。比如 A800、H20、910B 的 roofline(性能天花板)。

我们能看到两个典型:

    DeepSeek V3:点很高、内存访问不算大, 但计算强度高,代表是“重计算、轻内存”。它的斜率接近 H800 那条高斜率线,说明放在算力很强的 H800 上能把计算单元利用起来,直白点讲:ds 适合跑在 h800 上。

    Qwen3-MoE:点在右侧,内存访问特别多但计算量低,属于“重内存、轻计算”,在带宽充足的 H20 上更容易发挥;放在纯算力强但带宽一般的卡上会被内存拖慢。

而 Step 3,那颗红星,点居中,卡在所有芯片都能接受的黄金区域。计算与内存访问比例适中,落在国产芯片(算力相对有限、带宽也有限)的那条较低斜率线附近。所以非常适配国产芯片,性价比最好,跑起来最高效。

特别是在低 compute / low bandwidth 卡上,也能保持线性稳定的吞吐。

最后一张图,是整个通用部署场景下的验证:

换个角度,不看国产卡,只看推理 8K 长度下,所有模型在国际市场(GPU/HPC 云平台)上的“美元推理单价”。

Step-3 依然稳居左上角。

无论你是跑在 NVIDIA 云、AWS、青云、还是浪潮本地集群——Step-3 都是成本压得最狠、激活效率最强的那一个。

在我看来,这是 Step 3 真正厉害的地方,把性能、推理、成本、兼容性这些极难统一的维度,拉到了一个极少数模型才能企及的平衡点上。

这才是基座模型该有的样子。

所以你会看到,这次发布会不仅在讲模型本身,还请来了几乎整个国产芯片圈的代表,一起官宣成立「模芯生态创新联盟」

模型厂商和芯片厂商,开始坐到一张桌子上,联手打通从底层硬件到上层推理的完整链路。

因为大模型要真正跑进现实世界,从来就不是某一家公司、某一个模型能单干的事。

而阶跃星辰这次的动作,正在释放一个明确的信号:一个真正聪明的模型,不止要理解世界,还得适应世界,适配它的每一块芯片、每一种算力现实。

现在的大模型,也不再只是卷谁更大、谁跑分更高,而是卷谁更能跑进真实场景,更能被设备用起来,被生态接住。

而 Step 3,显然已经先走了一步。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

阶跃星辰 多模态大模型 Step 3 AI开源 国产芯片
相关文章