字节最强多模态模型登陆火山引擎！Seed1.5-VL靠20B激活参数狂揽38项SOTA

字节拿出了国际顶尖水平的视觉–语言多模态大模型。

5 月 13 日，火山引擎在上海搞了场 FORCE LINK AI 创新巡展，一股脑发布了 5 款模型和产品，包括豆包・视频生成模型 Seedance 1.0 lite、升级后的豆包 1.5 ・视觉深度思考模型，以及新版豆包・音乐模型。同时，Data Agent 和 Trae 等产品也有了新进展。

其中，全场最吸睛的就是豆包 1.5 ・视觉深度思考模型（以下称 Seed 1.5-VL）。

相比于之前版本，Seed1.5-VL 具备更强的通用多模态理解和推理能力，不仅视觉定位和推理更快更准，还新增了视频理解、多模态智能体能力。

举个例子。仅需一张图，再来个提示词，Seed1.5-VL 就能精准识别观众、棒球、座椅、围栏等多种元素，还能正确分类并给出坐标。

技术解读：重构视觉理解边界

作为 Seed 系列最新一代多模态模型，Seed1.5-VL 在超过 3T token 的多模态数据上完成预训练，在图像问答、图表理解、视觉推理、视频分析、GUI 智能体等多个任务上表现突出，成为推动多模态交互应用落地的重要引擎。

那么，该模型背后有哪些独门绝技？

论文链接：arxiv.org/abs/2505.07…

技术报告：github.com/ByteDance-S…

GitHub：github.com/ByteDance-S…

从模型架构上来说，Seed1.5-VL 由三个核心组件构成：首先是视觉编码模块 SeedViT，模型参数为 532M，用于对图像和视频进行编码，能够处理任意长宽比的图像输入；其次是一个多层感知机（MLP）适配器，负责将视觉特征投影到多模态表征空间；最后是基于 MoE 架构的大语言模型 Seed1.5-LLM，激活参数为 20B，专注于处理融合后的多模态输入。

尽管激活参数规模远小于传统大型模型，但其表现却足以媲美甚至超越当前多项主流方法，在保证性能的同时显著降低了推理成本。

在训练方法上，Seed1.5-VL 并未从一开始就进行联合多模态学习，而是选择了在语言模型基座上进行多模态预训练，以实现灵活的消融实验和快速迭代开发。

整个预训练过程分为三个阶段：初期仅训练 MLP 适配器以初步对齐视觉和语言表征；中期解冻所有参数，在大规模图文数据中强化知识积累、视觉 grounding 和 OCR 能力；后期在更均衡的数据混合中加入视频、编程、三维理解等新领域数据，并将序列长度显著增加，以处理复杂场景和长序列依赖。

到了后训练阶段，Seed1.5-VL 引入了监督微调（SFT）与强化学习（RL）的组合策略。

SFT 训练数据集包含通用指令数据和长链式思考数据，前者用于简洁准确响应，后者用于详细分步推理。其中长链式思考数据是基于强化学习后的模型，通过拒绝采样的方式得到。

强化学习则整合了基于人类和验证器反馈的强化学习（RLHF/RLVR）及多项先进技术。采用混合奖励，区分通用与可验证提示，通用提示仅奖励最终解以激励思考探索；针对不同类型的任务采用差异化 KL 散度系数，平衡奖励利用与探索。

考虑到多模态模型在训练中的异构性挑战，Seed1.5-VL 在 Training Infrastructure 设计上也进行了大量工程创新。

模型采用多模态并行框架，针对视觉编码 / MLP 适配器和语言模型分别使用 ZeRO 数据并行与标准 4D 并行策略，充分发挥各自优势；视觉 token 的重分配采用局部贪心负载均衡算法，将计算负载合理分布在 GPU 集群中，提升吞吐效率；此外，还定制了数据加载器，优化了数据读取和分发过程。

Seed1.5-VL 以其强大的多模态理解与推理能力，正在重塑我们与视觉世界交互的方式。无论是图像定位、视觉推理还是长视频解析，Seed1.5-VL 都展示了行业领先的技术实力，也为通用视觉系统的实际应用拓宽了路径。

结语

在此次上海巡展中，火山引擎展示了其在 AI 领域的多项创新成果。从轻量级视频生成到深度视觉理解，再到音乐创作与全流程数据智能体，火山引擎正逐步构建一个完整的技术生态，不仅为企业提供了更强的技术支撑，也推动了从业务流程到智能体应用的全面落地。

这也意味着，真正的多模态智能时代，正加速走进现实。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签