字节拿出了国际顶尖水平的视觉–语言多模态大模型。
5 月 13 日,火山引擎在上海搞了场 FORCE LINK AI 创新巡展,一股脑发布了 5 款模型和产品,包括豆包・视频生成模型 Seedance 1.0 lite、升级后的豆包 1.5 ・视觉深度思考模型,以及新版豆包・音乐模型。同时,Data Agent 和 Trae 等产品也有了新进展。
其中,全场最吸睛的就是豆包 1.5 ・视觉深度思考模型(以下称 Seed 1.5-VL)。
相比于之前版本,Seed1.5-VL 具备更强的通用多模态理解和推理能力,不仅视觉定位和推理更快更准,还新增了视频理解、多模态智能体能力。
举个例子。仅需一张图,再来个提示词,Seed1.5-VL 就能精准识别观众、棒球、座椅、围栏等多种元素,还能正确分类并给出坐标。
技术解读:重构视觉理解边界
作为 Seed 系列最新一代多模态模型,Seed1.5-VL 在超过 3T token 的多模态数据上完成预训练,在图像问答、图表理解、视觉推理、视频分析、GUI 智能体等多个任务上表现突出,成为推动多模态交互应用落地的重要引擎。
那么,该模型背后有哪些独门绝技?
GitHub:github.com/ByteDance-S…
从模型架构上来说,Seed1.5-VL 由三个核心组件构成:首先是视觉编码模块 SeedViT,模型参数为 532M,用于对图像和视频进行编码,能够处理任意长宽比的图像输入;其次是一个多层感知机(MLP)适配器,负责将视觉特征投影到多模态表征空间;最后是基于 MoE 架构的大语言模型 Seed1.5-LLM,激活参数为 20B,专注于处理融合后的多模态输入。
尽管激活参数规模远小于传统大型模型,但其表现却足以媲美甚至超越当前多项主流方法,在保证性能的同时显著降低了推理成本。
在训练方法上,Seed1.5-VL 并未从一开始就进行联合多模态学习,而是选择了在语言模型基座上进行多模态预训练,以实现灵活的消融实验和快速迭代开发。
整个预训练过程分为三个阶段:初期仅训练 MLP 适配器以初步对齐视觉和语言表征;中期解冻所有参数,在大规模图文数据中强化知识积累、视觉 grounding 和 OCR 能力;后期在更均衡的数据混合中加入视频、编程、三维理解等新领域数据,并将序列长度显著增加,以处理复杂场景和长序列依赖。
到了后训练阶段,Seed1.5-VL 引入了监督微调(SFT)与强化学习(RL)的组合策略。
SFT 训练数据集包含通用指令数据和长链式思考数据,前者用于简洁准确响应,后者用于详细分步推理。其中长链式思考数据是基于强化学习后的模型,通过拒绝采样的方式得到。
强化学习则整合了基于人类和验证器反馈的强化学习(RLHF/RLVR)及多项先进技术。采用混合奖励,区分通用与可验证提示,通用提示仅奖励最终解以激励思考探索;针对不同类型的任务采用差异化 KL 散度系数,平衡奖励利用与探索。
考虑到多模态模型在训练中的异构性挑战,Seed1.5-VL 在 Training Infrastructure 设计上也进行了大量工程创新。
模型采用多模态并行框架,针对视觉编码 / MLP 适配器和语言模型分别使用 ZeRO 数据并行与标准 4D 并行策略,充分发挥各自优势;视觉 token 的重分配采用局部贪心负载均衡算法,将计算负载合理分布在 GPU 集群中,提升吞吐效率;此外,还定制了数据加载器,优化了数据读取和分发过程。
Seed1.5-VL 以其强大的多模态理解与推理能力,正在重塑我们与视觉世界交互的方式。无论是图像定位、视觉推理还是长视频解析,Seed1.5-VL 都展示了行业领先的技术实力,也为通用视觉系统的实际应用拓宽了路径。
结语
在此次上海巡展中,火山引擎展示了其在 AI 领域的多项创新成果。从轻量级视频生成到深度视觉理解,再到音乐创作与全流程数据智能体,火山引擎正逐步构建一个完整的技术生态,不仅为企业提供了更强的技术支撑,也推动了从业务流程到智能体应用的全面落地。
这也意味着,真正的多模态智能时代,正加速走进现实。