掘金 人工智能 05月14日 17:08
字节最强多模态模型登陆火山引擎!Seed1.5-VL靠20B激活参数狂揽38项SOTA
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

火山引擎在上海发布了多款模型和产品,其中最引人注目的是豆包 1.5 ・视觉深度思考模型(Seed 1.5-VL)。该模型具备更强的通用多模态理解和推理能力,在图像问答、图表理解、视觉推理、视频分析等任务上表现突出。Seed1.5-VL 通过重构视觉理解边界,采用 SeedViT 视觉编码模块、MLP 适配器和 Seed1.5-LLM 大语言模型等核心组件,在超过 3T token 的多模态数据上完成预训练,并在训练方法和 Training Infrastructure 设计上进行了大量创新。它的推出,正在重塑我们与视觉世界交互的方式。

🖼️Seed1.5-VL 具备强大的多模态理解和推理能力,相比之前版本,视觉定位和推理更快更准,并新增了视频理解、多模态智能体能力,仅需一张图和提示词,即可精准识别多种元素并给出坐标。

🧠Seed1.5-VL 由 SeedViT 视觉编码模块、MLP 适配器和 Seed1.5-LLM 大语言模型三个核心组件构成。SeedViT 用于图像和视频编码,MLP 适配器负责将视觉特征投影到多模态表征空间,Seed1.5-LLM 则专注于处理融合后的多模态输入。

🚀在训练方法上,Seed1.5-VL 分为三个阶段:初期训练 MLP 适配器对齐视觉和语言表征;中期解冻所有参数,强化知识积累;后期加入视频、编程等新领域数据,并增加序列长度。后训练阶段则引入了监督微调(SFT)与强化学习(RL)的组合策略。

⚙️Seed1.5-VL 在 Training Infrastructure 设计上进行了创新,采用多模态并行框架,针对视觉编码器和语言模型分别使用 ZeRO 数据并行与标准 4D 并行策略,并采用局部贪心负载均衡算法,提升吞吐效率。

字节拿出了国际顶尖水平的视觉–语言多模态大模型。

5 月 13 日,火山引擎在上海搞了场 FORCE LINK AI 创新巡展,一股脑发布了 5 款模型和产品,包括豆包・视频生成模型 Seedance 1.0 lite、升级后的豆包 1.5 ・视觉深度思考模型,以及新版豆包・音乐模型。同时,Data Agent 和 Trae 等产品也有了新进展。

其中,全场最吸睛的就是豆包 1.5 ・视觉深度思考模型(以下称 Seed 1.5-VL)。

相比于之前版本,Seed1.5-VL 具备更强的通用多模态理解和推理能力,不仅视觉定位和推理更快更准,还新增了视频理解、多模态智能体能力。

举个例子。仅需一张图,再来个提示词,Seed1.5-VL 就能精准识别观众、棒球、座椅、围栏等多种元素,还能正确分类并给出坐标。

技术解读:重构视觉理解边界

作为 Seed 系列最新一代多模态模型,Seed1.5-VL 在超过 3T token 的多模态数据上完成预训练,在图像问答、图表理解、视觉推理、视频分析、GUI 智能体等多个任务上表现突出,成为推动多模态交互应用落地的重要引擎。

那么,该模型背后有哪些独门绝技?

从模型架构上来说,Seed1.5-VL 由三个核心组件构成:首先是视觉编码模块 SeedViT,模型参数为 532M,用于对图像和视频进行编码,能够处理任意长宽比的图像输入;其次是一个多层感知机(MLP)适配器,负责将视觉特征投影到多模态表征空间;最后是基于 MoE 架构的大语言模型 Seed1.5-LLM,激活参数为 20B,专注于处理融合后的多模态输入。

尽管激活参数规模远小于传统大型模型,但其表现却足以媲美甚至超越当前多项主流方法,在保证性能的同时显著降低了推理成本。

在训练方法上,Seed1.5-VL 并未从一开始就进行联合多模态学习,而是选择了在语言模型基座上进行多模态预训练,以实现灵活的消融实验和快速迭代开发。

整个预训练过程分为三个阶段:初期仅训练 MLP 适配器以初步对齐视觉和语言表征;中期解冻所有参数,在大规模图文数据中强化知识积累、视觉 grounding 和 OCR 能力;后期在更均衡的数据混合中加入视频、编程、三维理解等新领域数据,并将序列长度显著增加,以处理复杂场景和长序列依赖。

到了后训练阶段,Seed1.5-VL 引入了监督微调(SFT)与强化学习(RL)的组合策略。

SFT 训练数据集包含通用指令数据和长链式思考数据,前者用于简洁准确响应,后者用于详细分步推理。其中长链式思考数据是基于强化学习后的模型,通过拒绝采样的方式得到。

强化学习则整合了基于人类和验证器反馈的强化学习(RLHF/RLVR)及多项先进技术。采用混合奖励,区分通用与可验证提示,通用提示仅奖励最终解以激励思考探索;针对不同类型的任务采用差异化 KL 散度系数,平衡奖励利用与探索。

考虑到多模态模型在训练中的异构性挑战,Seed1.5-VL 在 Training Infrastructure 设计上也进行了大量工程创新。

模型采用多模态并行框架,针对视觉编码 / MLP 适配器和语言模型分别使用 ZeRO 数据并行与标准 4D 并行策略,充分发挥各自优势;视觉 token 的重分配采用局部贪心负载均衡算法,将计算负载合理分布在 GPU 集群中,提升吞吐效率;此外,还定制了数据加载器,优化了数据读取和分发过程。

Seed1.5-VL 以其强大的多模态理解与推理能力,正在重塑我们与视觉世界交互的方式。无论是图像定位、视觉推理还是长视频解析,Seed1.5-VL 都展示了行业领先的技术实力,也为通用视觉系统的实际应用拓宽了路径。

结语

在此次上海巡展中,火山引擎展示了其在 AI 领域的多项创新成果。从轻量级视频生成到深度视觉理解,再到音乐创作与全流程数据智能体,火山引擎正逐步构建一个完整的技术生态,不仅为企业提供了更强的技术支撑,也推动了从业务流程到智能体应用的全面落地。

这也意味着,真正的多模态智能时代,正加速走进现实。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

多模态模型 Seed1.5-VL 视觉理解 火山引擎 人工智能
相关文章