Hugging Face发布了名为SmolVLM的轻量级视觉语言模型(VLM),该模型仅有20亿参数,却在内存占用和推理速度方面表现出色。SmolVLM采用独特的架构设计,借鉴了Idefics3和SmolLM2,通过像素混洗策略将视觉信息压缩率提高了9倍。它提供了三个版本:SmolVLM-Base、SmolVLM-Synthetic和SmolVLM-Instruct,并支持在多种基准测试中展现出优异的性能。SmolVLM的开源特性和高效的性能使其成为设备端视觉语言模型的理想选择,解决了以往大型模型在普通设备上运行缓慢或崩溃的问题,为用户提供了更便捷的AI体验。
🤔 **SmolVLM模型特点:**SmolVLM是一个仅有20亿参数的视觉语言模型,其体积小、速度快、内存高效,并且完全开源,所有模型检查点、数据集、训练配方和工具均已公开。
💡 **架构设计:**SmolVLM借鉴了Idefics3,使用了SmolLM2 1.7B作为语言主干,并通过像素混洗策略将视觉信息的压缩率提高到9倍,有效降低了模型的内存占用。
💻 **版本及应用场景:**SmolVLM共有三个版本,包括用于下游微调的SmolVLM-Base,基于合成数据微调的SmolVLM-Synthetic,以及可以直接用于交互式应用的指令微调版本SmolVLM-Instruct。
🚀 **性能表现:**SmolVLM在多个基准测试中表现出色,其预填充和生成吞吐量相较于Qwen2-VL分别提升了3.3-4.5倍和7.5-16倍,在相同测试图片下,SmolVLM仅使用1200个tokens,而Qwen2-VL则使用1.6万个tokens。
🔥 **内存优化:**SmolVLM通过优化图像编码和推理过程,有效降低了内存占用,解决了以往大型模型在普通设备上运行缓慢甚至崩溃的问题,为用户提供了更流畅的AI体验。
IT之家 11 月 27 日消息,Hugging Face 平台昨日(11 月 26 日)发布博文,宣布推出 SmolVLM AI 视觉语言模型(VLM),仅有 20 亿参数,用于设备端推理,凭借其极低的内存占用在同类模型中脱颖而出。
官方表示 SmolVLM AI 模型的优点在于体积小、速度快、内存高效,并且完全开源,所有模型检查点、VLM 数据集、训练配方和工具均在 Apache 2.0 许可证下发布。
SmolVLM AI 模型共有 SmolVLM-Base(用于下游微调)、SmolVLM-Synthetic(基于合成数据微调)和 SmolVLM-Instruct(指令微调版本,可以直接用于交互式应用)三个版本。

架构
SmolVLM 最大的特点在于巧妙的架构设计,借鉴了 Idefics3,使用了 SmolLM2 1.7B 作为语言主干,通过像素混洗策略将视觉信息的压缩率提高到 9 倍。

训练数据集包括 Cauldron 和 Docmatix,并对 SmolLM2 进行了上下文扩展,使其能够处理更长的文本序列和多张图像。该模型通过优化图像编码和推理过程,有效降低了内存占用,解决了以往大型模型在普通设备上运行缓慢甚至崩溃的问题。
内存
SmolVLM 将 384x384 像素的图像块编码为 81 个 tokens,因此在相同测试图片下,SmolVLM 仅使用 1200 个 tokens,而 Qwen2-VL 则使用 1.6 万个 tokens。

吞吐量
SmolVLM 在 MMMU、MathVista、MMStar、DocVQA 和 TextVQA 等多个基准测试中表现出色,且处理速度相比较 Qwen2-VL,预填充(prefill)吞吐量快 3.3 到 4.5 倍,生成吞吐量快 7.5 到 16 倍。

IT之家附上参考地址