AI & Big Data 2024年11月28日
Hugging Face公布可在裝置上執行的小型多模態模型SmolVLM
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Hugging Face推出了新的轻量级多模态模型SmolVLM,它拥有20亿参数,在同规模模型中表现出色。SmolVLM可以处理图片和文本的组合输入,并生成文本输出,例如回答关于图片的问题、描述图片内容、根据多张图片讲故事等。该模型基于轻量级架构,适合在设备上运行,并保持了多模态任务的高效能。SmolVLM在多模态理解、推理、数学和文本理解方面超越了其他模型,同时在GPU RAM使用效率上也表现突出,例如与阿里巴巴的Qwen2-V2相比,其预填充和生成吞吐量分别快了3.3-4.5倍和7.5-16倍。Hugging Face还发布了SmolVLM的三个版本,包括基础模型、合成数据微调版本和指令微调版本,所有模型和相关资源都已开源。

🤔SmolVLM是一个参数量为20亿的轻量级多模态模型,在同规模模型中表现为最佳(SOTA),它能够处理图像和文本的组合输入,并生成文本输出。

🚀SmolVLM基于Hugging Face之前的视觉模型IDEFICS 3,并使用了SmolLM 2 1.7B作为语言骨干,同时采用了更强大的图像压缩技术,例如像素混合和更大的patch,从而提高了编码效率和推理速度,降低了内存使用。

📊在多模态理解、推理、数学和文本理解等方面,SmolVLM的表现优于InternVL2、PaliGemma、MM1.5、moondream、MiniCPM-V-2等模型,并且在GPU RAM使用效率上也超越了大多数模型,例如与阿里巴巴的Qwen2-V2相比,其预填充和生成吞吐量分别快了3.3-4.5倍和7.5-16倍。

📚Hugging Face发布了SmolVLM家族的三个模型:SmolVLM-Base、SmolVLM-Synthetic和SmolVLM Instruct,所有模型的检查点、训练数据集、训练方法和工具都已开源。

💡SmolVLM适合在设备上运行,并保持了多模态任务的高效能,为轻量级多模态应用提供了新的选择。

在7月公布SmolLM輕量語言模型後,AI應用開發平臺Hugging Face本周公布輕量多模態模型SmolVLM,主打輕量、高效能,為其小型語言模型再添成員。SmolVLM為參數量20億的小型多模態模型,號稱是同規模模型的State-of-the-Art(SOTA)。SmolVLM可接受以任意圖片和文字的組合作為輸入,但作為輕量模型,它只會生成文字輸出。SmolVLM能回答關於圖片的問題、描述圖片內容,根據多張圖片來說故事,也可以當成純語言模型使用。開發團隊表示,SmolVLM基於輕量架構,很適合在裝置上執行,且維持多模態任務的高效能。SmolVLM的架構是以Hugging Face之前推出的視覺模型IDEFICS 3為基礎,連Transformer實作也相同。但是Hugging Face較IDEFICS有幾點不同。第一是將語言骨幹由Llama 3.1 8B換成了SmolLM2 1.7B。其次,SmolVLM採用更強大的圖片壓縮技術,使用了像素混合(pixel shuffle)策略,以及更大的patch來為視覺字詞編碼,這能提升它編碼效率、推論速度更快,但使用的記憶體更少。Hugging Face強調SmolVLM的高效及記憶體效率,並公布和市面參數量相當的模型的測試數據。在多模態理解、推理、數學以及文字理解能力方面,SmolVLM超越InternVL2、PaliGemma、MM1.5、moondream、MiniCPM-V-2等模型,而以GPU RAM使用效率而言,也超越大多數模型。其中和阿里巴巴的Qwen2-V2相較,SmolVLM的預填充吞吐量快3.3到4.5倍,而生成吞吐量則是7.5到16倍大。Hugging Face公布了SmolVLM家族三個模型,包括可供微調基礎模型SmolVLM-Base、以合成資料集微調成的SmolVLM-Synthetic、以及以指令微調的版本SmolVLM Instruct,後者能立即提供終端用戶互動使用。SmolVLM的所有模型檢查點、訓練資料集、訓練方法及工具,都以Apache 2.0授權開源。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

SmolVLM Hugging Face 轻量级 多模态 AI模型
相关文章