AI & Big Data 01月26日
Hugging Face釋出號稱業界最小多模態語言模型,推論單一圖片不用1GB RAM
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Hugging Face发布了两款新型多模态模型SmolVLM,包括256M和500M版本。其中256M号称是全球最小的多模态及视频语言模型。这些模型在效率和性能之间取得了平衡,使用SigLIP作为图片编码器,SmolLM2作为文本编码器。它们在多项基准测试中超越了之前的模型,并且可以执行多种多模态任务,例如生成图像描述和回答图表问题。轻量级架构使得它们适用于移动设备,并且可以在单张图片上以不到1.3GB的GPU RAM进行推理。这些模型以Apache 2.0许可开源。

🚀全球最小多模态模型: SmolVLM-256M是目前全球最小的多模态及视频语言模型,可以在资源受限的环境下高效运行。

🖼️多模态任务能力: SmolVLM模型能够处理多种多模态任务,包括生成图像描述、短视频字幕,以及回答关于文档和图表的问题。

⚙️轻量高效架构: SmolVLM模型架构轻巧,能够在移动设备上运行,256M模型在单张图片上推断仅需不到1GB的GPU RAM,500M模型则为1.23GB。

📊性能卓越: SmolVLM在多项基准测试中表现出色,甚至超越了一年半前发布的Idefics 80B模型。

🔓开源许可: 两款模型均以Apache 2.0许可开源,方便研究人员和开发者使用和进一步研究。

AI資源平臺Hugging Face上周公布SmolVLM二款新多模態模型,SmolVLM-256M及SmolVLM-500M,前者號稱是全球最小的多模態及影片語言模型(video language model,VML)。Hugging Face團隊去年訓練2款80B參數的VLM,再縮成8B模型,然後縮小成SmolVLM 2B模型。然後他們決定再進一步縮小,著重效率、混合資料以及在不同需求間取得折衷。成果是強大但體積極小的多模態模型,包括SmolVLM 256M與SmolVLM 500M,各有基礎模型和指令微調模型。這些模型可以直接載入到transformer MLX和ONNX上。作為SmolVLM家族的新成員,256M及500M都是使用SigLIP為圖片編碼器,以SmolLM2為文字編碼器。他們在多項標竿測試超越一年半前才釋出的Idefics 80B模型。其中256M是最小型的VLM及多模態模型,它能接受任何序列的圖片和文字,生成文字輸出。SmolVLM能勝任多種多模態任務,包括生成圖片描述或短影片字幕、PDF或掃瞄文件問答,以及回答關於圖表的問題。輕巧架構的架構讓它適合行動裝置上應用,同時維持強大效能。它以不到1GB的GPU RAM就能在單一圖片上執行推論。圖片來源/Hugging Face需要更高效能的組織可以選擇SmolVLM-500M模型。500M在文件理解DocVQA和多模態推理標竿測試MMMU的表現不輸之前的2B。這模型對提示回應能力更佳,適用部署於組織營運環境。500M模型也是相當輕巧高效的模型,在單一圖片上推論僅需1.23GB的GPU RAM。二款模型微調後表現更佳。兩款模型都是以Apache 2.0授權開源。研究團隊提供了transformer和WebGU二種示範。所有模型和示範都公布於此。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Hugging Face 多模态模型 SmolVLM AI模型 开源
相关文章