IT之家 01月24日
Hugging Face 最小 AI 视觉语言模型登场:2.56 亿参数,内存低于 1GB PC 也能驾驭
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Hugging Face平台发布SmolVLM-256M-Instruct和SmolVLM-500M-Instruct两款轻量级AI模型,旨在算力有限的设备上发挥最大性能。其中,SmolVLM-256M-Instruct仅有2.56亿参数,是目前最小的视觉语言模型,可在内存低于1GB的PC上运行。SmolVLM-500M-Instruct则有5亿参数,主要解决硬件资源限制问题,帮助开发者进行大规模数据分析。SmolVLM模型具备多模态能力,可执行图像描述、短视频分析以及回答关于PDF或科学图表的问题。模型速度快,成本低,依赖于The Cauldron和Docmatix两个专有数据集,并优化了视觉编码器,提高了图像处理效率。

🚀 SmolVLM-256M-Instruct模型仅2.56亿参数,为史上最小视觉语言模型,可在1GB以下内存PC运行,实现高性能输出。

🎯 SmolVLM-500M-Instruct模型拥有5亿参数,主要解决硬件资源限制问题,助力开发者应对大规模数据分析挑战,提升AI处理效率。

🖼️ SmolVLM模型具备先进多模态能力,能够处理图像描述、短视频分析,并解答PDF或科学图表相关问题。

🗂️ 模型基于The Cauldron和Docmatix数据集训练,前者侧重多模态学习,后者专注于文档理解,提升模型整体性能。

⚙️ 模型采用更小的视觉编码器SigLIP base patch-16/512,优化图像标记处理,减少冗余,增强处理复杂数据的能力。

IT之家 1 月 24 日消息,Hugging Face 平台昨日(1 月 23 日)发布博文,宣布推出 SmolVLM-256M-InstructSmolVLM-500M-Instruct 两款轻量级 AI 模型,在 AI 算力有限的设备上,最大限度发挥其算力性能。

IT之家曾于 2024 年 11 月报道,Hugging Face 平台发布 SmolVLM AI 视觉语言模型(VLM),仅有 20 亿参数,用于设备端推理,凭借其极低的内存占用在同类模型中脱颖而出。

本次推出的 SmolVLM-256M-Instruct 仅有 2.56 亿参数,是有史以来发布的最小视觉语言模型,可以在内存低于 1GB 的 PC 上运行,提供卓越的性能输出。

SmolVLM-500M-Instruct 仅有 5 亿参数,主要针对硬件资源限制,帮助开发者迎接大规模数据分析挑战,实现 AI 处理效率和可访问性的突破。

SmolVLM 模型具备先进的多模态能力,可以执行图像描述、短视频分析以及回答关于 PDF 或科学图表的问题等任务。正如 Hugging Face 所解释的:“SmolVLM 构建可搜索数据库的速度更快、成本更低,其速度可媲美规模 10 倍于其自身的模型”。

模型的开发依赖于两个专有数据集:The Cauldron 和 Docmatix。The Cauldron 是一个包含 50 个高质量图像和文本数据集的精选集合,侧重于多模态学习,而 Docmatix 则专为文档理解而定制,将扫描文件与详细的标题配对以增强理解。

这两个模型采用更小的视觉编码器 SigLIP base patch-16/512,而不是 SmolVLM 2B 中使用的更大的 SigLIP 400M SO,通过优化图像标记的处理方式,减少了冗余并提高了模型处理复杂数据的能力。

SmolVLM 模型能够以每个标记 4096 像素的速率对图像进行编码,这比早期版本中每标记 1820 像素有了显著改进。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Hugging Face SmolVLM 轻量级AI模型 视觉语言模型 多模态
相关文章