IT之家 01月26日
Hugging Face 推出号称“世界上最小的视觉语言模型”SmolVLM-256M
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Hugging Face推出了两款多模态模型SmolVLM-256M和SmolVLM-500M,其中SmolVLM-256M号称是世界上最小的视觉语言模型。这两款模型基于Hugging Face团队去年训练的80B参数模型蒸馏而来,旨在平衡性能和资源需求。SmolVLM-256M模型轻巧,可在移动平台运行,仅需不到1GB的GPU显存,功能包括描述图片内容、生成短视频字幕和处理PDF等。SmolVLM-500M模型则为更高性能场景设计,适合企业环境,推理单张图片需1.23GB显存,输出内容更精准。两款模型均开源,并提供示例程序便于开发者使用。

🖼️ SmolVLM-256M是目前世界上最小的视觉语言模型,它能够接受任意序列的图片和文本输入,并生成文字输出,实现了在资源受限设备上的多模态处理能力。

🎬 SmolVLM-256M模型功能多样,包括描述图片内容、为短视频生成字幕以及处理PDF文档等,应用场景广泛,满足了不同用户的需求。

🏢 SmolVLM-500M模型专为高性能场景设计,更适合在企业运营环境中使用,尽管其负载稍大,但能提供更精准的推理输出,满足企业对高精度的需求。

⚙️ 两款模型均采用Apache 2.0开源授权,并提供基于transformer和WebGUI的示例程序,方便开发者下载和使用,降低了模型的使用门槛,促进了技术普及。

IT之家 1 月 26 日消息,Hugging Face 发布了两款全新多模态模型 SmolVLM-256M 和 SmolVLM-500M,其中 SmolVLM-256M 号称是世界上最小的视觉语言模型(Video Language Model)

据悉,相应模型主要基于 Hugging Face 团队去年训练的 80B 参数模型蒸馏而成,号称在性能和资源需求之间实现了平衡,官方称 SmolVLM-256M / 500M 两款模型均可“开箱即用”,可以直接部署在 transformer MLX 和 ONNX 平台上。

具体技术层面,SmolVLM-256M / 500M 两款模型均采用 SigLIP 作为图片编码器,使用 SmolLM2 作为文本编码器。其中 SmolVLM-256M 是目前最小的多模态模型,可以接受任意序列的图片和文本输入并生成文字输出,该模型功能包括描述图片内容、为短视频生成字幕、处理 PDF 等。Hugging Face 称由于该模型整体轻巧,可在移动平台轻松运行,仅需不到 1GB 的 GPU 显存便可在单张图片上完成推理

而 SmolVLM-500M 针对需要更高性能的场景而设计,Hugging Face 称相关模型非常适合部署在企业运营环境中,该模型推理单张图片仅需 1.23GB 的 GPU 显存,相对 SmolVLM-256M 虽然负载更大,但推理输出的内容更精准。

IT之家注意到,两款模型均采用 Apache 2.0 开源授权,研究团队提供了基于 transformer 和 WebGUI 的示例程序。所有模型及其演示已公开便于开发者下载和使用,具体页面可(点此访问)。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Hugging Face 多模态模型 视觉语言模型 SmolVLM 开源
相关文章