nanoVLM: 简洁、轻量的纯 PyTorch 视觉-语言模型训练代码库

原创 Hugging Face 2025-06-18 10:31 广东

想在 Colab Notebook 上使用 PyTorch 训练自己的 VLM？试试 nanoVLM

nanoVLM是使用纯 PyTorch 训练你自己的视觉语言模型 (VLM) 的 最简单 方式。它是一个轻量级 工具包 ，让你可以在免费的 Colab Notebook上启动 VLM 训练。

nanoVLMhttps://github.com/huggingface/nanoVLM

免费的 Colab Notebookhttps://colab.research.google.com/github/huggingface/nanoVLM/blob/main/nanoVLM.ipynb

我们受到了Andrej Karpathy的nanoGPT的启发，为视觉领域提供了一个类似的项目。Andrej Karpathyhttps://karpathy.ai/nanoGPThttps://github.com/karpathy/nanoGPT

从本质上讲，nanoVLM 是一个 工具包，可以帮助你构建和训练一个能够理解图像和文本，并基于此生成文本的模型。nanoVLM 的魅力在于它的 简洁性 。整个代码库被有意保持 最小化 和 可读性 ，使其非常适合初学者或任何想要深入了解 VLM 内部机制而不被复杂性淹没的人。

在这篇博客中，我们将介绍该项目背后的核心思想，并提供与代码库交互的简单方法。我们不仅会深入项目细节，还会将所有内容封装起来，让你能够快速上手。

简要

你可以按照以下步骤使用我们的 nanoVLM 工具包开始训练视觉语言模型:

# 克隆仓库git clone https://github.com/huggingface/nanoVLM.git# 执行训练脚本python train.py

这里有一个Colab Notebook，可以帮助你在无需本地设置的情况下启动训练运行！https://colab.research.google.com/github/huggingface/nanoVLM/blob/main/nanoVLM.ipynb

什么是视觉语言模型？

顾名思义，视觉语言模型 (VLM) 是一种处理两种模态的多模态模型: 视觉和文本。这些模型通常以图像和/或文本作为输入，生成文本作为输出。

基于对图像和文本 (输入) 的理解来生成文本 (输出) 是一个强大的范式。它支持广泛的应用，从图像字幕生成和目标检测到回答关于视觉内容的问题 (如下表所示)。需要注意的是，nanoVLM 仅专注于视觉问答作为训练目标。


为图像生成标题	两只猫躺在床上，旁边有遥控器	图像描述
检测图像中的物体	<locxx><locxx><locxx><locxx>	目标检测
分割图像中的物体	<segxx><segxx><segxx>	语义分割
图像中有多少只猫？	2	视觉问答

如果你有兴趣了解更多关于 VLM 的信息，我们强烈建议阅读我们关于该主题的最新博客:视觉语言模型 (更好、更快、更强)https://hf.co/blog/vlms-2025

使用代码库

“废话少说，直接看代码” - 林纳斯·托瓦兹

在本节中，我们将引导你了解代码库。在跟随学习时，保持一个标签页开启以供参考会很有帮助。

标签页网址https://github.com/huggingface/nanoVLM

以下是我们仓库的文件夹结构。为简洁起见，我们删除了一些辅助文件。

.├── data│ ├── collators.py│ ├── datasets.py│ └── processors.py├── generate.py├── models│ ├── config.py│ ├── language_model.py│ ├── modality_projector.py│ ├── utils.py│ ├── vision_language_model.py│ └── vision_transformer.py└── train.py

架构

.├── data│ └── ...├── models # 👈 你在这里│ └── ...└── train.py

我们按照两个知名且广泛使用的架构来建模 nanoVLM。我们的视觉主干网络 (

models/vision_transformer.py

) 是标准的视觉 transformer，更具体地说是谷歌的SigLIP视觉编码器。我们的语言主干网络遵循Llama 3架构。

SigLIPhttps://hf.co/docs/transformers/en/model_doc/siglip

Llama 3https://hf.co/docs/transformers/en/model_doc/llama3

视觉和文本模态通过模态投影模块进行对齐。该模块将视觉主干网络产生的图像嵌入作为输入，并将它们转换为与语言模型嵌入层的文本嵌入兼容的嵌入。然后将这些嵌入连接起来并输入到语言解码器中。模态投影模块由像素洗牌操作和线性层组成。

模型架构 (来源: 作者)

像素洗牌减少了图像标记的数量，这有助于降低计算成本并加快训练速度，特别是对于对输入长度敏感的基于 transformer 的语言解码器。下图演示了这个概念。https://hf.co/papers/1609.05158

像素洗牌可视化 (来源: 作者)

所有文件都非常轻量且有良好的文档说明。我们强烈建议你逐个查看它们，以更好地理解实现细节 (

models/xxx.py

)

简要

什么是视觉语言模型？

使用代码库

架构

训练你自己的 VLM

在预训练模型上运行推理

结论

参考文献

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签