实战 | Qwen2.5-VL模型目标检测（Grounding）任务领域微调教程

情感机器李馨雨 2025-05-25 14:58 浙江

完整代码介绍从数据准备到模型训练的全过程

简介

在目标检测领域，众多神经网络模型早已凭借其卓越的性能，实现了精准的目标检测与目标分割效果。然而，随着多模态模型的崛起，其在图像分析方面展现出的非凡能力，为该领域带来了新的机遇。多模态模型不仅能够深入理解图像内容，还能将这种理解转化为文本形式输出，极大地拓展了其应用场景。

鉴于此，本文旨在打造一份详尽的教程，指导读者如何通过对主流多模态大模型进行微调，来实现目标检测任务。以Qwen2.5-VL为例，凭借其强大的多模态分析能力，无需从头开始，利用大量数据进行预训练来构建新模型，仅通过微调即可高效地实现目标检测功能，为该领域的发展提供一种全新的思路与方法。

链接资料

模型地址：

Qwen2.5-VL-3B-Instruct

https://www.modelscope.cn/models/Qwen/Qwen2.5-VL-3B-Instruct

数据集地址：

TextVQA_GroundingTask_bbox

https://www.modelscope.cn/datasets/Tina12345/textVQA_groundingtask_bbox

代码地址：

https://github.com/828Tina/textvqa_grounding_task_qwen2.5-vl-ft

可视化工具SwanLab项目地址：

https://swanlab.cn/@LiXinYu/qwen2.5-vl-sft-grounding/overview

友情链接：
SwanLab官方文档，助你轻松开启深度学习之旅。
1. 框架集成文档：SwanLab已经集成Transformers、LLaMA Factory、Pytorch等主流框架，并持续更新，链接：https://docs.swanlab.cn/guide_cloud/integration/
2. 实战案例：SwanLab提供了丰富的模型训练实战教程，助力用户快速掌握深度学习模型训练的要点。链接：https://docs.swanlab.cn/examples/hello_world.html

训练人物设置

1、训练方法简介

多模态模型主要由视觉编码器（Vision Encoder）、语言模型（LM）和多模态融合模块（Connector）三块构成，和Qwen2-VL一样，Qwen2.5-VL并没有巨大的Connector，仅用一个MLP完成特征投影。打印模型结构如下：

### 代码表示

MODEL_PATH = '/data/nvme1/weights/Qwen2_5-VL-3B-Instruct'

from transformers import Qwen2_5_VLForConditionalGeneration, AutoTokenizer, AutoProcessor, Qwen2_5_VLForConditionalGeneration

from qwen_vl_utils import process_vision_info

model = Qwen2_5_VLForConditionalGeneration.from_pretrained(

MODEL_PATH, torch_dtype="auto", device_map="auto"

)

print(model)

结果如下：

Qwen2_5_VLForConditionalGeneration(
  (visual): Qwen2_5_VisionTransformerPretrainedModel(
    (patch_embed): Qwen2_5_VisionPatchEmbed(
      (proj): Conv3d(3, 1280, kernel_size=(2, 14, 14), stride=(2, 14, 14), bias=False)
    )
    (rotary_pos_emb): Qwen2_5_VisionRotaryEmbedding()
    (blocks): ModuleList(
      (0-31): 32 x Qwen2_5_VLVisionBlock(
        (norm1): Qwen2RMSNorm((1280,), eps=1e-06)
        (norm2): Qwen2RMSNorm((1280,), eps=1e-06)
        (attn): Qwen2_5_VLVisionSdpaAttention(
          (qkv): Linear(in_features=1280, out_features=3840, bias=True)
          (proj): Linear(in_features=1280, out_features=1280, bias=True)
        )
        (mlp): Qwen2_5_VLMLP(
          (gate_proj): Linear(in_features=1280, out_features=3420, bias=True)
          (up_proj): Linear(in_features=1280, out_features=3420, bias=True)
          (down_proj): Linear(in_features=3420, out_features=1280, bias=True)
          (act_fn): SiLU()
        )
      )
    )
    (merger): Qwen2_5_VLPatchMerger(
      (ln_q): Qwen2RMSNorm((1280,), eps=1e-06)
      (mlp): Sequential(
        (0): Linear(in_features=5120, out_features=5120, bias=True)
        (1): GELU(approximate='none')
        (2): Linear(in_features=5120, out_features=2048, bias=True)
      )
    )
  )
  (model): Qwen2_5_VLModel(
    (embed_tokens): Embedding(151936, 2048)
    (layers): ModuleList(
      (0-35): 36 x Qwen2_5_VLDecoderLayer(
        (self_attn): Qwen2_5_VLSdpaAttention(
          (q_proj): Linear(in_features=2048, out_features=2048, bias=True)
          (k_proj): Linear(in_features=2048, out_features=256, bias=True)
          (v_proj): Linear(in_features=2048, out_features=256, bias=True)
          (o_proj): Linear(in_features=2048, out_features=2048, bias=False)
          (rotary_emb): Qwen2_5_VLRotaryEmbedding()
        )
        (mlp): Qwen2MLP(
          (gate_proj): Linear(in_features=2048, out_features=11008, bias=False)
          (up_proj): Linear(in_features=2048, out_features=11008, bias=False)
          (down_proj): Linear(in_features=11008, out_features=2048, bias=False)
          (act_fn): SiLU()
        )
        (input_layernorm): Qwen2RMSNorm((2048,), eps=1e-06)
        (post_attention_layernorm): Qwen2RMSNorm((2048,), eps=1e-06)
      )
    )
    (norm): Qwen2RMSNorm((2048,), eps=1e-06)
    (rotary_emb): Qwen2_5_VLRotaryEmbedding()
  )
  (lm_head): Linear(in_features=2048, out_features=151936, bias=False)
)

Qwen2.5-VL-3B-Instruct 基于 Qwen2.5 架构，其参数量达到 30 亿级别，专为指令微调而设计。该模型在预训练阶段，通过海量文本和图像数据学习通用的语言和视觉知识，能够理解并生成自然语言文本，同时处理与文本相关的图像信息，实现多模态交互。在指令微调过程中，Qwen2.5-VL-3B-Instruct 针对特定的指令任务进行了优化，使其能够更好地理解和执行人类的指令，如问答、文本生成、图像描述等。它在多模态任务上展现出色的性能，能够将图像内容与文本语义相结合，生成准确且富有逻辑的回答。此外，该模型还具备一定的推理能力和创造力，能够在处理复杂任务时提供有价值的见解和解决方案。

下载代码：

modelscope download --model Qwen/Qwen2.5-VL-3B-Instruct --local_dir /data/nvme1/weights/Qwen/Qwen2.5-VL-3B-Instruct

3、数据集简介

TextVQA_GT_bbox 是 Hugging Face 上的一个视觉问答（VQA）数据集，专注于文本相关的视觉问答任务，来源于 TextVQA（https://textvqa.org/dataset/），并

提供目标边界框

信息。该数据集包含图像、与图像相关的问题以及对应的答案，边界框信息帮助模型精准定位图像中的文本内容，从而提高回答问题的准确性。该数据集选择 TextVQA（https://textvqa.org/dataset/）中单目标检测的问答，保留5000个样本中的4370个。

本次教程的任务目标是利用问题和目标边界框信息来对Qwen2.5-VL-3B-Instruct模型进行微调，数据集样式如下：

点击阅读原文，查看供稿原文

👇点击关注ModelScope公众号获取
更多技术信息~

阅读原文

跳转微信打开

1、训练方法简介

2、选用模型简介

3、数据集简介

4、训练框架选择

04
数据集准备

05
微调代码

1、环境设置

2、数据预处理

3、参数设置

4、模型训练&保存

5、完整代码

SwanLab可视化结果

微调模型后推理测试

魔搭社区下载的数据集用不了

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签

1、训练方法简介

2、选用模型简介

3、数据集简介

4、训练框架选择

04数据集准备

05微调代码

1、环境设置

2、数据预处理

3、参数设置

4、模型训练&保存

5、完整代码

SwanLab可视化结果

微调模型后推理测试

魔搭社区下载的数据集用不了

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签

04
数据集准备

05
微调代码