ICML 2025 | 抛弃全量微调！北大提出VGP范式，语义低秩分解解锁ViG高效迁移

PaperWeekly 10小时前

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

北京大学的研究团队提出Vision Graph Prompting (VGP) 方法，旨在提升图神经网络 (GNN) 在视觉建模中的迁移效率。该方法通过语义低秩分解，增强了图结构图像模型的参数高效迁移能力，使得Vision GNN (ViG) 在多种下游任务中实现接近全量微调的性能，同时显著减少了计算和存储负担。该研究已被ICML 2025接收，开源了论文和代码，为视觉GNN模型的应用拓展提供了新的思路。

💡背景：ViG模型通过图结构捕捉图像语义，但全量微调带来计算和存储挑战。现有视觉提示方法难以有效建模图结构语义拓扑关系。

💡方法：VGP 是一种专为ViG设计的语义感知提示机制，基于语义低秩分解。通过SeLo-Graph Prompt、SeLo-Edge Prompt和SeLo-Node Prompt，从全局、边和节点层面增强语义表达。

💡实验结果：VGP 在多个视觉下游任务中表现出色，精度媲美甚至超越全量微调，同时大幅减少参数量，实现了结构感知迁移。

💡应用价值：VGP为ViG模型的下游适配提供了新范式，适用于高精度视觉理解、边缘设备部署和多任务快速切换等场景。

💡未来展望：研究团队计划将VGP扩展到更复杂的图结构建模场景，如时空图建模、跨模态图-语言联合建模，探索语义低秩分解的更多潜力。

原创让你更懂AI的 2025-06-09 13:34 北京

高效迁移的终极答案？

近日，北京大学在图神经网络（GNN）视觉建模方向提出全新方法 VGP（Vision Graph Prompting），通过语义低秩分解（Semantic Low-Rank Decomposition）有效增强图结构图像模型的参数高效迁移能力，赋能 Vision GNN（ViG）在多种下游任务中实现媲美全量微调的性能。

该研究已被人工智能顶会 ICML 2025 正式接收，相关论文与代码已全部开源。论文第一作者为北京大学博士生艾子翔，通讯作者为北京大学王选计算机研究所研究员、助理教授周嘉欢。

论文标题：

Vision Graph Prompting via Semantic Low-Rank Decomposition

论文链接：

https://arxiv.org/abs/2505.04121

代码链接：

https://github.com/zhoujiahuan1991/ICML2025-VGP

接收会议：

ICML 2025（CCF A 类）

作者单位：

北京大学王选计算机研究所

背景：图结构视觉建模的潜力与挑战

近年来，Vision GNN（ViG）模型通过将图像建模为图结构，在图神经网络中有效捕捉图像中非规则的语义分布，突破了传统 CNN 和 Transformer 模型中固定网格和序列结构的限制，成为视觉建模新范式。

然而，ViG的大规模模型在迁移到具体下游任务时，依赖传统的全量微调方式，造成巨大的计算与存储负担，难以适用于边缘设备或多任务部署场景。同时，现有视觉提示（Visual Prompting）方法大多针对Transformer设计，无法有效建模图结构中的语义拓扑关系，限制了其在图像图模型中的应用效果。

方法简介：语义低秩提示，唤醒ViG语义潜能

为解决上述难题，研究团队提出 Vision Graph Prompting（VGP），一种专为 ViG 设计的语义感知提示机制。该设计思想源于对图视觉模型中语义信息分布的关键发现：

在视觉图结构中，尽管语义相关的节点具有不同的局部外观细节，它们在主成分分析（PCA）中却表现出高度一致的低秩结构，这表明图结构中主要的语义信息集中于隐式特征空间的低秩成分。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签