原创 让你更懂AI的 2025-08-05 20:06 北京
首个无需标签的图-语言迁移框架
TL;DR
我们提出了 STAG(Soft Tokenization for Text-attributed Graphs),一个创新的自监督框架,通过量化技术将图的结构信息直接转换为离散 token,实现图学习与大语言模型的无缝集成。该方法在多个节点分类基准上达到 SOTA 性能,支持真正的零样本迁移学习,无需任何标记数据!
论文标题:
Quantizing Text-attributed Graphs for Semantic-Structural Integration
论文链接:
https://arxiv.org/pdf/2507.19526
代码链接:
https://github.com/jybosg/STAG
引言
文本属性图(Text-attributed Graphs)在社交媒体网络分析,学术引用网络,知识图谱构建,电商推荐系统等领域广泛存在。这些图不仅包含丰富的拓扑结构信息,还蕴含大量文本语义信息,为深度理解复杂关系提供了独特机会。
随着 ChatGPT,GPT-4,LLaMA 等大语言模型的快速发展,GraphLLM 成为当前 AI 研究的前沿热点。如何让强大的 LLM 理解图结构,同时保持其卓越的语义理解能力,是实现真正“图-语言”智能的关键。
然而,现有方法仍面临根本性挑战:图的连续嵌入空间与 LLM 的离散 token 空间存在天然鸿沟,跨域迁移学习严重依赖昂贵的标记数据。
研究动机
当前方法存在显著局限:
对齐困难:传统方法需要昂贵的投影网络来对齐图嵌入与 LLM token 空间
手工设计:依赖人工设计的子图描述技术(如“节点 A 连接到 B 和 C”),难以扩展且不稳定
标签依赖:现有跨域方法需要源域标记数据,成本高昂且限制适应性
架构绑定:方法通常绑定特定 LLM 架构,缺乏灵活性
创新方法
STAG 框架包含三个核心创新:
4.1 语义-结构融合模块
我们设计了参数高效的特征融合机制,巧妙整合 GNN 学习的结构表示与原始文本的语义表示:
双路径设计:分别处理结构信息(通过 GAT 编码器)和语义信息 (通过冻结的sentence transformer)
归一化融合:L2 归一化保持特征方向信息,避免不同模态特征的尺度差异
自适应权重:可学习参数 和 动态平衡结构与语义的贡献度
语义对齐:KL 散度损失确保融合后的表示保持与原始文本的语义一致性
核心公式-语义结构融合损失(Semantic-Structural Fusion):
公式解析:
:GNN 编码器学习的结构表示(structural embedding)
:可学习的投影矩阵,将结构特征对齐到语义空间
:原始文本的语义表示(semantic embedding)
:可学习的融合权重,控制结构信息与语义信息的相对重要性
:L2 范数归一化,确保不同模态特征具有相同的尺度
技术突破:通过单位球面上的加权组合,既保持了特征的方向性语义,又避免了尺度不匹配问题。相比传统 concatenation,该方法参数量更少且数值更稳定。
4.2 软分配量化策略
针对图数据缺乏自然 token 化结构的挑战, 我们创新性地设计了软分配机制:
基于语义相似度:采用余弦相似度而非 L2 距离,更好地处理高维语义空间的相似性
概率分布映射:将每个节点映射到整个 codebook 的概率分布,而非单一token
温度控制:可调节温度参数 τ 控制分配的“软硬程度”,平衡表达能力与泛化性
防过拟合设计:软分配天然避免了对特定 token 的过度依赖,增强跨域迁移能力
核心公式-软分配注意力机制(Soft Assignment Attention):
公式解析:
:融合后的节点表示 (来自上述语义-结构融合)
:第 个 codebook 向量,对应 LLaMA 词汇表中的 token 嵌入
:余弦相似度函数,计算表示向量与 codebook 的语义匹配度
:codebook 大小(15,062 个精选英文 token)
:软分配温度参数,控制注意力分布的“尖锐程度”
量化策略-加权组合(Weighted Combination):
技术突破:相比 VQ-VAE 的硬分配(),我们的软分配策略特别适合处理图的不规则结构,同时保持了 token 空间的连续性和语义一致性。
4.3 双分支训练目标
STAG 采用双分支架构同时优化语义保持和结构感知两个目标:
重构分支:保持节点级语义信息,确保量化过程不损失文本语义
对比分支: 捕获邻域结构模式,利用图掩码策略学习拓扑关系
冻结 codebook 设计:确保跨 LLM 语义一致性,避免 codebook 漂移
重构损失-缩放余弦误差(Scaled Cosine Error, SCE):
公式解析:
:节点 的原始语义特征
:经过量化-解码后的重构特征
:缩放因子,控制重构误差的惩罚强度
设计优势:相比 MSE 损失,SCE 避免了梯度消失问题,对语义特征更敏感
对比损失-InfoNCE(Contrastive Learning):
公式解析:
:掩码节点 的解码表示
:节点 的原始特征(正样本)
:负样本集合(其他掩码节点)
:对比学习温度参数
核心思想:通过邻域结构预测掩码节点,迫使模型学习图的拓扑模式
联合优化目标:
4.4 灵活推理机制
STAG 的一大优势是支持多种推理策略,可根据具体需求和资源约束灵活选择:
4.4.1 LLM 推理路径
将量化后的结构-语义信息直接转换为 LLM 可理解的 token 序列:
Step 1:Token 选择策略
计算融合表示 与 codebook 的注意力分布
选择 top-k 个最高权重的 token:
通常设置 - 平衡信息量与推理效率
Step 2:Prompt 构建
Few-shot 示例:“节点 tokens:[research,methodology,experiment] → 类别:Research Paper”
Zero-shot 查询:“节点 tokens:[algorithm,computation,optimization] → 预测类别:?”
系统提示:明确分类任务和候选类别列表
Step 3:LLM 分类
利用 LLM 的语义理解能力进行上下文学习
支持多种 LLM 架构:LLaMA2/3,Vicuna,GPT-4o 等
无需额外训练,即插即用
4.4.2 传统推理路径
直接使用学习到的连续表示进行分类,更高效且无需 LLM:
线性探测(Linear Probing):
:可训练的分类器权重
:冻结的融合表示 (来自预训练模型)
仅训练分类器,保持表示学习的通用性
4.4.3 提示调优增强
轻量级适应机制,专门针对 few-shot 场景优化:
核心思想:引入小型 prompt 网络 微调融合表示
双重优化目标:
Commitment Loss:
Weighted Contrastive:利用类别语义相似度引导学习
推理方式:
有 LLM: → 量化 → tokens → LLM分类
无 LLM: → 类别相似度 → 直接预测
4.4.4 推理策略对比
灵活性优势:
即时切换:同一预训练模型支持所有推理方式
渐进式部署:从零样本→few-shot→fully-supervised逐步优化
资源适配:根据计算资源选择最合适的推理策略
卓越性能
在 7 个文本属性图数据集上的全面评估显示:
5.1 Few-shot 学习(5-way 5-shot)
我们在多个具有挑战性的数据集上进行了广泛评估:
关键优势:
STAG+Prompt Tuning 在所有跨域任务中均显著优于需要源域标签的方法
即使在同域评估中也保持与最强 GraphMAE2 基线的竞争优势
5.2 Zero-shot 学习
无需任何标记数据实现强性能
大幅超越需要源域标签的基线方法
5.3 LLM 兼容性
支持 LLaMA2/3, Vicuna, GPT-4o 等多种架构
性能随模型规模一致提升
提示调优带来稳定性能增益
5.4 任务泛化能力
链路预测:在 ogbn-products 上达到 96.85%
边分类:FB15K237 上达到 74.80%
子图分类:多数据集均有提升
总结与展望
STAG 开创性地解决了图学习与大语言模型融合的核心难题:
✅ 首次实现图结构信息到离散 token 空间的直接映射
✅ 首次在跨域学习中实现真正的零样本迁移(无需源域标签)
✅ 首次提供统一框架支持有/无 LLM 的多种学习范式
✅ 首次展示跨 LLM 架构的一致性能表现
未来工作将扩展到图级任务和链式推理,进一步推动图学习与 LLM 的深度融合!
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·