智源社区 2024年08月20日
博士论文 | Maryland 2024 | 面向结构化数据的通用和可扩展机器学习 161页
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文探讨为结构化图和表格设计的机器学习方法,研究解决GNN泛化和可扩展性问题及表推理任务的方法

🎯深度学习和神经网络给机器学习带来变革,本文专注于结构化数据的机器学习方法,旨在提升神经网络性能

💪提出FLAG利用数据增强泛化GNN,在训练中用基于梯度的对抗性扰动迭代增强节点特征

🚀研究GNN可扩展性问题,提出VQ-GNN通用框架,可使用矢量量化扩展基于卷积的GNN且不影响性能;还提出GOAT,能扩展到大型图并在多种任务上有竞争力

🌟提出OpenTab,利用高级大型语言模型构建针对开放域表推理任务的有效方法

深度学习和神经网络为机器学习领域带来了变革性时代,极大地影响了我们处理和利用结构化数据的方式。本论文致力于探索专门为结构化图和表格设计的机器学习方法,旨在提高神经网络在重要数据模式上的性能。

图神经网络 (GNN) 已成为学习和分析图表示的强大架构。然而,在大规模数据集上训练 GNN 通常会出现过度拟合,给预测问题带来重大的泛化挑战。同时,传统 GNN 在工业级图数据集上部署时受到可扩展性问题的阻碍。此外,对于表格推理任务,大型语言模型 (LLM) 表现出了竞争力,但由于上下文限制,无法完全处理大型表格,并且可能无法理解表格数据中的复杂关系。在本论文中,我们研究了解决 GNN 泛化和可扩展性问题的算法和技术,以及表推理任务的有效和高效方法。

在第一项工作中,我们提出利用数据增强来泛化 GNN。我们提出了 FLAG(图上的免费大规模对抗性增强,Free Large-scale Adversarial Augmentation on Graphs),它在训练期间使用基于梯度的对抗性扰动迭代地增强节点特征。在第二和第三项工作中,我们研究了 GNN 的可扩展性问题。我们提出了 VQ-GNN,这是一个通用框架,可以使用矢量量化 (VQ) 扩展任何基于卷积的 GNN,而不会影响性能。我们进一步提出了 GOAT,这是一种全局图transformer,可以扩展到具有数百万个节点的大型图,并且在同质和异质图的任务上都具有竞争力。最后,我们提出了 OpenTab,这是一种使用高级大型语言模型构建的针对开放域表推理任务的有效方法。

论文题目:Towards Generalized and Scalable Machine Learning on Structured Data

作者Kezhi Kong

类型:2024年博士论文

学校:University of Maryland, College Park(美国马里兰大学帕克分校

下载链接:

链接: https://pan.baidu.com/s/1cAjy40qf_PGOg6pwpnieJw?pwd=gftr

硕博论文汇总:

链接: https://pan.baidu.com/s/1Gv3R58pgUfHPu4PYFhCSJw?pwd=svp5

在我们的框架 VQ-GNN 中,每个小批量消息传递(左)都由 VQ 码本更新(中)和近似消息传递(右)来近似。传递给当前小批量中节点的所有消息都得到了有效保留。圆圈是节点,矩形是 VQ 码字。双圆圈表示当前小批量中的节点。颜色表示码字分配。在 VQ 码本更新期间,小批量中节点的码字分配会刷新(节点 1),并使用分配的节点更新码字。在近似消息传递期间,来自小批量外节点的消息由来自相应码字的消息近似,来自分配给相同码字的节点的消息会合并(a 和 b),小批量内消息不会改变(c 和 d)。

三种类型的消息对小批量特征和梯度有贡献。我们只需要“红色”和“绿色”消息进行前向传播。但是,“蓝色”消息是反向传播所必需的。“红色”、“蓝色”和“绿色”消息分别由 C_out、(C_T)out 和 C_in 表征(等式 (3.6) 和 (3.7))。

对于每一层,VQ-GNN 使用前一层的小批量特征和特征码字通过近似前向消息传递来估计前向传递的小批量特征(等式 (3.6))。反向传播的小批量梯度在梯度码字的帮助下以对称方式估计(等式 (3.7))。

GOAT 模型的局部采样过程和前向传播。bl 表示距离 l 的邻居的可训练位置偏差。

OPENTAB 流程概述。OPENTAB 使用 RETRIEVER 从给定自然语言查询的语料库中检索相关的采样表,然后使用 REASONER 输出自然语言响应。

CODER 和 READER 的提示和生成结构。

CODER和READER的具体提示和生成结构。


微信群

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

深度学习 结构化数据 GNN 表推理
相关文章