UIUC团队打造图片生成扩散模型，可用于电子商务生成式推荐

2025-02-04 18:03 天津

在很多现实生活中的信息图（比如社交网络/学术网络）中，节点常常伴随有文本和图像信息。比如，在电子商务网络中，我们可以使用商品作为节点以及使用商品之间的共同购买关系作为边来构建用户行为网络。

在很多现实生活中的信息图（比如社交网络/学术网络）中，节点常常伴随有文本和图像信息。比如，在电子商务网络中，我们可以使用商品作为节点以及使用商品之间的共同购买关系作为边，来构建用户行为网络。

那么在这个网络中，商品节点其实是会伴随有商品文本描述/商品图片这类信息的。再比如，在艺术作品网络中，我们可以将艺术作品作为节点，艺术品之间的“相似风格”或者“相同作者”关系作为边。同样，在这个网络中，艺术作品作为节点是有标题/照片信息的。

当我们想要分析和挖掘此类信息网络的时候，节点文本信息/节点图片信息/信息网络结构信息这三种模态信息都是重要的。然而，目前的工作比如大语言模型、生成扩散模型、图神经网络主要都只针对这三类信息中的一类进行精细化处理，而忽略了三者的结合。

鉴于这个背景，美国伊利诺伊大学金博文博士和所在团队开展了这样一项研究：如何通过模型将节点文本信息/节点图片信息/信息网络结构信息这三种模态信息同步编码，来完成此类信息图上任务的问题。

图 | 金博文（来源：金博文）

据介绍，本次工作主要聚焦于在此类多模态信息图中，如何借助图上的已有信息进行新节点图片生成的问题。

为了解决这个新问题，他们提出了全新的基于信息图的图片生成扩散模型：InstructG2I 模型。在做生成扩散的去噪过程中，他们会保留原有的文本提示，并加入新的信息图提示。

信息图条件基的构建由两部分组成：（1）信息图上的相关节点搜索；（2）信息图信息浓缩。另外，InstructG2I 模型还可以支持可控的图片生成，并具备控制多种不同信息图条件基的能力。

一个非常有趣的例子是，他们的模型可以学会将艺术家们的创作风格进行融合，比如下图中，金博文将毕加索的风格和金博文弟弟的创作风格进行了融合，并且可以调整两者的风格占比：

（来源：资料图）

对于相关论文，审稿人认为，Graph2image 利用图（graph）的丰富高维信息进行图像生成的动机合理且有趣。将图信息引入预训练的文本到图像模型（stable diffusion）的方法是创新的，尤其是引入了图条件化标记，并考虑了图规模的可扩展性。

所生成的样本表明，与仅使用文本提示或图像的方法相比，利用图信息可以在一致性上更好地与真实情况匹配。可控生成的示例显示了使用文本和图同时控制生成内容和风格的能力，而且方式简单明了。

这一成果具备很多潜在的应用前景，包括电子商务生成式推荐和艺术创作领域。

比如，在以“共同购买”关系建立的电子商务产品网络中进行新节点图片生成，事实上等价于生成式推荐任务，即给定用户曾经购买过的商品（图上的邻居），为用户潜在感兴趣的商品（图上新的节点）生成图片。

再比如，在以“相似风格”关系建立的艺术作品网络中进行新节点图片生成，事实上等价于虚拟艺术创作任务，即给定某些相似风格的艺术作品（图上的邻居），为一个给定标题的艺术品生成图片（图上新的节点）。

据了解，本次工作是金博文和第二作者庞子奇（金博文的室友），在厨房闲聊期间一起讨论发现的一个问题。金博文本身的背景更多偏向于大语言模型和图学习，而庞子奇则是计算机视觉领域的专家。

他们闲暇时间经常会交流各自领域的一些最新发展，以及对一些问题的个人见解。一次偶然的机会，庞子奇提到了他最近在用生成式扩散模型来解决计算机视觉领域的识别类问题，这引起了金博文的兴趣。

经过几番讨论他们意识到，在图学习领域节点其实常常伴随有图片信息，并且这种以图结构为条件的节点图片生成是一个有意义并且全新的课题，而这也是生成式扩散模型可以被加以利用的重要场景。

而后他们又进行了多次讨论，交换了从各自领域角度出发的见解，最后完成了这篇有意思的论文。

日前，相关论文以《INSTRUCTG2I：从多模态有向图中合成图像》（INSTRUCTG2I：Synthesizing Images from Multimodal Attributed Graphs）为题发在神经信息处理系统大会（NeurIPs，Conference and Workshop on Neural Information Processing Systems）[1]。