DeepTech深科技 02月08日
UIUC团队打造图片生成扩散模型,可用于电子商务生成式推荐
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

伊利诺伊大学金博文博士团队提出了InstructG2I模型,一种全新的基于信息图的图片生成扩散模型,旨在解决多模态信息图中利用图信息生成新节点图片的问题。该模型通过同步编码节点文本、图片和网络结构信息,在去噪过程中保留文本提示并加入新的信息图提示,实现可控的图片生成。InstructG2I模型能够融合不同艺术家的创作风格,并调整风格占比。该研究为多模态图学习和图上的图片生成任务打开了新的大门,在电子商务推荐和艺术创作领域有广泛的应用前景。

💡InstructG2I模型是一种基于信息图的图片生成扩散模型,旨在借助图上的已有信息进行新节点图片生成,通过同步编码节点文本信息、节点图片信息和信息网络结构信息这三种模态信息来解决问题。

🔎InstructG2I模型在做生成扩散的去噪过程中,会保留原有的文本提示,并加入新的信息图提示。信息图条件基的构建由两部分组成:信息图上的相关节点搜索和信息图信息浓缩。

🎨InstructG2I 模型支持可控的图片生成,并具备控制多种不同信息图条件基的能力。例如,可以将毕加索的风格和金博文弟弟的创作风格进行融合,并且可以调整两者的风格占比。

🛍️InstructG2I模型在电子商务产品网络中进行新节点图片生成,等价于生成式推荐任务,即给定用户曾经购买过的商品,为用户潜在感兴趣的商品生成图片;在艺术作品网络中进行新节点图片生成,等价于虚拟艺术创作任务,即给定某些相似风格的艺术作品,为一个给定标题的艺术品生成图片。

2025-02-04 18:03 天津

在很多现实生活中的信息图(比如社交网络/学术网络)中,节点常常伴随有文本和图像信息。比如,在电子商务网络中,我们可以使用商品作为节点以及使用商品之间的共同购买关系作为边来构建用户行为网络。



在很多现实生活中的信息图(比如社交网络/学术网络)中,节点常常伴随有文本和图像信息。比如,在电子商务网络中,我们可以使用商品作为节点以及使用商品之间的共同购买关系作为边,来构建用户行为网络。


那么在这个网络中,商品节点其实是会伴随有商品文本描述/商品图片这类信息的。再比如,在艺术作品网络中,我们可以将艺术作品作为节点,艺术品之间的“相似风格”或者“相同作者”关系作为边。同样,在这个网络中,艺术作品作为节点是有标题/照片信息的。


当我们想要分析和挖掘此类信息网络的时候,节点文本信息/节点图片信息/信息网络结构信息这三种模态信息都是重要的。然而,目前的工作比如大语言模型、生成扩散模型、图神经网络主要都只针对这三类信息中的一类进行精细化处理,而忽略了三者的结合。


鉴于这个背景,美国伊利诺伊大学金博文博士和所在团队开展了这样一项研究:如何通过模型将节点文本信息/节点图片信息/信息网络结构信息这三种模态信息同步编码,来完成此类信息图上任务的问题。


图 | 金博文(来源:金博文)


据介绍,本次工作主要聚焦于在此类多模态信息图中,如何借助图上的已有信息进行新节点图片生成的问题。


为了解决这个新问题,他们提出了全新的基于信息图的图片生成扩散模型:InstructG2I 模型。在做生成扩散的去噪过程中,他们会保留原有的文本提示,并加入新的信息图提示。


信息图条件基的构建由两部分组成:(1)信息图上的相关节点搜索;(2)信息图信息浓缩。另外,InstructG2I 模型还可以支持可控的图片生成,并具备控制多种不同信息图条件基的能力。


一个非常有趣的例子是,他们的模型可以学会将艺术家们的创作风格进行融合,比如下图中,金博文将毕加索的风格和金博文弟弟的创作风格进行了融合,并且可以调整两者的风格占比:


(来源:资料图)


对于相关论文,审稿人认为,Graph2image 利用图(graph)的丰富高维信息进行图像生成的动机合理且有趣。将图信息引入预训练的文本到图像模型(stable diffusion)的方法是创新的,尤其是引入了图条件化标记,并考虑了图规模的可扩展性。


所生成的样本表明,与仅使用文本提示或图像的方法相比,利用图信息可以在一致性上更好地与真实情况匹配。可控生成的示例显示了使用文本和图同时控制生成内容和风格的能力,而且方式简单明了。


这一成果具备很多潜在的应用前景,包括电子商务生成式推荐和艺术创作领域。


比如,在以“共同购买”关系建立的电子商务产品网络中进行新节点图片生成,事实上等价于生成式推荐任务,即给定用户曾经购买过的商品(图上的邻居),为用户潜在感兴趣的商品(图上新的节点)生成图片。


再比如,在以“相似风格”关系建立的艺术作品网络中进行新节点图片生成,事实上等价于虚拟艺术创作任务,即给定某些相似风格的艺术作品(图上的邻居),为一个给定标题的艺术品生成图片(图上新的节点)。


据了解,本次工作是金博文和第二作者庞子奇(金博文的室友),在厨房闲聊期间一起讨论发现的一个问题。金博文本身的背景更多偏向于大语言模型和图学习,而庞子奇则是计算机视觉领域的专家。


他们闲暇时间经常会交流各自领域的一些最新发展,以及对一些问题的个人见解。一次偶然的机会,庞子奇提到了他最近在用生成式扩散模型来解决计算机视觉领域的识别类问题,这引起了金博文的兴趣。


经过几番讨论他们意识到,在图学习领域节点其实常常伴随有图片信息,并且这种以图结构为条件的节点图片生成是一个有意义并且全新的课题,而这也是生成式扩散模型可以被加以利用的重要场景。


而后他们又进行了多次讨论,交换了从各自领域角度出发的见解,最后完成了这篇有意思的论文。


日前,相关论文以《INSTRUCTG2I:从多模态有向图中合成图像》(INSTRUCTG2I:Synthesizing Images from Multimodal Attributed Graphs)为题发在神经信息处理系统大会(NeurIPs,Conference and Workshop on Neural Information Processing Systems)[1]。


图 | 相关论文(来源:NeurIPs)


金博文表示:“我们认为,通过这个工作打开了多模态图学习以及图(graph)上的图片生成任务的大门。以往图学习主要聚焦于节点分类和链路预测任务,而后续我们想通过这个工作来号召更多的人聚焦更加现实的信息图场景,以及这些场景中的生成式任务需求。”


其相信这个方向有着巨大的探索空间。而如何将最新的多模态大模型引入进来,也是他们近期探索的课题。


参考资料:

1.https://arxiv.org/pdf/2410.07157


排版:刘雅坤





01/ 全球首台可扩展光量子计算机面世,该公司计划于2029年建立量子数据中心,预计将部署数千台服务器


02/ DeepSeek到底是真开源还是假开源?业内人士:已经有足够多细节值得学习


03/ 揭秘DeepSeek “省钱”妙招:减少硬件依赖,绕开人工反馈来训练模型


04/ 中国科学家用两只雄性小鼠“创造”下一代,已存活至成年


05/ 美AI公司CEO“万字檄文”施压白宫加强管制,质疑DeepSeek或使用禁运芯片


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

InstructG2I 多模态图学习 图片生成 扩散模型
相关文章