IT之家 2024年10月23日
谷歌 Fluid 颠覆共识:两大因素被发现,AI 文生图领域自回归模型超越扩散模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

谷歌DeepMind团队与MIT合作推出Fluid模型,该模型在规模达105亿参数时能取得最佳文生图效果。文中介绍了自回归模型和扩散模型,以及Fluid模型采用连续tokens和随机生成顺序的关键设计因素,使其在重要基准测试中超越其他模型。

🎯扩散模型是热门内容生成技术,模拟信号从噪声中恢复过程,通过减少随机噪声生成高质量图像等数据,如DDPM及其变体受关注。

📝自回归模型在预测序列下一个元素时依赖前面元素,像GPT系列是典型的自回归模型,逐词生成连贯文本段落。

💡谷歌DeepMind和MIT团队发现使用连续tokens和采用随机生成顺序两个关键因素,可提高自回归模型性能和可扩展性,能更好重建图像并在理解整体图像结构时表现出色。

🚀Fluid模型结合连续标记和随机生成顺序,规模扩大到105亿参数时,在重要基准测试中超越Stable Diffusion 3扩散模型和谷歌此前的Parti自回归模型。

IT之家 10 月 23 日消息,科技媒体 The Decoder 昨日(10 月 22 日)发布博文,报道称谷歌 DeepMind 团队携手麻省理工学院(MIT),推出了全新的“Fluid”模型,在规模达到 105 亿参数时候,能取得最佳的文生图效果。

目前在文生图领域,行业内的一个共识是自回归模型(Autoregressive Models)不如扩散模型(Diffusion Models)。

IT之家简要介绍下这两种模型:

谷歌 DeepMind 和 MIT 团队通过深入研究,发现了使用连续 tokens(非离散 tokens)和采用随机生成顺序(非固定顺序)两个关键设计因素,显著提高了自回归模型的性能和可扩展性。

团队表示在离散 tokens 为每个图像区域分配一个来自有限词汇的代码,这会导致信息丢失,而连续 tokens 可以更精确地图像信息存储,减少信息丢失。这让模型能够更好地重建图像,提高视觉质量。

此外大多数自回归模型以固定顺序生成图像,而 Fluid 采用随机生成顺序,让模型能够在每一步预测任意位置的多个像素,这种方法在理解整体图像结构时表现更为出色。

Fluid 模型结合了连续标记和随机生成顺序后,当其规模扩大到 105 亿参数时,Fluid 在重要基准测试中超越了 Stable Diffusion 3 扩散模型和谷歌此前的 Parti 自回归模型。

与 Parti 相比,Fluid 显示出显著的改进:拥有 200 亿参数的 Parti 在 MS-COCO 上达到了 7.23 的 FID 分数,而仅有 3.69 亿参数的小型 Fluid 模型却达到了相同的分数。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Fluid模型 自回归模型 扩散模型 文生图
相关文章