IT之家 12小时前
苹果另辟蹊径:利用“归一化流”技术打造 AI 生图模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

苹果公司近期发布的论文揭示了其在AI生图模型研发上的新策略,选择了相对冷门的归一化流技术。这种技术通过学习数学变换,将真实数据转化为结构化噪声,再还原为图像样本,其优势在于能精确计算生成图像的概率。苹果推出了新型归一化流技术模型TarFlow,该模型通过拆分图像区块生成像素值,避免了图像质量损失。在此基础上,苹果进一步提出了增强版STARFlow,该模型在潜空间中工作,先生成图像压缩表示,再通过解码器放大还原,从而提升生成效率。此外,STARFlow还改进了对文本提示的处理方式,支持调用现有语言模型处理用户指令,专注于图像细节的生成与优化。

🍎 苹果公司选择使用归一化流技术研发AI生图模型,该技术通过学习数学变换,将真实数据转换为结构化噪声,再将噪声还原为图像样本,与主流的扩散模型和自回归模型有所不同。

🧩 TarFlow是苹果推出的一种新型归一化流技术模型,它将待生成的大图拆分成小区块,并以区块为单位生成像素值。每个区块的生成依赖于前面已生成的部分,从而避免图像质量损失。

✨ STARFlow是TarFlow的增强版本,它在潜空间中工作,先生成图像的压缩表示,再通过解码器进行放大还原。这种方式提升了生成效率,且不损失图像质量。

🗣️ STARFlow改进了文本提示处理方式,不再内建专用文本编码器,而是支持调用现有语言模型处理用户的语言指令,使得模型专注于图像细节的生成与优化。

IT之家 6 月 24 日消息,业界通常使用扩散模型或自回归模型来研发 AI 生图模型,苹果公司近期发布的论文显示该公司正在选择一条被“遗忘”的归一化流(Normalizing Flows)技术路线研发相应模型。

据介绍,这一“归一化流”技术是一种通过学习数学变换的方式,将真实世界的数据(如图像)转换成结构化噪声,并再将噪声还原为图像样本的生成模型。其最大优势是能够精确计算生成图像的概率,这是扩散模型无法做到的。这一特性使得归一化流在对概率要求较高的任务中具有独特吸引力。不过此类模型并不常见,原因在于其研发成本更高,同时早期采用相应技术生成的模型往往相对模糊、缺乏细节

IT之家参考苹果公司《Normalizing Flows are Capable Generative Models》论文,其推出一种名为 TarFlow(Transformer AutoRegressive Flow)的新型归一化流技术模型,该模型的核心思路是将一张待生成的大图拆成“小区块”,再以相应区块为单位进行生成一系列像素值,每一块图像像素值的生成都依赖于前面已生成的部分,继而形成完整的图像,因此能够有效避免图像被压缩为固定词汇表时产生的质量损失与表现僵化的问题。

当然,TarFlow 在生成高分辨率图像方面仍存在局限,这就引出了第二篇研究《STARFlow: Scaling Latent Normalizing Flows for High-resolution Image Synthesis》。

参考这篇论文,苹果在 TarFlow 的基础上进一步提出了增强版本:STARFlow(Scalable Transformer AutoRegressive Flow)

该模型最大的改进在于,它不再直接在像素层面生成图像,而是在“潜空间”(latent space)中工作,首先生成图像的压缩表示,再通过解码器进行放大还原。因此模型可无须再预测数百万个像素值,而是先处理图像的大体结构,细节部分留给解码器进行补充,从而在不损失质量的前提下提升生成效率

此外,STARFlow 还改进了对文本提示的处理方式。它不再内建专用文本编码器,而是支持调用现有语言模型(例如谷歌推出的小语言模型 Gemma,理论上可以直接在设备上运行)来处理用户的语言指令。这样一来,模型的图像生成部分可以专注于图像细节的生成与优化。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

苹果 AI生图 归一化流 TarFlow STARFlow
相关文章