AI 逆向绘画：一键重绘梵高《罗纳河上的星夜》，来自华盛顿大学

IT之家 2024年10月11日

AI 逆向绘画：一键重绘梵高《罗纳河上的星夜》，来自华盛顿大学

华盛顿大学的研究团队开发了一种名为 Inverse Painting 的 AI 逆向绘画技术，能够根据原图生成类似于人类艺术家绘画过程的视频。该技术通过学习真实艺术家的绘画视频，结合文本和区域理解来定义绘画“指令”，并使用基于扩散的渲染器更新画布，从而生成逼真的绘画过程。Inverse Painting 能够模仿艺术家从空白画布到完成作品的整个过程，并生成逼真的绘画视频，甚至可以用来“破解”一些大师遗作，提取隐藏或失传的技术。

🎨 **学习艺术家的绘画过程：**该项目收集了 294 个丙烯酸风景画绘画过程视频，并进行视频帧分割、裁剪和筛选等预处理操作，让模型学习绘画过程。

📝 **定义绘画指令：**模型基于对画作不同元素（比如天空、树木、人物等）以及元素相互关系的理解，生成一组“绘画指令”，告诉模型应该先画什么，后画什么。

🖼️ **使用扩散模型：**模型使用扩散模型生成逼真图像，并逐步在画布上添加细节，就像艺术家绘画时一样。

💬 **文本和区域理解：**模型还会生成文本指令和区域掩码，前者告诉模型要绘制的内容，后者用来指定内容的确切位置。

⏱️ **逐步渲染：**从一个空白画布开始，逐步生成完整绘画过程，并考虑每步之间的时间间隔，模拟真实世界中艺术家的绘画速度。

🏆 **测试结果：**与三个基线方法（Timecraft、Paint Transformer、Stable Video Diffusion）相比，Inverse Painting 生成的结果明显更优。

👥 **华人作者：**该项目作者包括两位华人，陈柏维（Bowei Chen）和王逸凡（Yifan Wang），他们分别在东北大学和上海科技大学获得本科教育，并在卡内基梅隆大学和华盛顿大学攻读硕博学位。

梵高名作也能被 AI 逆向破解了？！

直接喂一张原图，AI 就能化身梵高・本高一点点重绘整张图画（原图可任意）。

▲ 梵高《罗纳河上的星夜》

仔细对照两边，AI 几乎实现了 1:1 复刻，还为我们这些绘画小白清晰展示了整幅图的构建过程。

这项魔法来自华盛顿大学，项目名为 Inverse Painting，相关论文已入选 SIGGRAPH Asia 2024，其中两位作者还是东北大学（Bowei Chen ）和上海科技大学（Yifan Wang）的校友。

项目一经发布后即在 Reddit 引起热议，最高赞更是为艺术家群体操起了心（doge）。

艺术家可能会对此感到愤怒

不过也有人表示，这对于人们学习如何绘画非常有帮助。

甚至可以用来“破解”一些大师遗作，提取隐藏或失传的技术。

基于扩散模型

从原图 → 绘画过程延时视频，Inverse Painting 采用基于扩散的逆绘画方法。

通过学习真实艺术家的绘画视频，结合文本和区域理解来定义绘画“指令”，并使用基于扩散的渲染器更新画布，从而生成类似于人类艺术家绘画过程的视频。

进一步拆解，这一过程主要包括以下步骤：

学习艺术家的绘画过程。收集了 294 个丙烯酸风景画绘画过程视频（平均时长 9 分钟），并进行视频帧分割、裁剪和筛选等预处理操作，让模型学习绘画过程；

定义绘画指令。基于对画作不同元素（比如天空、树木、人物等）以及元素相互关系的理解，模型会生成一组“绘画指令”，告诉模型应该先画什么，后画什么；

使用扩散模型。用扩散模型生成逼真图像，并逐步在画布上添加细节，就像艺术家绘画时一样；

文本和区域理解。模型还会生成文本指令和区域掩码，前者告诉模型要绘制的内容，后者用来指定内容的确切位置；

逐步渲染。从一个空白画布开始，逐步生成完整绘画过程；

时间控制。为了模拟真实世界中艺术家的绘画速度，模型还会考虑每步之间的时间间隔；

这些步骤整体可归为两阶段训练 + 测试，如下所示：

第一阶段：指令生成（Instruction Generation）

这个阶段主要生成两个关键指令集，文本指令生成器（Text Instruction Generator）和区域掩码生成器（Mask Instruction Generator）。

前者通过比较目标画作和当前画布的状态，生成一个简短的文本指令，比如“画天空”或“加花朵”，以此决定下一步应该添加哪些元素。

后者是一个二进制图像，指明了画布上应该更新哪些部分。

两者一结合，确保模型只在画布上合适的区域进行绘制。

▲ 生成的文本指令

第二阶段：画布渲染（Canvas Rendering）

接下来使用第一阶段生成的指令来更新画布。

利用文本指令和区域掩码，以及当前画布的图像和目标画作，一个基于扩散的渲染器被用来更新画布。

这个渲染器采用了一种叫做“去噪扩散概率模型”的技术，它逐步从噪声图像中去除噪音，以生成连续的图像帧。

总之，渲染器在更新画布时会考虑多种条件信号，包括文本指令、区域掩码、时间间隔，以及目标画作和当前画作的特征。

这些条件信号帮助渲染器更准确地模拟人类艺术家的绘画风格和过程。

测试（Test-Time Generation）

在测试阶段，模型使用训练好的管道从头开始生成一幅画作。

这里主要有两个关键：

自回归过程。每一步都依赖于前一步生成的结果，以此生成一个连贯的绘画过程；

固定时间间隔。在每一步之间采用固定时间来更新画布，模拟真实绘画过程中的时间流逝；

最终，与三个基线方法（Timecraft、Paint Transformer、Stable Video Diffusion）相比，其生成结果明显更优。

同时，相关变体也取得了 SOTA 结果。

其中两位作者为华人

简单介绍下项目作者，一共 5 位，其中两位是华人。

Bowei Chen （陈柏维），本科就读于国内东北大学软件工程专业（2016 年入学），后分别在卡内基梅隆大学机器人研究所和华盛顿大学攻读硕博。

研究兴趣为计算机视觉和图形学的交叉点，重点是图像和视频生成。

Yifan Wang，本科就读于上海科技大学计算机专业，今年刚获得华盛顿大学 CS 博士学位。

个人主页显示了多段工作经历（含字节、谷歌、Adobe 等），目前是 Meta Reality Labs Research 的一名研究科学家。

实际上，这个团队进行的 AI 逆向绘画之前也有，网友们还提到了 Paints Undo 这个项目。

当时主要应用于动漫领域，短短 3 个月已在 GitHub 揽星 3.3K。

对于这事儿，人们一直褒贬不一，最大争议在于人们担心有人会利用 AI 谎称作者。

毕竟通过讲解艺术思路是作者证明作品原创性的手段之一。

甚至对于它能教人们学绘画这事儿，也有网友以自身经历出来反驳：

目前不太符合真实绘画过程

所以，有了解绘画的童鞋来说说看吗？

参考链接：

[1]https://inversepainting.github.io/
[2]https://www.reddit.com/r/singularity/comments/1fybddi/inverse_painting_can_generate_timelapse_videos_of/

本文来自微信公众号：量子位（ID：QbitAI），作者：一水，原标题《AI 逆向绘画火了！一键重绘梵高《星空》，来自华盛顿大学》

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI 绘画逆向绘画梵高艺术扩散模型

相关文章

Top Important Computer Vision Papers for the Week from 29/04 to 05/05

2020 考研「佛脚」班

Human-AI Collaboration for Creativity with Devi Parikh - #399

Creative Adversarial Networks for Art Generation with Ahmed Elgammal - TWiML Talk #265

This AI Research Introduces SubGDiff: Utilizing Diffusion Model to Improve Molecular Representation Learning

AI generates high-quality images 30 times faster in a single step

How four artists used AI to endlessly reimagine “Alice’s Adventures in Wonderland”

【已闭展】《行走的清明上河图》-深圳站

梵高全沉浸式艺术展

【网红必打卡】《偶遇—韦斯·安德森》中国首展深圳站