AI 美女全军覆没：赛博照妖镜下集体变“鬼”，AI 代码拆台 AI 生图

IT之家 2024年08月12日

AI 美女全军覆没：赛博照妖镜下集体变“鬼”，AI 代码拆台 AI 生图

随着 AI 生成图像技术的进步，AI 人像的逼真程度已经让人难以分辨真假。最近，一个名为“赛博照妖镜”的工具出现，它可以利用图像饱和度等方法揭露 AI 生成的图片，让那些看似完美的 AI 美女“现出原形”。该工具利用 AI 图像生成技术的缺陷，通过调整图像饱和度，使得 AI 生成的图片中出现明显的特征，例如牙齿模糊、色块不均匀、麦克风异常等，从而帮助用户识别真假人像。

😱 **AI 图像的“致命缺陷”**：AI 图像生成技术虽然进步迅速，但仍存在一些难以克服的缺陷，例如在处理细节、光线、阴影等方面与真实图像存在差异。这些缺陷可以成为识别 AI 图像的关键特征。

🕵️‍♀️ **“赛博照妖镜”的原理**：该工具通过调整图像饱和度，放大 AI 图像生成技术在细节处理方面的缺陷。例如，将图像饱和度拉满，AI 人像的牙齿就会变得模糊不清，整体图片的颜色也会出现异常。

🔍 **识别 AI 图像的多种方法**：除了调整饱和度，还有其他方法可以识别 AI 图像，例如观察文字、花纹细节、人物眼神等，以及分析图像中的光线、阴影等信息。

🤖 **AI 与人类的“猫鼠游戏”**：AI 生成的图像与真假人像之间的辨别，就像一场“猫鼠游戏”。随着 AI 技术的不断发展，识别方法也会不断更新，这将是一场持久的博弈。

💡 **AI 检测技术的未来**：除了依靠人类的肉眼识别，还可以利用 AI 检测技术，通过分析图像的频谱、噪声分布等特征，来更准确地识别 AI 图像。但 AI 检测技术也需要不断发展，才能跟上 AI 图像生成技术的进步。

赛博照妖镜下，AI 美女全变鬼。

来看它的牙。

把图像饱和度拉满，AI 人像的牙齿就会变得非常诡异，边界模糊不清。整体图片的颜色也正常，麦克风部分更是奇怪。

对比真实人类照片，则应该是这样的。牙齿是清晰的，图片色块都是均匀一致的。

这个工具已经开放，人人都能拿着照片去试试。AI 生成视频中的某一帧，也难逃此大法。

不漏牙的照片也会暴露问题。

不过 BTW，这个工具出自 Claude 之手。用 AI 破解 AI，奇妙的闭环。

有一说一，最近 AI 人像太逼真又引发了不小讨论，比如一组大火的“TED 演讲者视频”，其实没有一个是真人。

不只是人脸难以区分，就连之前 AI 的短板 —— 写字，现在都能完全以假乱真。

更关键的是，生成这样的 AI 人像，成本也不高。低至 5 分钟、每 20 秒 1.5 美元（人民币 10 块左右）的价格即可搞定。

这下网友们都坐不住了，纷纷搞起 AI 打假大赛。近 5 千人来讨论，这两张图到底哪张是真人。

给出的理由五花八门。有人发现文字、花纹细节很抽象，有人则觉得人物眼神很空洞……

最先进的 AI 们生成人像有啥规律，逐渐被大家摸索出来了。

不看细节已很难分辨

汇总来看，调整饱和度或许是目前最快速辨别的方法。AI 群像照在这种方法下暴露得更加彻底。

不过它存在一个问题。如果图像用 JPEG 算法压缩过后，该方法可能失效。

比如确定这张照片是真人照片。

但是由于画质压缩以及光线等问题，人物牙齿也有点模糊。

所以网友们还列出了更多分辨人像是否是 AI 合成的方法。

第一种方法，简单说就是依靠人类的知识判断。

由于 AI 学习图像的方式和人类并不一致，难免无法 100% 掌握人类视角下的视觉信息。造成的结果就是，AI 生成的图片常常包含与现实世界不符之处，这就为图像的鉴别提供了着手之处。

用开头的这张图片作为例子。

从整体上看，人物的皮肤过于光滑，看不到任何的毛孔，这种过于完美的特征反而增加了不真实感。

当然这种“不真实感”并不完全等同于“造假”，毕竟经过磨皮处理的图片同样看不到毛孔。但这也并非唯一的判断因素，AI 在图片中留下的与常识的出入也未必只有一处。

实际上，这张图只要稍微看以下细节，就能看到一个比较明显的特征 —— 胸牌上方挂钩奇特的连接方式。

还有在高饱和度模式下露出破绽的麦克风，放大之后直接用肉眼也能看出端倪。

更为隐蔽的是，头发末端有几根毛发的位置很不合理，但这样的特征，恐怕要拥有列文虎克级别的视力才能看到了。

不过，随着生成技术的进步，能够找到的特征越来越隐蔽，也是一个无法避免的趋势。

还有一种方法是看文字，虽然 AI 在字型的刻画上正逐渐克服“鬼画符”的问题，但正确地渲染出有正确实际含义的文字还存在一些困难。

比如有网友发现，照片中的人佩戴的胸牌上，Google 标志的下方最后一行字中的两个字母是“CA”，表示美国加州，前面的一大长串应该是城市名。

但实际上，加州根本没有名字如此之长的城市。

除了这些物体本身的细节，还有光线、阴影等信息也可以用来判断真伪。

这张图片是从一段视频当中提取的，在它所在的视频当中还有这样的一帧。在话筒右侧的位置，有一片十分诡异的阴影，这片阴影对应的是人物的一只手，显然 AI 在这里处理得有所欠缺。

说到视频，由于涉及前后内容一致性，AI 倒是比在静态图像中更容易露出鸡脚马脚。

还有一些特征不算“常识错误”，但也体现出了 AI 在生成图像时的一些偏好。

比如这四张图，都是 AI 合成的“普通人”（average people），有没有发现什么共同之处？

有网友表示，这四张图里的人，没有一个是笑脸，这点似乎就体现了 AI 生图的某种特征。

针对这几张图而言确实如此，但这样的判断方式很难形成系统，毕竟不同的 AI 绘图工具，特点也都不尽相同。

总之，为了应对逐渐进步的 AI，一方面可以加大“列文虎克”的力度，一方面还可以引入像拉高饱和度这样的图像处理技术。

但如果这样的“量变”积累得越来越多，肉眼判断也会越来越困难，图像饱和度可能也有被 AI 攻破的一天。所以人们也在转变思路，想到了“以模制模”的方法，用 AI 生成的图片训练检测模型，从图像中分析更多特征。

比如 AI 生成的图像在频谱、噪声分布等方面存在许多特点，这些特点依靠肉眼无法捕捉，但 AI 却能看得很清楚。

当然，也不排除检测方法落后、跟不上模型变化，甚至模型开发者专门进行对抗性开发的可能。比如前文一直在讨论的这张图片，某 AI 检测工具认为它是 AI 合成的概率只有 2%。

但 AI 造假和 AI 检测之间的博弈过程，本身就是一场“猫鼠游戏”。

所以在检测之外，可能还需要模型的开发者也负起一些责任，例如给 AI 生成的图片打上隐形水印，让 AI 造假无处遁形。

AI 魔高一尺

值得一提的是，如上引发恐慌的 AI 人像，不少都是由最近爆火的 Flux 生成 / 参与制作。甚至大家已经开始默认，效果太好难以分辨的，就是 Flux 做的。

它由 Stable Diffusion 原班人马打造，发布才 10 天就在网络上掀起轩然大波。

这些精美的假 TED 演讲照片，都是出自它手。

还有人用 Flux 和 Gen-3 一起做出了精美的护肤品广告。

以及多角度的各种合成效果。

它很好解决了 AI 画手、AI 生成图片中文字等问题。

这直接导致现在人类区分 AI 画图，不能再直接看手和文字了，只能盯着蛛丝马迹猜。

Flux 应该是在手部、文字等指标上加强了训练。这也意味着，如果当下的 AI 继续在纹理细节、色彩等方面下功夫训练，等到下一代 AI 画图模型出来时，人类的辨认方法可能又要失效了……

而且 Flux 还是开源、笔记本电脑上可运行的。不少人现在已经在 Forget Midjourney 了。

从 Stable Diffusion 到 Flux，用了 2 年。从“威尔史密斯吃面条”到“Tedx 演讲者”，用了 1 年。

真不知道以后为了分辨 AI 生成，人类得想出哪些歪招了……

参考链接：

[1]https://x.com/ChuckBaggett/status/1822686462044754160
[2]https://www.reddit.com/r/artificial/comments/1epjlbl/average_looking_people/
[3]https://www.reddit.com/r/ChatGPT/comments/1epeshq/these_are_all_ai/
[4]https://x.com/levelsio/status/1822751995012268062

本文来自微信公众号：量子位（ID：QbitAI），作者：明敏、克雷西，原标题《AI 美女全军覆没！赛博照妖镜下集体变“鬼”，AI 代码拆台 AI 生图》

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI 人像图像识别 AI 检测赛博照妖镜 Flux

相关文章

OpenAI据悉正开发AI语音助手

Deep Learning for Live-Cell Imaging with David Van Valen - TWiML Talk #141

Enhancing Self-Supervised Learning with Automatic Data Curation: A Hierarchical K-Means Approach

Advancing Machine Learning with KerasCV and KerasNLP: A Comprehensive Overview

Show HN: 从折线图图像中提取数据

Show HN: EndType - 从图像、视频和 PDF 中提取结构化数据

新的摄像头设计可以更快地识别威胁，使用更少的内存

Down Jacket - Polar Parka

最新科研成果——李信大将军戏耍全图透视人机

Null (Nyanpyoun) Style / スタイル