AI 艺术工具通讯

原创 Hugging Face 2025-02-20 17:30 广东

为您精选创意 AI 领域最新动态。在这个快速迭代的领域，我们愿做您的信息顾问，让创意工具触手可及。

创刊号 🎉

AI 领域的发展速度令人惊叹，回想一年前我们还在为生成正确手指数量的人像而苦苦挣扎的场景，恍如隔世 😂。

过去两年对开源模型和艺术创作工具而言具有里程碑意义。创意表达的 AI 工具从未像现在这般触手可及，然而这仅仅是冰山一角。让我们共同回顾 2024 年 AI 艺术领域的关键突破与创新工具，并展望 2025 年的发展趋势 (剧透预警 👀: 我们将启动月度资讯精选的订阅👇)。

2024 重大发布

2024 年哪些创意 AI 工具最引人注目？我们将重点盘点艺术创作领域的重要发布，特别关注文生图、视频生成等热门任务中的开源进展。

图像生成

自初代 Stable Diffusion 掀起开源文生图浪潮已逾两年，如今在文本到图像生成、图像编辑和可控生成领域，开源模型已能与闭源产品分庭抗礼。

文生图

2024 年见证了扩散模型的范式转变——从传统 U-Net 架构转向扩散 Transformer (DiT)，同时目标函数也进化为流匹配 (flow matching)。

技术速览: 扩散模型与高斯流匹配本质相通。流匹配通过不同的向量场参数化方式，为网络输出提供了新视角。

推荐阅读Google DeepMind 的技术博客，深入了解流匹配与扩散模型的关联。https://diffusionflow.github.io

实践进展: Stability AI 率先推出Stable Diffusion 3，而腾讯混元 DiT则成为首个开源的 DiT 架构模型。后续AuraFlow、Flux.1和Stable Diffusion 3.5延续了这一趋势。

Stable Diffusion 3https://hf.co/stabilityai/stable-diffusion-3-medium

腾讯混元 DiThttps://hf.co/Tencent-Hunyuan/HunyuanDiT

AuraFlowhttps://hf.co/fal/AuraFlow

Flux.1https://hf.co/black-forest-labs/FLUX.1-dev

Stable Diffusion 3.5https://hf.co/stabilityai/stable-diffusion-3.5-large

在开源图像生成模型的里程碑中，Flux.1的发布堪称革命性。该模型在多项基准测试中超越 Midjourney v6.0、DALL·E 3 (HD) 等闭源模型，刷新了开源模型的性能纪录。

Flux.1https://hf.co/black-forest-labs/FLUX.1-dev

个性化与风格化

图像模型的进步带动了个性化生成技术的飞跃。2022 年 8 月，Textual Inversion和DreamBooth等开创性工作实现了 向文生图模型注入概念，极大扩展了应用边界。这些技术催生了 LoRA 等改进方案，推动个性化生成进入新阶段。

Textual Inversionhttps://textual-inversion.github.io

DreamBoothhttps://dreambooth.github.io

然而，微调模型的质量受限于基础模型性能。Stable Diffusion XL (SDXL) 的发布为开源个性化生成树立新标杆，当前多数个性化方案仍基于 SDXL 架构。随着对扩散模型各组件语义角色的深入理解，我们不禁思考: 能否实现不进行额外繁琐优化的高质量生成？

Zero-shot 技术风暴来袭 ——2024 年见证了仅需 单张参考图 即可生成高质量人像的技术突破。IP-Adapter FaceID、InstantID、PhotoMaker等免训练方案展现出媲美微调模型的实力。

IP-Adapter FaceIDhttps://hf.co/spaces/multimodalart/Ip-Adapter-FaceID

InstantIDhttps://hf.co/spaces/InstantX/InstantID

PhotoMakerhttps://hf.co/spaces/TencentARC/PhotoMaker-V2

图像编辑与可控生成 (如边缘/深度/姿态控制) 也取得长足进步，这既得益于基础模型的发展，也源于社区对模型组件的深入理解 (Instant Style、B-LoRA)。

Instant Stylehttps://hf.co/spaces/InstantX/InstantStyle

B-LoRAhttps://hf.co/spaces/Yardenfren/B-LoRA

未来展望: 尽管 DiT 架构模型 (如 Flux、SD3.5) 已开始探索个性化的应用，但对 DiT 组件语义角色的理解尚不及 U-Net 深入。2025 年或将揭开 DiT 的组件奥秘，释放新一代图像模型的全部潜能。

视频生成

相较图像生成，视频生成仍任重道远。但必须承认，我们已取得显著进步。OpenAI 的 Sora 极大提升了行业预期，正如 fofr 在《AI 视频正迎来 Stable Diffusion 时刻》中所言——它让人们看到了可能性。

https://replicate.com/blog/ai-video-is-having-its-stable-diffusion-moment

近期开源视频模型的爆发 (CogVideoX、Mochi、Allegro、LTX Video、混元视频) 同样值得关注。视频生成面临画面动作是否自然、前后画面是否流畅、人物外观是否保持一致等多重挑战，加之计算资源需求巨大，导致生成延迟较高。尽管内存优化和量化技术可缓解硬件压力，但往往会影响生成的质量。尽管如此，开源社区仍在持续突破，最新进展可参阅开源视频生成模型现状。

CogVideoXhttps://hf.co/THUDM/CogVideoX-5b

Mochihttps://hf.co/genmo/mochi-1-preview

Allegrohttps://hf.co/rhymes-ai/Allegro

LTX Videohttps://hf.co/Lightricks/LTX-Video

混元视频https://hf.co/tencent/HunyuanVideo

开源视频生成模型现状https://hf.co/blog/video_gen

虽然多数用户仍难以本地运行视频模型，但这也预示着 2025 年将迎来更大突破。

音频生成

音频生成在过去一年突飞猛进，从制作简单的声音效果到创作完整的歌曲都取得了很大进步。尽管面临信号复杂度高、训练数据稀缺等挑战，2024 年仍涌现OuteTTS、IndicParlerTTS等开源语音合成模型，以及 OpenAI 的Whisper large v3 turbo语音识别模型。2025 年开年即迎来Kokoro、LLasa TTS、OuteTTS 0.3等语音模型，以及JASCO、YuE音乐模型的集中发布，预示着音频领域将迎来爆发年。

OuteTTShttps://hf.co/OuteAI/OuteTTS-0.2-500M

IndicParlerTTShttps://hf.co/ai4bharat/indic-parler-tts

Whisper large v3 turbohttps://hf.co/openai/whisper-large-v3-turbo

Kokorohttps://hf.co/hexgrad/Kokoro-82M

LLasa TTShttps://hf.co/HKUSTAudio/Llasa-3B

OuteTTS 0.3https://hf.co/OuteAI/OuteTTS-0.3-1B

JASCOhttps://hf.co/models?search=jasco

YuEhttps://hf.co/m-a-p/YuE-s1-7B-anneal-en-cot

下方歌曲由 YuE 生成🤯

来自Hugging Face音频：AI 艺术工具通讯 | yue.mp3