本文精选了2024年创意AI领域的最新进展,涵盖图像生成、视频生成、音频生成等多个方面。文章重点介绍了开源模型在图像生成领域的突破,如Flux.1、Zero-shot技术等;同时,也关注了视频和音频生成领域的进展,并展望了2025年的发展趋势,预测开源社区将在视频、动态与音频模型领域取得更大突破。文章还推荐了一些优秀的开源工具,并预告了未来将每月发布AI艺术领域资讯。
🎉图像生成领域:2024年见证了扩散模型的革新,从U-Net架构转向DiT架构,同时流匹配技术也为网络输出提供了新视角。开源模型在文本到图像生成、图像编辑和可控生成领域取得了显著进展,如Flux.1模型在多项基准测试中超越了Midjourney v6.0等闭源模型。
💡个性化与风格化:个性化生成技术取得了显著进步,Zero-shot技术仅需单张参考图即可生成高质量人像,IP-Adapter FaceID、InstantID、PhotoMaker等免训练方案展现出媲美微调模型的实力。SDXL的发布为开源个性化生成树立了新标杆。
🎥视频与音频生成:虽然视频生成仍面临挑战,但开源社区也在持续突破,CogVideoX、Mochi、Allegro等模型值得关注。音频生成在过去一年突飞猛进,涌现了OuteTTS、IndicParlerTTS等开源语音合成模型,以及Whisper large v3 turbo语音识别模型。
🛠️开源工具亮点:文章介绍了Flux、Face to All、Flux 风格塑形、智能图像外扩等众多创意工具,这些工具基于社区协作,推动了AI艺术的发展。同时,2025年将是开源社区在视频、动态与音频模型领域迎头赶上的一年。
🔮未来展望:2025年,开源社区有望在视频、动态与音频模型领域取得更大突破。随着高效计算与量化技术的突破,开源视频模型有望实现跨越式发展。多模态创新将成为关注焦点,并推荐了YuE音乐生成模型等。
📢资讯发布:从本期开始,将每月发布创意AI领域最新动态,为读者提供及时的信息服务。
原创 Hugging Face 2025-02-20 17:30 广东
为您精选创意 AI 领域最新动态。在这个快速迭代的领域,我们愿做您的信息顾问,让创意工具触手可及。

创刊号 🎉
AI 领域的发展速度令人惊叹,回想一年前我们还在为生成正确手指数量的人像而苦苦挣扎的场景,恍如隔世 😂。
过去两年对开源模型和艺术创作工具而言具有里程碑意义。创意表达的 AI 工具从未像现在这般触手可及,然而这仅仅是冰山一角。让我们共同回顾 2024 年 AI 艺术领域的关键突破与创新工具,并展望 2025 年的发展趋势 (剧透预警 👀: 我们将启动月度资讯精选的订阅👇)。

2024 重大发布
2024 年哪些创意 AI 工具最引人注目?我们将重点盘点艺术创作领域的重要发布,特别关注文生图、视频生成等热门任务中的开源进展。
2024 年重要时刻时间轴图像生成
自初代 Stable Diffusion 掀起开源文生图浪潮已逾两年,如今在文本到图像生成、图像编辑和可控生成领域,开源模型已能与闭源产品分庭抗礼。
手指生成梗图文生图
Flux 模型效果展示2024 年见证了扩散模型的范式转变——从传统 U-Net 架构转向扩散 Transformer (DiT),同时目标函数也进化为流匹配 (flow matching)。
技术速览: 扩散模型与 高斯 流匹配本质相通。流匹配通过不同的向量场参数化方式,为网络输出提供了新视角。
实践进展: Stability AI 率先推出Stable Diffusion 3,而腾讯混元 DiT则成为首个开源的 DiT 架构模型。后续AuraFlow、Flux.1和Stable Diffusion 3.5延续了这一趋势。
在开源图像生成模型的里程碑中,Flux.1的发布堪称革命性。该模型在多项基准测试中超越 Midjourney v6.0、DALL·E 3 (HD) 等闭源模型,刷新了开源模型的性能纪录。
Flux.1https://hf.co/black-forest-labs/FLUX.1-dev
个性化与风格化
图像模型的进步带动了个性化生成技术的飞跃。2022 年 8 月,Textual Inversion和DreamBooth等开创性工作实现了 向文生图模型注入概念,极大扩展了应用边界。这些技术催生了 LoRA 等改进方案,推动个性化生成进入新阶段。
个性化技术对比然而,微调模型的质量受限于基础模型性能。Stable Diffusion XL (SDXL) 的发布为开源个性化生成树立新标杆,当前多数个性化方案仍基于 SDXL 架构。随着对扩散模型各组件语义角色的深入理解,我们不禁思考: 能否实现不进行额外繁琐优化的高质量生成?
Zero-shot 技术风暴来袭 ——2024 年见证了仅需 单张参考图 即可生成高质量人像的技术突破。IP-Adapter FaceID、InstantID、PhotoMaker等免训练方案展现出媲美微调模型的实力。
InstantID 效果展示图像编辑与可控生成 (如边缘/深度/姿态控制) 也取得长足进步,这既得益于基础模型的发展,也源于社区对模型组件的深入理解 (Instant Style、B-LoRA)。
未来展望: 尽管 DiT 架构模型 (如 Flux、SD3.5) 已开始探索个性化的应用,但对 DiT 组件语义角色的理解尚不及 U-Net 深入。2025 年或将揭开 DiT 的组件奥秘,释放新一代图像模型的全部潜能。
视频生成
相较图像生成,视频生成仍任重道远。但必须承认,我们已取得显著进步。OpenAI 的 Sora 极大提升了行业预期,正如 fofr 在《AI 视频正迎来 Stable Diffusion 时刻》中所言——它让人们看到了可能性。
https://replicate.com/blog/ai-video-is-having-its-stable-diffusion-moment
近期开源视频模型的爆发 (CogVideoX、Mochi、Allegro、LTX Video、混元视频) 同样值得关注。视频生成面临画面动作是否自然、前后画面是否流畅、人物外观是否保持一致等多重挑战,加之计算资源需求巨大,导致生成延迟较高。尽管内存优化和量化技术可缓解硬件压力,但往往会影响生成的质量。尽管如此,开源社区仍在持续突破,最新进展可参阅开源视频生成模型现状。
虽然多数用户仍难以本地运行视频模型,但这也预示着 2025 年将迎来更大突破。
音频生成
音频生成在过去一年突飞猛进,从制作简单的声音效果到创作完整的歌曲都取得了很大进步。尽管面临信号复杂度高、训练数据稀缺等挑战,2024 年仍涌现OuteTTS、IndicParlerTTS等开源语音合成模型,以及 OpenAI 的Whisper large v3 turbo语音识别模型。2025 年开年即迎来Kokoro、LLasa TTS、OuteTTS 0.3等语音模型,以及JASCO、YuE音乐模型的集中发布,预示着音频领域将迎来爆发年。
下方歌曲由 YuE 生成🤯
来自Hugging Face音频:AI 艺术工具通讯 | yue.mp3
2024 闪耀创工具
开源之美在于集社区之力探索模型新可能。本年度众多创意工具正是这种协作精神的结晶:
Flux fine-tuning
ostris开发的AI 工具包助力社区创作出惊艳的Flux 微调模型。
Face to All
受face-to-many启发,Face to All将爆款模型Instant ID与深度 ControlNet、社区微调的 SDXL LoRA 结合,实现免训练的高质量风格化人像生成。
Face to All 效果展示Flux 风格塑形
基于Nathan Shipley的 ComfyUI 工作流,Flux 风格塑形通过融合 Flux [dev] Redux 与 Depth 模型,实现风格迁移与视错觉创作。
风格塑形效果智能图像外扩
Diffusers Image Outpaint利用 SDXL Fill Pipeline 与联合 ControlNet,实现无缝图像外扩。
https://hf.co/spaces/fffiloni/diffusers-image-outpaint
动态人像
Live Portrait与Face Poke让静态人像瞬间动起来。
TRELLIS 3D 引擎
TRELLIS以惊艳效果重塑 3D 生成格局,支持多样化高质量资产创建。
https://hf.co/spaces/JeffreyXiang/TRELLIS
IC Light
IC-Light通过前景条件实现智能光影重构。
https://hf.co/spaces/lllyasviel/IC-Light
2025 年 AI 艺术趋势展望
2025 年将是开源社区在视频、动态与音频模型领域迎头赶上的一年。随着高效计算与量化技术的突破,开源视频模型有望实现跨越式发展。当图像生成进入自然平台期,我们的目光将转向多模态创新。
强势开局: 2025 年 1 月开源新作
YuE 音乐生成模型
Apache 2.0 协议开源的YuE在音乐生成质量上比肩 Suno 等闭源产品,在线体验。
3D 生成三剑客
继 TRELLIS 之后,混元 3D-2、SPAR3D、DiffSplat持续革新 3D 生成领域。
Lumina-Image 2.0
这款 20 亿参数的文生图模型以 Apache 2.0 协议开源,性能比肩 80 亿参数的 Flux.1,在线体验。
ComfyUI 转 Gradio 指南
这份教程详细介绍了如何将复杂 ComfyUI 工作流转换为 Gradio 应用,并免费部署于 Hugging Face Spaces。
https://hf.co/blog/run-comfyui-workflows-on-spaces
开启资讯新时代 🗞️
从本期开始,我们 (Poli与Linoy) 将每月为您精选创意 AI 领域最新动态。在这个快速迭代的领域,我们愿做您的信息顾问,让创意工具触手可及。
英文原文:https://hf.co/blog/ai-art-newsletter-jan-25
原文作者: Linoy Tsaban, Apolinário from multimodal AI art
译者: yaoqih
阅读原文
跳转微信打开