Remade AI 开源 8 款 Wan2.1 特效 LoRA；谷歌 Gemma 3 甩开同参数模型一条街；视频生成与编辑模型

原创小茸茸 2025-03-13 09:30 重庆

谷歌 Gemini 2.0 Flash 原生图像生成功能正式开放；Hugging Face 发布 Open R1 第三弹更新：编程领域新突破；阿里通义 VACE：All-in-One 视频生成与编辑模型

谷歌的 Gemini 2.0 Flash 的原生图像生成功能现已正式开放。该功能首次测试于 2024 年 12 月，现在，开发者可以通过 API 或 AI Studio 的界面测试 Gemini 2.0 Flash EXP 模型的图像生成和编辑功能。

与 Stable Diffusion、Flux 不同，Gemini 2.0 Flash EXP 模型不仅能够通过自然语言生成图片，还能将图像与文本混合输出，甚至支持多轮对话，逐步调整和优化图像。

更多细节可以在谷歌博客查看完整公告^[1]

谷歌官方博客: https://developers.googleblog.com/zh-hans/experiment-with-gemini-20-flash-native-image-generation/

Remade AI 最近开源了8 款 Wan2.1 的特效 LoRAs^[2] ，这些特效包括捏捏乐、3D 旋转、膨胀、切割、漏气、液压机、肌肉和举枪。

有一说一，可以用来搞一个国内版本的 Pika 了！

8 款 Wan2.1 的特效 LoRAs 详情: https://huggingface.co/collections/Remade-AI/wan21-14b-480p-i2v-loras-67d0e26f08092436b585919b

Open R1: 第三弹更新是由 Hugging Face 的 Open R1 项目团队发布的最新进展报告，旨在分享他们对 DeepSeek-R1 的完全开源复刻工作的最新成果。

本次更新聚焦于编程领域，主要是发布了一些新的数据集、基准测试以及媲美 R1 的编程模型 OlympicCoder。

完整细节请看官方博客^[3]。

Open R1 第三弹更新官方博客: https://huggingface.co/blog/open-r1/update-3

谷歌昨日发布了 Gemma 3 模型，该模型支持多达 140 种语言，拥有高达 128k 个令牌的上下文窗口，能够处理文本和图像并生成相应的文本输出。性能更是甩开同参数模型一条街。

Gemma 3 提供四种参数规模，其中的 27B 模型官方号称是单 GPU 或 TPU 上性能最强的开源模型，其性能可与 671B 的 DeepSeekV3 相媲美。

查看细节可以看谷歌官方博客^[4]，模型现已可在 AI Studio 上使用，同时也可以用Ollama 自部署。

Gemma3 官方博客: https://developers.googleblog.com/en/introducing-gemma3/

VACE^[5] 是阿里通义团队发布的一款 All-in-One 视频生成和编辑模型，它在一个模型内集成了多种功能，包括：

Move-Anything：轻松移动视频中的任何元素，无论是人物、物体还是背景。

Swap-Anything：交换视频中的任何元素，实现创意无限的视频编辑。

Reference-Anything：引用任何元素进行视频创作，提升创作的灵活性和多样性。

Expand-Anything：扩展视频内容，增加视频的丰富性和深度。

Animate-Anything：为任何元素添加动画效果，让视频更加生动和有趣。

此外，VACE 还支持视频重渲染，能够在保留内容、结构、主体、姿态和动作的同时，对视频进行高质量的重新渲染。

目前，VACE 的论文已经发布，代码也即将开源，看起来非常值得期待！关注我，为你持续跟进最新动态哈！

VACE 官网: https://ali-vilab.github.io/VACE-Page/

❝
如果你喜欢《一觉醒来 AI 界发生了什么》系列的话，请关注、点赞、在看、收藏、分享五连警告，这对我真的很重要！

Fish AI Reader