三花AI 03月13日
Remade AI 开源 8 款 Wan2.1 特效 LoRA;谷歌 Gemma 3 甩开同参数模型一条街;视频生成与编辑模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文概括了近期AI领域的多个重要进展。谷歌Gemini 2.0 Flash开放原生图像生成功能,支持图文混合输出和多轮对话;Remade AI开源8款Wan2.1特效LoRA,或可用于开发国内版Pika;Hugging Face发布Open R1第三弹更新,聚焦编程领域,推出媲美R1的编程模型OlympicCoder;谷歌发布Gemma 3模型,性能强大,支持多种语言和长上下文;阿里通义发布VACE模型,集视频生成与编辑功能于一体,支持移动、交换、引用、扩展和动画处理视频元素,以及视频重渲染。

🖼️谷歌 Gemini 2.0 Flash 原生图像生成功能正式开放,开发者可通过API或AI Studio测试图像生成和编辑功能,该模型不仅支持自然语言生成图片,还能将图像与文本混合输出,甚至支持多轮对话,逐步调整和优化图像。

✨Remade AI 开源 8 款 Wan2.1 的特效 LoRA,包括捏捏乐、3D 旋转、膨胀、切割、漏气、液压机、肌肉和举枪等特效,这些特效LoRA可以用来开发类似Pika的工具。

💻Hugging Face 发布 Open R1 第三弹更新,聚焦编程领域,发布了一些新的数据集、基准测试以及媲美 R1 的编程模型 OlympicCoder。

🎬阿里通义 VACE 是一款 All-in-One 视频生成和编辑模型,集成了Move-Anything、Swap-Anything、Reference-Anything、Expand-Anything和Animate-Anything等多种功能,还支持视频重渲染,代码即将开源。

原创 小茸茸 2025-03-13 09:30 重庆

谷歌 Gemini 2.0 Flash 原生图像生成功能正式开放;Hugging Face 发布 Open R1 第三弹更新:编程领域新突破;阿里通义 VACE:All-in-One 视频生成与编辑模型

谷歌 Gemini 2.0 Flash 原生图像生成功能正式开放

谷歌的 Gemini 2.0 Flash 的原生图像生成功能现已正式开放。该功能首次测试于 2024 年 12 月,现在,开发者可以通过 API 或 AI Studio 的界面测试 Gemini 2.0 Flash EXP 模型的图像生成和编辑功能。

与 Stable Diffusion、Flux 不同,Gemini 2.0 Flash EXP 模型不仅能够通过自然语言生成图片,还能将图像与文本混合输出,甚至支持多轮对话,逐步调整和优化图像。

更多细节可以在谷歌博客查看完整公告[1]

谷歌官方博客: https://developers.googleblog.com/zh-hans/experiment-with-gemini-20-flash-native-image-generation/

Remade AI 开源 8 款 Wan2.1 特效 LoRA

Remade AI 最近开源了8 款 Wan2.1 的特效 LoRAs[2] ,这些特效包括捏捏乐、3D 旋转、膨胀、切割、漏气、液压机、肌肉和举枪。

有一说一,可以用来搞一个国内版本的 Pika 了!

8 款 Wan2.1 的特效 LoRAs 详情: https://huggingface.co/collections/Remade-AI/wan21-14b-480p-i2v-loras-67d0e26f08092436b585919b

Hugging Face 发布 Open R1 第三弹更新:编程领域新突破

Open R1: 第三弹更新是由 Hugging Face 的 Open R1 项目团队发布的最新进展报告,旨在分享他们对 DeepSeek-R1 的完全开源复刻工作的最新成果。

本次更新聚焦于编程领域,主要是发布了一些新的数据集、基准测试以及媲美 R1 的编程模型 OlympicCoder。

完整细节请看官方博客[3]

Open R1 第三弹更新官方博客: https://huggingface.co/blog/open-r1/update-3

谷歌 Gemma 3: 甩开同参数模型一条街

谷歌昨日发布了 Gemma 3 模型,该模型支持多达 140 种语言,拥有高达 128k 个令牌的上下文窗口,能够处理文本和图像并生成相应的文本输出。性能更是甩开同参数模型一条街。

Gemma 3 提供四种参数规模,其中的 27B 模型官方号称是单 GPU 或 TPU 上性能最强的开源模型,其性能可与 671B 的 DeepSeekV3 相媲美。

查看细节可以看谷歌官方博客[4],模型现已可在 AI Studio 上使用,同时也可以用Ollama 自部署。

Gemma3 官方博客: https://developers.googleblog.com/en/introducing-gemma3/

阿里通义 VACE:All-in-One 视频生成与编辑模型

VACE[5] 是阿里通义团队发布的一款 All-in-One 视频生成和编辑模型,它在一个模型内集成了多种功能,包括:

此外,VACE 还支持视频重渲染,能够在保留内容、结构、主体、姿态和动作的同时,对视频进行高质量的重新渲染。

目前,VACE 的论文已经发布,代码也即将开源,看起来非常值得期待!关注我,为你持续跟进最新动态哈!

VACE 官网: https://ali-vilab.github.io/VACE-Page/

如果你喜欢《一觉醒来 AI 界发生了什么》系列的话,请 关注点赞在看收藏分享 五连警告,这对我真的很重要

现在加入 AI 日报群,不会漏掉消息嗷


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Gemini 2.0 Open R1 VACE AI模型
相关文章