开源单图跳舞视频；功能强大的生图模型正式开源；Gemini 2.0性能翻倍，多模态输出强大；谷歌发布多款 AI Agent 项目

原创小茸茸 2024-12-12 09:25 重庆

StableAnimator：开源的单图跳舞视频生成技术；OneDiffusion：功能强大的生图模型正式开源；谷歌推出 Gemini 2.0 Flash Experimental：性能翻倍，多模态输出更强大；谷歌发布AI Agent 项目

StableAnimator^[1] 是一种基于单张图片生成跳舞视频的技术。通过输入一张参考图片和一个姿势视频，StableAnimator 能够合成高质量的视频，并保持人物身份的一致性。这又是一个类似 Animate Anyone 的技术，代码完全开源，有兴趣的可以关注下。

OneDiffusion^[2] 是一个之前介绍过的多功能生图模型，其能力非常强大，支持文生图、ID 一致性、单图生多视角、文生多视角等多种功能。现在已经可以在 GitHub^[3] 上访问源码了，推荐你们都看看！

Gemini 2.0 Flash Experimental^[4]，这款模型不仅在性能上超越了 1.5 Pro，速度更是其两倍, 大模型竞技场中排名第三，并实现了原生图片和音频的多模态输出。

在性能方面，Gemini 2.0 Flash 改进了多模态、文本、代码、视频、空间理解和推理性能。

输出方面，支持生成包括文本、音频和图像，并能混合输出。

此外，它还支持原生调用 Google 搜索和代码执行等工具，以及通过多模态实时 API 集成摄像头或屏幕共享，实现实时多模态应用，支持自然对话，随时打断，功能非常强大。

现在，可以在 AI Studio 中使用了，完整内容可以看公告。

谷歌在发布 Flash2.0 的同时，还更新和宣布了多款 AI Agent 项目，包括：

更新了今年 I/O 大会上的 Project Astra^[5]，这是一个能够理解用户环境背景的通用 AI 助手。

发布了 Project Mariner^[6]，这是一个借助浏览器完成复杂任务的 AI Agent。

发布了 Jules^[7]，这是一个为开发者提供的编程代理。

还有适用于游戏和其他领域^[8]的 Agent。

看来，2025 年似乎将会是谷歌的 Agent 元年！

❝
如果你喜欢《一觉醒来 AI 界发生了什么》系列的话，请关注、点赞、在看、收藏、分享五连警告，这对我真的很重要！

Reference

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

Fish AI Reader