原创 小茸茸 2024-12-12 09:25 重庆
StableAnimator:开源的单图跳舞视频生成技术;OneDiffusion:功能强大的生图模型正式开源;谷歌推出 Gemini 2.0 Flash Experimental:性能翻倍,多模态输出更强大;谷歌发布AI Agent 项目
StableAnimator:开源的单图跳舞视频生成技术
StableAnimator[1] 是一种基于单张图片生成跳舞视频的技术。通过输入一张参考图片和一个姿势视频,StableAnimator 能够合成高质量的视频,并保持人物身份的一致性。这又是一个类似 Animate Anyone 的技术,代码完全开源,有兴趣的可以关注下。
OneDiffusion:功能强大的生图模型正式开源
OneDiffusion[2] 是一个之前介绍过的多功能生图模型,其能力非常强大,支持文生图、ID 一致性、单图生多视角、文生多视角等多种功能。现在已经可以在 GitHub[3] 上访问源码了,推荐你们都看看!
谷歌推出 Gemini 2.0 Flash Experimental:性能翻倍,多模态输出更强大
Gemini 2.0 Flash Experimental[4],这款模型不仅在性能上超越了 1.5 Pro,速度更是其两倍, 大模型竞技场中排名第三,并实现了原生图片和音频的多模态输出。
在性能方面,Gemini 2.0 Flash 改进了多模态、文本、代码、视频、空间理解和推理性能。
输出方面,支持生成包括文本、音频和图像,并能混合输出。
此外,它还支持原生调用 Google 搜索和代码执行等工具,以及通过多模态实时 API 集成摄像头或屏幕共享,实现实时多模态应用,支持自然对话,随时打断,功能非常强大。
现在,可以在 AI Studio 中使用了,完整内容可以看公告。
谷歌发布多款 AI Agent 项目
谷歌在发布 Flash2.0 的同时,还更新和宣布了多款 AI Agent 项目,包括:
更新了今年 I/O 大会上的 Project Astra[5],这是一个能够理解用户环境背景的通用 AI 助手。
发布了 Project Mariner[6],这是一个借助浏览器完成复杂任务的 AI Agent。
发布了 Jules[7],这是一个为开发者提供的编程代理。
还有适用于游戏和其他领域[8]的 Agent。
看来,2025 年似乎将会是谷歌的 Agent 元年!
❝如果你喜欢《一觉醒来 AI 界发生了什么》系列的话,请 关注、点赞、在看、收藏、分享 五连警告,这对我真的很重要!
Reference
[1]
StableAnimator 技术官网: https://francis-rings.github.io/StableAnimator/
[2]OneDiffusion 官网: https://sanhua.himrr.com/news/2e14a48c-4f8f-42b5-8eb9-09d1f90bf88a
[3]OneDiffusion GitHub 仓库: https://github.com/lehduong/OneDiffusion
[4]Gemini 2.0 Flash Experimental 官方公告: https://developers.googleblog.com/en/the-next-chapter-of-the-gemini-era-for-developers/
[5]Project Astra 官网: https://deepmind.google/technologies/project-astra/
[6]Project Mariner 官网: https://deepmind.google/technologies/project-mariner/
[7]Jules 官网: https://labs.google.com/jules/
[8]谷歌实验室: https://labs.google/