原创 小茸茸 2024-10-11 09:17 重庆
北大、快手、北邮联合开源Pyramidal Flow 视频模型;T2V-Turbo-v2;PhysGen结合物理模拟视频模型;rhymes_ai推出Aria;DeepLearningAI & Meta联合教程;SunoAI 重唱
T2V-Turbo-v2:重登 VBench 榜首的开源视频生成模型
T2V-Turbo[1] 基于 VideoCrafter2,新发布的 V2 版本在视频基准测试 VBench 中重回榜首。其 VBench 性能总分达到 85.13,超越了 Gen-3 和 Kling 可灵等商业模型。不过,这个模型似乎只能生成 2 秒且帧数较低的视频,有点让人遗憾。
PhysGen:结合物理模拟的视频生成模型
PhysGen[2] 是一款能够根据用户定义的物理特性,如力或扭矩,生成视频的模型。从效果来看还有很长的路要走。
rhymes_ai 推出 Aria:首个 25.3B MoE 多模态模型
Aria[3] 是 rhymes_ai 推出的首个基于 MoE 架构的 25.3B 原生多模态模型,能够理解和处理图像及视频输入,并可在 A100(80GB)GPU 中直接运行。基于 Apache-2.0 许可证,Aria 可商用,并在多模态任务上表现出色,部分基准测试中甚至超越了 GPT-4o mini。
DeepLearningAI & Meta 联合推出 Llama 3.2 免费教程
由 DeepLearningAI 和 Meta 联合发布的免费教程[4],涵盖了 Llama 3.1 和 3.2 的内容,包括多模态提示工程、自定义工具调用以及 Llama Stack + 等。这个教程面向初学者,预计只需 1 小时即可学完,非常适合打算入门 Llama 的你。
SunoAI 推出重唱功能
SunoAI 现在为 Pro 以上订阅用户推出了重唱功能[5],允许用户选择部分音乐片段,重新编辑歌词或伴奏,并进行“重唱”。这个功能非常有趣,效果可以通过视频演示来查看,有点类似于图生图中的 inpaint 重绘,不过是音频版的。
北大、快手、北邮联合开源:Pyramidal Flow 视频生成模型
Pyramidal Flow[6] 是由北大、快手和北邮联合开源的新视频生成模型,支持文生视频和图生视频,最高可生成 24fps、1280x768 分辨率、长达 10 秒的视频。你可以直接在 ComfyUI 中安装 PyramidFlowWrapper 插件来使用它,需要 10-12GB 的 VRAM。
该模型在官方的 VBench 基准测试中,81.72 的总得分使其与众多商业模型并驾齐驱,虽然得分略低于今天的 T2V-Turbo-v2,但主观上我认为这个模型的生成效果更佳。
❝如果你喜欢《一觉醒来 AI 界发生了什么》系列的话,请 关注、点赞、在看、收藏、分享 五连警告,这对我真的很重要!
Reference
[1]
T2V-Turbo 官网: https://huggingface.co/spaces/TIGER-Lab/T2V-Turbo-V2
[2]PhysGen 模型: https://github.com/stevenlsw/physgen
[3]Aria 多模态模型: https://www.rhymes.ai/blog-details/aria-first-open-multimodal-native-moe-model
[4]DeepLearningAI 和 Meta 联合发布的免费教程: https://www.deeplearning.ai/short-courses/introducing-multimodal-llama-3-2
[5]重唱功能: https://x.com/suno_ai_/status/1844164083844882812
[6]Pyramidal Flow 官网: https://huggingface.co/spaces/Pyramid-Flow/pyramid-flow