三花AI 2024年10月21日
Llama 3.2 免费教程;首个 25.3B MoE 多模态模型;重登 VBench 榜首开源视频模型;Suno 重唱功能
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

文章介绍了多种AI视频模型及相关内容,包括T2V-Turbo-v2在VBench中重回榜首但有局限性,PhysGen结合物理模拟生成视频,rhymes_ai推出的Aria多模态模型,DeepLearningAI与Meta的联合教程,SunoAI的重唱功能,以及北大、快手、北邮联合开源的Pyramidal Flow视频模型。

🧐T2V-Turbo-v2是基于VideoCrafter2的开源视频生成模型,V2版本在VBench中重回榜首,性能总分达85.13,超越部分商业模型,但只能生成2秒且帧数较低的视频。

🤖PhysGen是结合物理模拟的视频生成模型,能根据用户定义的物理特性生成视频,但效果仍有提升空间。

🎥rhymes_ai推出的首个25.3B MoE多模态模型Aria,能理解和处理图像及视频输入,可在A100(80GB)GPU中直接运行,在多模态任务上表现出色,部分基准测试中超越GPT-4o mini。

📚DeepLearningAI与Meta联合发布免费教程,涵盖Llama 3.1和3.2的内容,包括多模态提示工程等,适合初学者,1小时可学完。

🎵SunoAI为Pro以上订阅用户推出重唱功能,用户可选择音乐片段重新编辑歌词或伴奏并进行‘重唱’,效果类似音频版inpaint重绘。

🎬北大、快手、北邮联合开源的Pyramidal Flow视频生成模型,支持文生视频和图生视频,可生成24fps、1280x768分辨率、长达10秒的视频,在VBench基准测试中表现不俗。

原创 小茸茸 2024-10-11 09:17 重庆

北大、快手、北邮联合开源Pyramidal Flow 视频模型;T2V-Turbo-v2;PhysGen结合物理模拟视频模型;rhymes_ai推出Aria;DeepLearningAI & Meta联合教程;SunoAI 重唱

T2V-Turbo-v2:重登 VBench 榜首的开源视频生成模型

T2V-Turbo[1] 基于 VideoCrafter2,新发布的 V2 版本在视频基准测试 VBench 中重回榜首。其 VBench 性能总分达到 85.13,超越了 Gen-3 和 Kling 可灵等商业模型。不过,这个模型似乎只能生成 2 秒且帧数较低的视频,有点让人遗憾。

PhysGen:结合物理模拟的视频生成模型

PhysGen[2] 是一款能够根据用户定义的物理特性,如力或扭矩,生成视频的模型。从效果来看还有很长的路要走。

rhymes_ai 推出 Aria:首个 25.3B MoE 多模态模型

Aria[3] 是 rhymes_ai 推出的首个基于 MoE 架构的 25.3B 原生多模态模型,能够理解和处理图像及视频输入,并可在 A100(80GB)GPU 中直接运行。基于 Apache-2.0 许可证,Aria 可商用,并在多模态任务上表现出色,部分基准测试中甚至超越了 GPT-4o mini。

DeepLearningAI & Meta 联合推出 Llama 3.2 免费教程

由 DeepLearningAI 和 Meta 联合发布的免费教程[4],涵盖了 Llama 3.1 和 3.2 的内容,包括多模态提示工程、自定义工具调用以及 Llama Stack + 等。这个教程面向初学者,预计只需 1 小时即可学完,非常适合打算入门 Llama 的你。

SunoAI 推出重唱功能

SunoAI 现在为 Pro 以上订阅用户推出了重唱功能[5],允许用户选择部分音乐片段,重新编辑歌词或伴奏,并进行“重唱”。这个功能非常有趣,效果可以通过视频演示来查看,有点类似于图生图中的 inpaint 重绘,不过是音频版的。

北大、快手、北邮联合开源:Pyramidal Flow 视频生成模型

Pyramidal Flow[6] 是由北大、快手和北邮联合开源的新视频生成模型,支持文生视频和图生视频,最高可生成 24fps、1280x768 分辨率、长达 10 秒的视频。你可以直接在 ComfyUI 中安装 PyramidFlowWrapper 插件来使用它,需要 10-12GB 的 VRAM。

该模型在官方的 VBench 基准测试中,81.72 的总得分使其与众多商业模型并驾齐驱,虽然得分略低于今天的 T2V-Turbo-v2,但主观上我认为这个模型的生成效果更佳。


如果你喜欢《一觉醒来 AI 界发生了什么》系列的话,请 关注点赞在看收藏分享 五连警告,这对我真的很重要

现在加入 AI 日报群,不会漏掉消息嗷

Reference

[1]

T2V-Turbo 官网: https://huggingface.co/spaces/TIGER-Lab/T2V-Turbo-V2

[2]

PhysGen 模型: https://github.com/stevenlsw/physgen

[3]

Aria 多模态模型: https://www.rhymes.ai/blog-details/aria-first-open-multimodal-native-moe-model

[4]

DeepLearningAI 和 Meta 联合发布的免费教程: https://www.deeplearning.ai/short-courses/introducing-multimodal-llama-3-2

[5]

重唱功能: https://x.com/suno_ai_/status/1844164083844882812

[6]

Pyramidal Flow 官网: https://huggingface.co/spaces/Pyramid-Flow/pyramid-flow


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

T2V-Turbo-v2 PhysGen Aria DeepLearningAI & Meta SunoAI Pyramidal Flow
相关文章