三花AI 04月23日 10:35
支持无限长度视频生成多模态模型 SkyReels-V2;多角色对话合成 TTS 模型 Nari Dia 1.6B
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了两款开源AI模型的新进展。SkyReels-V2是一款支持无限长度视频生成的多模态模型,具备文生视频和图生视频的能力,在画面表现上接近闭源模型。另一款是Nari Labs开发的Dia 1.6B,这是一个开源文本转语音(TTS)模型,能够单次生成多角色对话,并支持非语言交流的合成。这两款模型的开源,为AI领域带来了新的活力。

🎬 SkyReels-V2 是一款开源模型,声称能够生成无限长度的视频,具备多模态生成能力,包括文生视频和图生视频。

🖼️ SkyReels-V2 在画面表现上接近闭源模型 Kling-1.6 和 Runway Gen-4,但硬件要求较高。

🗣️ Dia 1.6B 是由 Nari Labs 开发的开源文本转语音(TTS)模型,能够单次生成多角色对话,并支持非语言交流,目前仅支持英文。

💡 Dia 1.6B 可以通过在线演示体验,其GitHub项目也已开源。

原创 小茸茸 2025-04-23 09:29 重庆

SkyReels-V2:支持无限长度视频生成的多模态模型;Nari Dia 1.6B:多角色对话合成的 TTS 模型

SkyReels-V2:支持无限长度视频生成的多模态模型

SkyReels V2[1] 号称能够无限长度视频生成的开源模型,支持多模态生成能力,包括文生视频和图生视频。

在画面表现方面,接近闭源模型 Kling-1.6 和 Runway Gen-4。

SkyReels-V2 完全开源可商用,不过硬件要求比之前介绍的 FramePack 要高。

SkyReels V2 GitHub 仓库: https://github.com/SkyworkAI/SkyReels-V2

Nari Dia 1.6B:多角色对话合成的 TTS 模型

Dia 1.6B[2] 是由 Nari Labs 开发的开源文本转语音(TTS)模型。

它能够单次生成多角色对话,并支持非语言交流(如笑声、咳嗽声等)的合成。不过目前仅支持英文。

佬们可通过在线演示[3]玩玩看。

Nari Dia GitHub 项目: https://github.com/nari-labs/dia
Nari Dia 1.6B 在线演示: https://huggingface.co/spaces/nari-labs/Dia-1.6B

如果你喜欢《一觉醒来 AI 界发生了什么》系列的话,请 关注点赞在看收藏分享 五连警告,这对我真的很重要


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

SkyReels-V2 Dia 1.6B 开源AI 多模态模型 TTS模型
相关文章