原创 小茸茸 2025-01-06 09:11 重庆
Create AI 开源 Ruyi-Mini-7B 图生视频模型,专为消费级 GPU 设计;ebook2audiobook 2.0 发布;DDUF:统一扩散模型分发与权重保存的单文件格式;TangoFlux;字节开源高效口型同步扩散模型
罗永浩 Jarvis 发布 J1 Assistant:安卓用户的 AI 新助手
罗永浩旗下的 AI 初创项目 Jarvis 近日发布了名为 J1 Assistant 的聚合类 AI 助理软件。目前,该软件仅支持部分安卓机型。用户可以通过长按发送语音至联系人、谷歌搜索引擎、ChatGPT 或创建备忘录。UI 设计颇具锤子科技风格,当前版本为 0.8.3-beta1。感兴趣的朋友可以在J1 Assistant 官网[1]下载体验。
Create AI 开源 Ruyi-Mini-7B 图生视频模型,专为消费级 GPU 设计
Create AI (原图森未来)开源了Ruyi-Mini-7B[2]图生视频模型。这款模型专为消费级 GPU 设计,支持生成 360p 和 720p 分辨率、最长 5 秒的视频。
据Create AI官网[3]介绍,Create AI 似乎正在利用大模型技术开发 AAA 级开放世界游戏《金庸群侠传》。
ebook2audiobook 2.0 发布:全新WebUI与 1000 种语言
知名开源电子书转有声书项目ebook2audiobook[4] 发布了 2.0 版本。新版本支持本地语音克隆与有声书生成,覆盖了 1000 种语言,并配备了全新的 WebUI 界面。
此外,安装脚本也得到了优化,使用更加便捷。想体验新功能的佬友,可以访问在线版本[5]进行试用。
DDUF:统一扩散模型分发与权重保存的单文件格式
DDUF(DDUF’s Diffusion Unified Format)[6]是一种为扩散模型设计的单文件格式,旨在统一不同的模型分发方法和权重保存格式。它将模型的所有组件打包到一个文件中,并且与语言无关,支持远程解析。目前社区热门的模型已经有专门的 DDUF 格式了,之前看到一大堆文件就头疼,以后就好了。
TangoFlux:极速文本转音频生成模型
TangoFlux 是一个开源的极速文本转音频(TTA)生成模型,在单个 A40 GPU 上仅需 3.7 秒即可生成 30 秒的 44.1kHz 音频。佬友们可以在线体验[7] 看看,速度确实飞快,生成的质量也算还行。
字节开源 LatentSync:高效口型同步扩散模型
LatentSync[8] 是字节开源的用于口型同步的扩散模型,只需提供角色视频和要同步的音频即可生成。该模型对硬件的要求适中,仅需 6.5 GB 的 GPU 即可运行,适合大多数开发者和研究人员使用。此外,@fffiloni大佬还提供了一个在线演示[9]可以玩一下。
❝如果你喜欢《一觉醒来 AI 界发生了什么》系列的话,请 关注、点赞、在看、收藏、分享 五连警告,这对我真的很重要!
Reference
[1]
J1 Assistant 官网: https://matter.ai/
[2]Ruyi-Mini-7B 模型页面: https://huggingface.co/IamCreateAI/Ruyi-Mini-7B
[3]Create AI 官网: https://www.iamcreate.ai/
[4]ebook2audiobook GitHub: https://github.com/DrewThomasson/ebook2audiobook
[5]ebook2audiobook 在线体验: https://huggingface.co/spaces/drewThomasson/ebook2audiobook
[6]DDUF 官方介绍: https://huggingface.co/DDUF
[7]TangoFlux 在线体验空间: https://huggingface.co/spaces/declare-lab/TangoFlux
[8]LatentSync GitHub 项目: https://github.com/bytedance/LatentSync
[9]LatentSync 在线演示: https://huggingface.co/spaces/fffiloni/LatentSync