原创 小茸茸 2024-09-24 09:20 重庆
OpenMusic高质量文生音乐模型;PDF2Audio将PDF文件转有声播客;Diffusers Outpaint 无限外扩图片;StableDelight消除眩光;ExAvatar; Qwen 2.5-72B 模型
OpenMusic:基于 QA-MDT 的高质量文生音乐模型
OpenMusic[1] 是一款基于 QA-MDT[2] 技术的高质量文生音乐模型。该模型采用 MIT 许可证,可商用,并支持在线使用。
PDF2Audio:将PDF文件转为有声播客
PDF2Audio是一款基于开源项目的工具,允许用户上传多个PDF文件,然后选择指令模板即可将PDF转为播客、讲座、讨论或短/长文摘要。当然,支持自定义LLM模型、TTS、语气和风格等。
谷歌的NotebookLM之前已经介绍过,PDF2Audio[3]仅实现了转换的核心功能,但在交互性方面无法与之相比。因此更推荐NotebookLM,对于有需要的人来说是非常强的利器。你可以访问GitHub[4]了解更多信息。
Diffusers Outpaint 新功能:无限外扩图片
之前介绍过的 Diffusers Outpaint[5] 现已发布新更新。现在可以将上一次的输出作为下一次的输入,从而 实现对图片的无限外扩。此外,还支持选择比例和扩展方向。记得以前 B 站有很多类似的图片 无限外扩 会怎么样的视频,现在可以用来批量处理这些视频了。
StableDelight:开源眩光消除技术
StableDelight 是一款基于开源项目StableDelight[6]的眩光消除技术。这是一种消除眩光的技术,可以用于在拍照时去除玻璃、金属或者 皮肤上的亮光,使得这些照片中的细节更好地呈现。此外,该技术还可以扩展其应用,例如将AI生成的图片作为输入,能减轻AI味,但并非万能,有可能起反作用。
ExAvatar:10秒视频生成3D数字人
ExAvatar[7]是一款由Meta出品,现已由原作者重新实现的开源项目。只需拍摄10秒视频,即可生成你的3D数字人,支持全身动作、手部和面部 表情。这实际上是作者对Expressive Whole-Body 3D Gaussian Avatar[8]的重新实现。
HuggingChat 新增 Qwen 2.5-72B 模型支持
HuggingChat 现在支持 Qwen 2.5-72B 模型了,仍然免费,但目前仅支持对话功能,尚未适配工具功能。这是 HuggingChat[9] 上的首个国产模型,令人感动。
Reference
[1]
OpenMusic: https://huggingface.co/spaces/jadechoghari/OpenMusic
[2]QA-MDT: https://qa-mdt.github.io/
[3]PDF2Audio: https://huggingface.co/spaces/lamm-mit/PDF2Audio
[4]GitHub: https://github.com/lamm-mit/PDF2Audio
[5]Diffusers Outpaint: https://huggingface.co/spaces/fffiloni/diffusers-image-outpaint
[6]StableDelight: https://github.com/Stable-X/StableDelight
[7]ExAvatar: https://github.com/mks0601/ExAvatar_RELEASE
[8]Expressive Whole-Body 3D Gaussian Avatar: https://mks0601.github.io/ExAvatar/
[9]HuggingChat: https://huggingface.co/chat/