10秒视频生成3D数字人；无限外扩图片 Diffusers Outpaint 新功能；OpenMusic 高质量文生音乐模型

原创小茸茸 2024-09-24 09:20 重庆

OpenMusic高质量文生音乐模型；PDF2Audio将PDF文件转有声播客；Diffusers Outpaint 无限外扩图片；StableDelight消除眩光；ExAvatar； Qwen 2.5-72B 模型

OpenMusic：基于 QA-MDT 的高质量文生音乐模型

OpenMusic^[1] 是一款基于 QA-MDT^[2] 技术的高质量文生音乐模型。该模型采用 MIT 许可证，可商用，并支持在线使用。

PDF2Audio：将PDF文件转为有声播客

PDF2Audio是一款基于开源项目的工具，允许用户上传多个PDF文件，然后选择指令模板即可将PDF转为播客、讲座、讨论或短/长文摘要。当然，支持自定义LLM模型、TTS、语气和风格等。

谷歌的NotebookLM之前已经介绍过，PDF2Audio^[3]仅实现了转换的核心功能，但在交互性方面无法与之相比。因此更推荐NotebookLM，对于有需要的人来说是非常强的利器。你可以访问GitHub^[4]了解更多信息。

Diffusers Outpaint 新功能：无限外扩图片

之前介绍过的 Diffusers Outpaint^[5] 现已发布新更新。现在可以将上一次的输出作为下一次的输入，从而实现对图片的无限外扩。此外，还支持选择比例和扩展方向。记得以前 B 站有很多类似的图片无限外扩会怎么样的视频，现在可以用来批量处理这些视频了。

StableDelight：开源眩光消除技术

StableDelight 是一款基于开源项目StableDelight^[6]的眩光消除技术。这是一种消除眩光的技术，可以用于在拍照时去除玻璃、金属或者皮肤上的亮光，使得这些照片中的细节更好地呈现。此外，该技术还可以扩展其应用，例如将AI生成的图片作为输入，能减轻AI味，但并非万能，有可能起反作用。

ExAvatar：10秒视频生成3D数字人

ExAvatar^[7]是一款由Meta出品，现已由原作者重新实现的开源项目。只需拍摄10秒视频，即可生成你的3D数字人，支持全身动作、手部和面部表情。这实际上是作者对Expressive Whole-Body 3D Gaussian Avatar^[8]的重新实现。

HuggingChat 新增 Qwen 2.5-72B 模型支持

HuggingChat 现在支持 Qwen 2.5-72B 模型了，仍然免费，但目前仅支持对话功能，尚未适配工具功能。这是 HuggingChat^[9] 上的首个国产模型，令人感动。

Reference

[1]

OpenMusic: https://huggingface.co/spaces/jadechoghari/OpenMusic

[2]

QA-MDT: https://qa-mdt.github.io/

[3]

PDF2Audio: https://huggingface.co/spaces/lamm-mit/PDF2Audio

[4]

GitHub: https://github.com/lamm-mit/PDF2Audio

[5]

Diffusers Outpaint: https://huggingface.co/spaces/fffiloni/diffusers-image-outpaint

[6]

StableDelight: https://github.com/Stable-X/StableDelight

[7]

ExAvatar: https://github.com/mks0601/ExAvatar_RELEASE

[8]

Expressive Whole-Body 3D Gaussian Avatar: https://mks0601.github.io/ExAvatar/

[9]

HuggingChat: https://huggingface.co/chat/

阅读原文

跳转微信打开

OpenMusic：基于 QA-MDT 的高质量文生音乐模型

PDF2Audio：将PDF文件转为有声播客

Diffusers Outpaint 新功能：无限外扩图片

StableDelight：开源眩光消除技术

ExAvatar：10秒视频生成3D数字人

HuggingChat 新增 Qwen 2.5-72B 模型支持

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签