三花AI 2024年10月21日
10秒视频生成3D数字人;无限外扩图片 Diffusers Outpaint 新功能;OpenMusic 高质量文生音乐模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了多种创新技术工具,包括文生音乐模型OpenMusic、PDF转有声播客的PDF2Audio、无限外扩图片的Diffusers Outpaint、消除眩光的StableDelight、生成3D数字人的ExAvatar以及HuggingChat新增的Qwen 2.5 - 72B模型。

🎵OpenMusic是基于QA-MDT技术的高质量文生音乐模型,采用MIT许可证,可商用且支持在线使用。

📄PDF2Audio是基于开源项目的工具,可将PDF文件转为播客等,但在交互性上不如NotebookLM。

🖼Diffusers Outpaint发布新更新,可将上一次输出作为下一次输入,实现图片无限外扩,还支持选择比例和扩展方向。

✨StableDelight是眩光消除技术,可去除拍照时的亮光,使照片细节更好呈现,也可用于减轻AI生成图片的AI味,但可能有反作用。

👨‍🚀ExAvatar只需拍摄10秒视频,即可生成3D数字人,支持全身动作、手部和面部表情,是对Expressive Whole-Body 3D Gaussian Avatar的重新实现。

💬HuggingChat现在支持Qwen 2.5 - 72B模型,免费但目前仅支持对话功能,尚未适配工具功能,这是其首个国产模型。

原创 小茸茸 2024-09-24 09:20 重庆

OpenMusic高质量文生音乐模型;PDF2Audio将PDF文件转有声播客;Diffusers Outpaint 无限外扩图片;StableDelight消除眩光;ExAvatar; Qwen 2.5-72B 模型

OpenMusic:基于 QA-MDT 的高质量文生音乐模型

OpenMusic[1] 是一款基于 QA-MDT[2] 技术的高质量文生音乐模型。该模型采用 MIT 许可证,可商用,并支持在线使用。

PDF2Audio:将PDF文件转为有声播客

PDF2Audio是一款基于开源项目的工具,允许用户上传多个PDF文件,然后选择指令模板即可将PDF转为播客、讲座、讨论或短/长文摘要。当然,支持自定义LLM模型、TTS、语气和风格等。

谷歌的NotebookLM之前已经介绍过,PDF2Audio[3]仅实现了转换的核心功能,但在交互性方面无法与之相比。因此更推荐NotebookLM,对于有需要的人来说是非常强的利器。你可以访问GitHub[4]了解更多信息。

Diffusers Outpaint 新功能:无限外扩图片

之前介绍过的 Diffusers Outpaint[5] 现已发布新更新。现在可以将上一次的输出作为下一次的输入,从而 实现对图片的无限外扩。此外,还支持选择比例和扩展方向。记得以前 B 站有很多类似的图片 无限外扩 会怎么样的视频,现在可以用来批量处理这些视频了。

StableDelight:开源眩光消除技术

StableDelight 是一款基于开源项目StableDelight[6]的眩光消除技术。这是一种消除眩光的技术,可以用于在拍照时去除玻璃、金属或者 皮肤上的亮光,使得这些照片中的细节更好地呈现。此外,该技术还可以扩展其应用,例如将AI生成的图片作为输入,能减轻AI味,但并非万能,有可能起反作用。

ExAvatar:10秒视频生成3D数字人

ExAvatar[7]是一款由Meta出品,现已由原作者重新实现的开源项目。只需拍摄10秒视频,即可生成你的3D数字人,支持全身动作、手部和面部 表情。这实际上是作者对Expressive Whole-Body 3D Gaussian Avatar[8]的重新实现。

HuggingChat 新增 Qwen 2.5-72B 模型支持

HuggingChat 现在支持 Qwen 2.5-72B 模型了,仍然免费,但目前仅支持对话功能,尚未适配工具功能。这是 HuggingChat[9] 上的首个国产模型,令人感动。

Reference

[1]

OpenMusic: https://huggingface.co/spaces/jadechoghari/OpenMusic

[2]

QA-MDT: https://qa-mdt.github.io/

[3]

PDF2Audio: https://huggingface.co/spaces/lamm-mit/PDF2Audio

[4]

GitHub: https://github.com/lamm-mit/PDF2Audio

[5]

Diffusers Outpaint: https://huggingface.co/spaces/fffiloni/diffusers-image-outpaint

[6]

StableDelight: https://github.com/Stable-X/StableDelight

[7]

ExAvatar: https://github.com/mks0601/ExAvatar_RELEASE

[8]

Expressive Whole-Body 3D Gaussian Avatar: https://mks0601.github.io/ExAvatar/

[9]

HuggingChat: https://huggingface.co/chat/


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenMusic PDF2Audio Diffusers Outpaint StableDelight ExAvatar Qwen 2.5 - 72B
相关文章