原创 小茸茸 2024-11-04 09:20 重庆
Suno Personas;字节开源MimicTalk快速创建数字人头;微软开源PromptFix;FishAudio 推出端到端语音处理模型 Fish Agent;instantX 推出 InstantIR:基于 SDXL 的高清修复模型
Suno 推出 Personas:音频版 LoRa 重塑音乐创作
Personas[1] 是 Suno 推出的一个新功能,它能够保存歌曲的精髓,如人声、风格和氛围,并在新创作中重用,就像是音频版的 LoRa。创作者可以公开自己的 Persona,公开后其他用户也能使用,不过目前这个功能只向订阅用户开放。
Runway 推出高级运镜功能
Runway为 Gen-3 Alpha Turbo 新增了高级运镜能力[2],包括移动、绕拍、缩放等,生成的效果非常丝滑。这一功能支持任意角度和速度,操作体验如同操控真实相机,比之前 Luma Dream Machine 1.6 的运镜能力强不少。
字节跳动开源的 MimicTalk:快速创建 3D 数字人头
MimicTalk[3] 是由浙大和字节跳动联合开源的 3D 数字人头项目,主打一个能快速创建虚拟数字人头,实际效果一般,贵在开源。
微软开源 PromptFix:多功能修图神器
PromptFix[4] 是微软开源的一款修图神器,能够通过提示词实现多种图像处理功能,包括上色、提升照片亮度、去除水印、抠图、去雾和去模糊等。数据集同样开源,效果不错,你们最近有去水印需求的话可以试试。
阿里通义 In-Context LoRA:通过提示词生成连贯图像
In-Context LoRA[5] 是阿里通义团队的一个项目,它可以通过提示词基于 Flux 生成主题连贯的三连图、四连图,非常适合内容创作。不过,目前模型并未完全开放,只开源了训练配置和一些测试数据集,配图来自青龙大佬。
FishAudio 推出端到端语音处理模型 Fish Agent
Fish Agent[6] 是由 FishAudio 推出的一款无需编解码的语音转语音模型,它集成了 ASR 和 TTS 功能,实现了真正的端到端语音处理,类似于 ChatGPT 的高级语音模式。该模型基于 700000 小时的多语言音频内容训练而成,目前正处于测试阶段,你们可以通过使用教程[7]来自己部署看看。
instantX 推出 InstantIR:基于 SDXL 的高清修复模型
InstantIR[8] 是 instantX 团队推出的新项目,基于 SDXL 技术的高清修复模型。它还支持通过文本引导进行修复,效果远超同类超分辨率模型,而且模型和代码均已开放。
❝如果你喜欢《一觉醒来 AI 界发生了什么》系列的话,请 关注、点赞、在看、收藏、分享 五连警告,这对我真的很重要!感谢上期 3 位老板的打赏,外卖有了!
Reference
[1]
Suno 推出的 Personas 功能: https://x.com/suno_ai_/status/1852099861526778179
[2]高级运镜能力: https://x.com/runwayml/status/1852363185916932182
[3]MimicTalk 项目官网: https://github.com/yerfor/MimicTalk
[4]PromptFix 官网: https://www.yongshengyu.com/PromptFix-Page/
[5]阿里通义团队的In-Context LoRA项目: https://github.com/ali-vilab/In-Context-LoRA
[6]Fish Agent 官网: https://huggingface.co/fishaudio/fish-agent-v0.1-3b
[7]Fish Agent 使用教程: https://github.com/fishaudio/fish-speech/blob/main/Start_Agent.md
[8]InstantIR 项目官网: https://jy-joy.github.io/InstantIR/