快速创建 3D 数字人头；开源多功能修图神器；Runway 新增高级运镜功能；通义提示词生成连贯图像；音频版 LoRa 音乐创作

三花AI 2024年11月04日

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

本周AI领域涌现出许多令人瞩目的新进展，包括Suno推出的Personas功能，可将歌曲的精髓重用于新创作；Runway为Gen-3 Alpha Turbo添加了高级运镜功能，提升了视频生成效果；字节跳动开源了MimicTalk项目，用于快速创建3D数字人头；微软开源了PromptFix，可以实现多种图像处理功能；阿里通义团队推出In-Context LoRA，通过提示词生成连贯图像；FishAudio推出端到端语音处理模型Fish Agent；instantX则发布了基于SDXL的高清修复模型InstantIR。这些新工具和技术的出现，为创作者和开发者提供了更多可能性，也预示着AI领域持续蓬勃的发展态势。

🤔Suno推出Personas功能，旨在重塑音乐创作。该功能类似于音频版的LoRa，可以保存歌曲的人声、风格和氛围，并在新的创作中进行重用。创作者可以公开自己的Persona，供其他用户使用，但目前仅限订阅用户使用。这一功能的推出，为音乐创作提供了新的思路，让创作者可以更加便捷地利用已有素材进行创作，并促进音乐创作的效率和多样性。

🎬Runway为Gen-3 Alpha Turbo新增高级运镜功能，提升了视频生成效果。新功能包括移动、绕拍、缩放等，生成的效果流畅自然，堪比真实相机操控。相比之前的Luma Dream Machine 1.6，Runway的运镜能力有了显著提升，为视频生成带来了更多可能性。创作者可以更加灵活地控制视频画面，实现更加复杂的视觉效果，进一步提升视频的艺术性和观赏性。

🤖字节跳动开源MimicTalk，快速创建3D数字人头。MimicTalk是由浙大和字节跳动联合开源的项目，旨在快速创建虚拟数字人头。虽然实际效果较为一般，但其开源特性使其具有较高的开发价值，开发者可以基于该项目进行二次开发，拓展其功能和应用场景。开源的特性也为3D数字人技术的发展提供了新的动力，促进更多开发者参与到该领域的研发中。

🎨微软开源PromptFix，多功能修图神器。PromptFix是一款功能强大的图像处理工具，可以通过提示词实现多种图像处理功能，包括上色、提升照片亮度、去除水印、抠图、去雾和去模糊等。该工具的数据集也已开源，效果良好。对于有图像处理需求的用户来说，PromptFix无疑是一个非常便捷实用的工具，可以帮助用户轻松实现各种图像处理任务，提高工作效率。

🖼️阿里通义In-Context LoRA，通过提示词生成连贯图像。In-Context LoRA项目可以基于Flux生成主题连贯的三连图、四连图，非常适合内容创作。目前模型并未完全开放，仅开源了训练配置和一些测试数据集。该项目为内容创作提供了一种新的思路，可以通过提示词生成具有主题连贯性的图像，为创作者提供素材和灵感。未来，如果模型完全开放，相信将会为内容创作领域带来更大的影响。

🗣️FishAudio推出端到端语音处理模型Fish Agent。Fish Agent是一款无需编解码的语音转语音模型，集成了ASR和TTS功能，实现了真正的端到端语音处理。该模型基于700000小时的多语言音频内容训练而成，目前正处于测试阶段。Fish Agent的出现，为语音处理技术带来了新的突破，实现了语音处理流程的简化和效率的提升。未来，随着模型的不断完善，相信将会在语音交互、语音合成等领域得到广泛应用。

📸instantX推出InstantIR，基于SDXL的高清修复模型。InstantIR基于SDXL技术，可以进行高清修复，并支持通过文本引导进行修复。其效果远超同类超分辨率模型，模型和代码均已开放。InstantIR的推出，为图像修复领域带来了新的技术，可以帮助用户修复老旧照片或模糊图像，使其恢复清晰度。开源的特性也为图像修复技术的发展提供了新的动力，促进更多开发者参与到该领域的研发中。

原创小茸茸 2024-11-04 09:20 重庆

Suno Personas；字节开源MimicTalk快速创建数字人头；微软开源PromptFix；FishAudio 推出端到端语音处理模型 Fish Agent；instantX 推出 InstantIR：基于 SDXL 的高清修复模型

Suno 推出 Personas：音频版 LoRa 重塑音乐创作

Personas^[1] 是 Suno 推出的一个新功能，它能够保存歌曲的精髓，如人声、风格和氛围，并在新创作中重用，就像是音频版的 LoRa。创作者可以公开自己的 Persona，公开后其他用户也能使用，不过目前这个功能只向订阅用户开放。

Runway 推出高级运镜功能

Runway为 Gen-3 Alpha Turbo 新增了高级运镜能力^[2]，包括移动、绕拍、缩放等，生成的效果非常丝滑。这一功能支持任意角度和速度，操作体验如同操控真实相机，比之前 Luma Dream Machine 1.6 的运镜能力强不少。

字节跳动开源的 MimicTalk：快速创建 3D 数字人头

MimicTalk^[3] 是由浙大和字节跳动联合开源的 3D 数字人头项目，主打一个能快速创建虚拟数字人头，实际效果一般，贵在开源。

微软开源 PromptFix：多功能修图神器

PromptFix^[4] 是微软开源的一款修图神器，能够通过提示词实现多种图像处理功能，包括上色、提升照片亮度、去除水印、抠图、去雾和去模糊等。数据集同样开源，效果不错，你们最近有去水印需求的话可以试试。

阿里通义 In-Context LoRA：通过提示词生成连贯图像

In-Context LoRA^[5] 是阿里通义团队的一个项目，它可以通过提示词基于 Flux 生成主题连贯的三连图、四连图，非常适合内容创作。不过，目前模型并未完全开放，只开源了训练配置和一些测试数据集，配图来自青龙大佬。

FishAudio 推出端到端语音处理模型 Fish Agent

Fish Agent^[6] 是由 FishAudio 推出的一款无需编解码的语音转语音模型，它集成了 ASR 和 TTS 功能，实现了真正的端到端语音处理，类似于 ChatGPT 的高级语音模式。该模型基于 700000 小时的多语言音频内容训练而成，目前正处于测试阶段，你们可以通过使用教程^[7]来自己部署看看。

instantX 推出 InstantIR：基于 SDXL 的高清修复模型

InstantIR^[8] 是 instantX 团队推出的新项目，基于 SDXL 技术的高清修复模型。它还支持通过文本引导进行修复，效果远超同类超分辨率模型，而且模型和代码均已开放。

❝
如果你喜欢《一觉醒来 AI 界发生了什么》系列的话，请关注、点赞、在看、收藏、分享五连警告，这对我真的很重要！感谢上期 3 位老板的打赏，外卖有了！

Reference

[1]

Suno 推出的 Personas 功能: https://x.com/suno_ai_/status/1852099861526778179

[2]

高级运镜能力: https://x.com/runwayml/status/1852363185916932182

[3]

MimicTalk 项目官网: https://github.com/yerfor/MimicTalk

[4]

PromptFix 官网: https://www.yongshengyu.com/PromptFix-Page/

[5]

阿里通义团队的In-Context LoRA项目: https://github.com/ali-vilab/In-Context-LoRA

[6]

Fish Agent 官网: https://huggingface.co/fishaudio/fish-agent-v0.1-3b

[7]

Fish Agent 使用教程: https://github.com/fishaudio/fish-speech/blob/main/Start_Agent.md

[8]

InstantIR 项目官网: https://jy-joy.github.io/InstantIR/

阅读原文

跳转微信打开

Suno 推出 Personas：音频版 LoRa 重塑音乐创作

Runway 推出高级运镜功能

字节跳动开源的 MimicTalk：快速创建 3D 数字人头

微软开源 PromptFix：多功能修图神器

阿里通义 In-Context LoRA：通过提示词生成连贯图像

FishAudio 推出端到端语音处理模型 Fish Agent

instantX 推出 InstantIR：基于 SDXL 的高清修复模型

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签