三花AI 2024年11月04日
快速创建 3D 数字人头;开源多功能修图神器;Runway 新增高级运镜功能;通义提示词生成连贯图像;音频版 LoRa 音乐创作
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本周AI领域涌现出许多令人瞩目的新进展,包括Suno推出的Personas功能,可将歌曲的精髓重用于新创作;Runway为Gen-3 Alpha Turbo添加了高级运镜功能,提升了视频生成效果;字节跳动开源了MimicTalk项目,用于快速创建3D数字人头;微软开源了PromptFix,可以实现多种图像处理功能;阿里通义团队推出In-Context LoRA,通过提示词生成连贯图像;FishAudio推出端到端语音处理模型Fish Agent;instantX则发布了基于SDXL的高清修复模型InstantIR。这些新工具和技术的出现,为创作者和开发者提供了更多可能性,也预示着AI领域持续蓬勃的发展态势。

🤔Suno推出Personas功能,旨在重塑音乐创作。该功能类似于音频版的LoRa,可以保存歌曲的人声、风格和氛围,并在新的创作中进行重用。创作者可以公开自己的Persona,供其他用户使用,但目前仅限订阅用户使用。这一功能的推出,为音乐创作提供了新的思路,让创作者可以更加便捷地利用已有素材进行创作,并促进音乐创作的效率和多样性。

🎬Runway为Gen-3 Alpha Turbo新增高级运镜功能,提升了视频生成效果。新功能包括移动、绕拍、缩放等,生成的效果流畅自然,堪比真实相机操控。相比之前的Luma Dream Machine 1.6,Runway的运镜能力有了显著提升,为视频生成带来了更多可能性。创作者可以更加灵活地控制视频画面,实现更加复杂的视觉效果,进一步提升视频的艺术性和观赏性。

🤖字节跳动开源MimicTalk,快速创建3D数字人头。MimicTalk是由浙大和字节跳动联合开源的项目,旨在快速创建虚拟数字人头。虽然实际效果较为一般,但其开源特性使其具有较高的开发价值,开发者可以基于该项目进行二次开发,拓展其功能和应用场景。开源的特性也为3D数字人技术的发展提供了新的动力,促进更多开发者参与到该领域的研发中。

🎨微软开源PromptFix,多功能修图神器。PromptFix是一款功能强大的图像处理工具,可以通过提示词实现多种图像处理功能,包括上色、提升照片亮度、去除水印、抠图、去雾和去模糊等。该工具的数据集也已开源,效果良好。对于有图像处理需求的用户来说,PromptFix无疑是一个非常便捷实用的工具,可以帮助用户轻松实现各种图像处理任务,提高工作效率。

🖼️阿里通义In-Context LoRA,通过提示词生成连贯图像。In-Context LoRA项目可以基于Flux生成主题连贯的三连图、四连图,非常适合内容创作。目前模型并未完全开放,仅开源了训练配置和一些测试数据集。该项目为内容创作提供了一种新的思路,可以通过提示词生成具有主题连贯性的图像,为创作者提供素材和灵感。未来,如果模型完全开放,相信将会为内容创作领域带来更大的影响。

🗣️FishAudio推出端到端语音处理模型Fish Agent。Fish Agent是一款无需编解码的语音转语音模型,集成了ASR和TTS功能,实现了真正的端到端语音处理。该模型基于700000小时的多语言音频内容训练而成,目前正处于测试阶段。Fish Agent的出现,为语音处理技术带来了新的突破,实现了语音处理流程的简化和效率的提升。未来,随着模型的不断完善,相信将会在语音交互、语音合成等领域得到广泛应用。

📸instantX推出InstantIR,基于SDXL的高清修复模型。InstantIR基于SDXL技术,可以进行高清修复,并支持通过文本引导进行修复。其效果远超同类超分辨率模型,模型和代码均已开放。InstantIR的推出,为图像修复领域带来了新的技术,可以帮助用户修复老旧照片或模糊图像,使其恢复清晰度。开源的特性也为图像修复技术的发展提供了新的动力,促进更多开发者参与到该领域的研发中。

原创 小茸茸 2024-11-04 09:20 重庆

Suno Personas;字节开源MimicTalk快速创建数字人头;微软开源PromptFix;FishAudio 推出端到端语音处理模型 Fish Agent;instantX 推出 InstantIR:基于 SDXL 的高清修复模型

Suno 推出 Personas:音频版 LoRa 重塑音乐创作

Personas[1] 是 Suno 推出的一个新功能,它能够保存歌曲的精髓,如人声、风格和氛围,并在新创作中重用,就像是音频版的 LoRa。创作者可以公开自己的 Persona,公开后其他用户也能使用,不过目前这个功能只向订阅用户开放。

Runway 推出高级运镜功能

Runway为 Gen-3 Alpha Turbo 新增了高级运镜能力[2],包括移动、绕拍、缩放等,生成的效果非常丝滑。这一功能支持任意角度和速度,操作体验如同操控真实相机,比之前 Luma Dream Machine 1.6 的运镜能力强不少。

字节跳动开源的 MimicTalk:快速创建 3D 数字人头

MimicTalk[3] 是由浙大和字节跳动联合开源的 3D 数字人头项目,主打一个能快速创建虚拟数字人头,实际效果一般,贵在开源。

微软开源 PromptFix:多功能修图神器

PromptFix[4] 是微软开源的一款修图神器,能够通过提示词实现多种图像处理功能,包括上色、提升照片亮度、去除水印、抠图、去雾和去模糊等。数据集同样开源,效果不错,你们最近有去水印需求的话可以试试。

阿里通义 In-Context LoRA:通过提示词生成连贯图像

In-Context LoRA[5] 是阿里通义团队的一个项目,它可以通过提示词基于 Flux 生成主题连贯的三连图、四连图,非常适合内容创作。不过,目前模型并未完全开放,只开源了训练配置和一些测试数据集,配图来自青龙大佬。

FishAudio 推出端到端语音处理模型 Fish Agent

Fish Agent[6] 是由 FishAudio 推出的一款无需编解码的语音转语音模型,它集成了 ASR 和 TTS 功能,实现了真正的端到端语音处理,类似于 ChatGPT 的高级语音模式。该模型基于 700000 小时的多语言音频内容训练而成,目前正处于测试阶段,你们可以通过使用教程[7]来自己部署看看。

instantX 推出 InstantIR:基于 SDXL 的高清修复模型

InstantIR[8] 是 instantX 团队推出的新项目,基于 SDXL 技术的高清修复模型。它还支持通过文本引导进行修复,效果远超同类超分辨率模型,而且模型和代码均已开放。


如果你喜欢《一觉醒来 AI 界发生了什么》系列的话,请 关注点赞在看收藏分享 五连警告,这对我真的很重要!感谢上期 3 位老板的打赏,外卖有了!

现在加入 AI 日报群,不会漏掉消息嗷

Reference

[1]

Suno 推出的 Personas 功能: https://x.com/suno_ai_/status/1852099861526778179

[2]

高级运镜能力: https://x.com/runwayml/status/1852363185916932182

[3]

MimicTalk 项目官网: https://github.com/yerfor/MimicTalk

[4]

PromptFix 官网: https://www.yongshengyu.com/PromptFix-Page/

[5]

阿里通义团队的In-Context LoRA项目: https://github.com/ali-vilab/In-Context-LoRA

[6]

Fish Agent 官网: https://huggingface.co/fishaudio/fish-agent-v0.1-3b

[7]

Fish Agent 使用教程: https://github.com/fishaudio/fish-speech/blob/main/Start_Agent.md

[8]

InstantIR 项目官网: https://jy-joy.github.io/InstantIR/


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI 数字人 图像处理 语音处理 开源
相关文章