机器之心 03月27日 14:43
这AI绝对偷了格莱美奖杯!直接把LLaMA喂成乐坛顶流:开源版Suno来了!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

YuE是由香港科技大学和DeepSeek合作开发的开源音乐生成模型,能够生成长达5分钟的歌曲,并同时创作专业级歌声和伴奏。该模型采用双LLaMA架构,通过Dual-NTP策略和结构化渐进生成技术,实现了歌声合成和音乐伴奏的联合建模。YuE还具备风格克隆、声音克隆和风格迁移等能力,在人类偏好评测中获得了与闭源模型相当的音乐性表现,并提供了高质量的音乐嵌入。

🎤 YuE采用双LLaMA语言模型架构,其中Stage-1 LM联合建模文本条件和粗粒度音频token序列,Stage-2 LM基于大LM合成细粒度token,最终通过tokenizer decoder和上采样器重建音频。

🎶 YuE引入Dual-NTP策略,利用声伴分离先验,在同一时间步用两个token建模人声和伴奏,从而实现歌声合成和音乐伴奏的联合建模,避免了离散token的信息损失。

🎼 为了生成数分钟级的歌曲,YuE采用了结构化渐进生成(CoT)方法,将歌曲拆分成主副歌段落,通过文本token和音频token交替排布,避免了文本条件控制远程衰减的问题。

🎵 YuE还开发了Music In-Context Learning(Music ICL),通过延迟激活策略,在不影响模型音乐性和创造力的前提下,实现了风格克隆、声音克隆和风格迁移等能力。

2025-03-27 12:31 北京

能建模长达 5 分钟的歌曲,又能同时生成专业级歌声和伴奏。


家人们震惊了!现在 AI 成精啦,不仅能写能画,现在连唱功都是格莱美级的了!


魅惑空灵电音女声,也太好听了吧!


来自机器之心音频:I wont back down


酷佬街头说唱,怎么有一股八方来财的味儿?


来自机器之心音频:酷佬 hiphop


强混嘹亮欧美女高,像极了阿黛尔~


来自机器之心音频:dawn2


极端的金属核嗓也不在话下!


来自机器之心音频:step back


日韩女团风,日韩英三语无缝切换!


来自机器之心音频:完璧な関係


还有这首 AI 新编版《世界赠与我的》!模仿王菲空灵仙嗓也太到位了吧,完全不一样的旋律,一样的嘎嘎好听,宁静中带一点哀伤的意境拿捏得简直了!



模仿碧梨的慵懒声线,确定不是碧梨本人在唱?



网友爆改 rap 版 YouTube 亿播神曲《Plastic Love》:



YuE(乐):开源版 Suno AI


上述所有让网友跪着听的炸裂神曲,全都出自港科大和音乐圈 DeepSeek —— Multimodal Art Projection(MAP)联手开源音乐生成基座 —— YuE(乐)。




这个模型可太强啦,直接对标 Suno AI,自春节期间放出以来 GitHub 已飙星 4500+,推特累计浏览上百万次!老外刷着 demo 直接给 Suno 和 Udio 开起追悼会:闭源音乐生成这是药丸!



作为第一个开源的全曲级歌曲生成基座,YuE 做到了连 Google 家的 MusicLM、Meta 家的 MusicGen 都做不到的事:不仅能建模长达 5 分钟的歌曲,又能同时生成专业级歌声和伴奏!


这是怎么实现的呢?


YuE 其实是一个双 LLaMA 语言模型架构(下图),因此无痛适配大部分大语言基建,非常容易 scale up。






在 YuE 之前,主要的学界工作还是把歌声合成(Singing Voice Synthesis)和音乐生成(Music Generation)分开做的,只有像 Suno AI、Udio 这样的闭源玩家们成功探索出来了端到端的歌曲生成,把两种任务合并到一起建模。有个别学界工作会分阶段对人声和伴奏分别建模,但是效果距离商业闭源还是差距较大,也没有开源。这里就不得不提 YuE 的双轨版 Next-Token Prediction(Dual-NTP)策略了。



YuE 的 Stage-1 LM 利用声伴分离先验,把人声和伴奏轨在同一个时间步分别用两个 token 建模(上图虚线框),巧妙地实现了歌声合成和音乐伴奏生成的联合建模。这不仅避免了离散 token 的信息损失问题,得以精准捕捉细腻人声,还保证了轨间对齐和端到端。




但为了达成数分钟级的歌曲建模,研究团队又对 Stage-1 LM 提出了另一个改进:结构化渐进生成(Structural Progressive Generation,缩写为 CoT),将歌曲拆分成主副歌段落后,通过文本 token(方形)、音频 token(圆形)在同上下文内交替排布的方式,避免了文本条件控制远程衰减的问题,使得人声轨能在全曲范围内准确跟随歌词控制。



消融显示,这种带有文本中间态的 CoT 在 0.5B 下比其它方法(原版、课程学习、ABF)具有更低的 Whisper 转录歌词错误率(橙线),并在 scale up 到 7B 之后得到更显著的收益(蓝线)。受限于 Whisper 的歌声转录性能,20% 的错误率已经接近 groundtruth 原曲的错误率。



不仅如此,团队还专门为音乐开发了特有的上下文学习(Music In-Context Learning,Music ICL)。与此前 TTS 领域的续写型 ICL 不同,音乐创作常常要求从一个动机出发向左右两边发展构造成曲,要避免抄袭鼓励创作。为此,Music ICL 将曲中任意 20~40 秒片段的音乐拼接到 CoT 数据开头,并在 Stage-1 LM 退火阶段利用约 2% 的计算量延迟激活这种格式。


团队发现,过早地激活 Music ICL 容易导致捷径学习(Shortcut Learning),让模型成为洗歌机器,对音乐创作能力有损。而延迟激活策略极大地节约了计算量,并且保护了模型的音乐性和创造力。这也带来了本文开头的风格克隆(Style Cloning)、声音克隆(Voice Cloning)、风格迁移(Style Transfer)的相应能力,模仿王菲、碧梨甚至爆改 Rap 版 City Pop。在测试时开启 ICL 和 CFG(Classifier Free Guidance)模式后,模型音乐性暴涨!



团队将 Stage-1 LM 扩展到 1.75T token,7B 的规模后,在人类偏好评测中获得了闭源级的音乐性和综合评分。



在人声音域上(下图数字越大音域越宽广),YuE 与国际领先的 Suno、Udio 处于同一水平线。



在生成时长上,YuE 也位于国际领先水平。



抄袭检测显示,即使提供训练集内样本,YuE 的查重率甚至低于学术数据集 GTZAN 的同流派内不同曲目相似度,更是远低于人类翻唱、改编曲目。



不仅如此,YuE 还有非常不错的 embedding 质量。作为一个生成模型,它的单轨无条件模式可用于抽取全曲级 embedding,而且表征质量和 SOTA 表征学习模型处于同一水平,甚至在调性识别上还超过了最新自监督学习 SOTA MuQ。这下确认 YuE 唱歌不会跑调啦!



还等什么,快来玩玩看吧~



交互式 Demo(非官方):



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

YuE AI音乐 开源 音乐生成
相关文章