魔搭ModelScope社区 05月14日 22:54
阶跃多模态再添一员:阶跃与 ACE Studio 联合开源音乐大模型 ACE-Step!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

阶跃与ACE Studio联合开源了音乐大模型ACE-Step,该模型参数量为3.5B,专注于音乐生成与理解,支持多种语言的歌曲生成,具备快速高质量生成、强可控性、易于拓展等特点。ACE-Step采用一阶段DiT架构和REPA技术提升音乐结构性,结合DCAE与线性Transformer提升生成速度与效率。相较于传统开源模型,ACE-Step实现了全曲生成和精准时长控制,支持更自由的文本描述和风格输入,为全球创作者提供了更高效和灵活的创作工具。

🚀ACE-Step模型具备高效多元创作能力,支持多语言、极速生成和高质量的音乐创作表现,能够实现跨文化创作与高质量交付,同时支持多种主流音乐风格和高质量的纯音乐生成,最快15秒即可生成一整首歌。

🎼ACE-Step是一个全能的“编辑器”,提供高度的可控性,具备Edit和Retake/Repaint两大关键功能,创作者可以精确修改歌词内容,也可以重新生成风格相似的歌曲或对特定部分进行局部调整,从而高效灵活地打磨作品。

💡ACE-Step拥有高度的可拓展性,支持LoRA、ControlNet等主流微调方式,轻松适配多种音乐创作场景,满足个性化定制需求。例如,通过LoRA微调可以定制音乐风格,结合ControlNet技术能根据人声自动生成伴奏。

⚙️ACE-Step采用一阶段DiT架构结合REPA技术,提升了音乐的结构性,解决了传统模型在歌词发音准确性和旋律连贯性上的限制。同时,DCAE与线性Transformer的结合,提升了生成速度与效率,能够处理更长的音频数据。

🌐ACE-Step支持多种语言和多样化的音乐风格,更好地契合全球用户的创作需求,更加贴近现代音乐审美,实现了全曲生成和精准时长控制,并支持更自由的文本描述和风格输入。

2025-05-08 20:07 浙江

阶跃与ACE Studio联合开源了音乐大模型ACE-Step,进一步丰富了阶跃多模态模型家族。该模型专注于音乐生成与理解,为音乐创作、音频处理等领域提供强大支持。通过开源方式,推动音乐人工智能技术的发展与应用。

00

前言



一年前,阶跃与 ACE Studio 达成深度战略合作,依托 ACE Studio 的专业级音乐能力与阶跃领先的多模态技术,双方致力于打造最懂音乐的大模型,为广泛的音乐爱好者提供科技化的音乐表达工具。


一年后的今天,技术与艺术的融合成果展现,阶跃星辰与 ACE Studio 正式联合发布并开源音乐大模型——ACE-Step(中文名:音跃),成为继语音、视频、图片、视觉推理等多模态大模型之后的又一重要突破,展现了音乐创作与生成的最新进展。


ACE Studio 是一家以生成式 AI 技术为核心的科技公司,旗下的产品 ACE Studio,是一款 Gen-AI 为核心的音乐创作工作站产品(The Cursor.ai for music),用户遍布全球,包括格莱美获奖者,世界顶级的工作室都在使用。



ACE-Step 音跃大模型参数量为 3.5B,具备快速高质量生成、强可控性、易于拓展等特点,同时支持多种语言的歌曲生成,涵盖中、英、日、韩、西班牙、俄语等19 种语言。通过创新架构与训练策略,ACE-Step 提升了旋律的流畅性与歌词的契合度,让生成的音乐在旋律、结构上更完整、更具情感表达力。


作为一个通用性强的音乐基础模型,ACE-Step 支持包括 LoRA 和 ControlNet 在内的多种微调方式,可灵活适配音频编辑、人声合成、伴奏生成、声线克隆、风格迁移等多种下游任务,极大降低音乐 AI 应用的开发门槛。借助这些能力,ACE-Step 有望推动音乐生成领域迈向自己的 “Stable Diffusion 时刻”。


🎉魔搭社区创空间支持在线体验啦
🔗体验链接:https://modelscope.cn/studios/ACE-Step/ACE-Step


01

模型特点



ACE-Step 具备高效多元创作能力、强可控性易于拓展的三大核心特色。


1、高效多元创作支持

ACE-Step 具备出色的多语言支持、极速生成能力以及高质量的音乐创作表现,确保创作者能够实现跨文化创作与高质量交付。


    音乐质量与表现力兼顾

ACE-Step 支持多种主流音乐风格的创作,并能够生成丰富多样且兼具表现力的演唱、器乐编排,确保音乐的连贯性与和谐,并展现出风格的多样性。



除此之外,ACE-Step 也支持高质量的纯音乐生成。




    支持快速生成

ACE-Step 提供两种生成模式:快速和慢速模式。最快 15 秒即可生成一整首歌,慢速模式也仅需 32 秒。


    支持多语言生成

ACE-Step 支持 19 种语言(如中文、英文、西班牙语等)的歌曲生成,满足跨文化创作的需求。无论是本地化定制还是跨语言创作,ACE-Step 都能提供强大支持,帮助创作者轻松应对全球化的音乐创作需求。



ACE-Step 能精准捕捉每个乐器的音色和表现力,确保每个音符栩栩如生,并灵活展现不同歌唱技巧和音乐风格,让每一首歌都充满独特的韵味与深度。


2、全能编辑器:可控性强

ACE-Step 不仅仅是一个“生成器”,它还是一个全能的“编辑器”,在创作过程中提供高度的可控性。它为创作者提供了两个关键功能:Edit 和 Retake/Repaint,使得创作过程既精确又灵活。

    Edit 功能:精准歌词调整

创作者可以在不改变旋律的情况下,精确修改已生成歌曲的歌词内容、语气或情感表达,确保每行歌词与整体音乐风格完美契合。



修改第一句歌词:When I was young -> when you were kid



    Retake/Repaint 功能:灵活创作优化

如果生成的作品不完全符合创作需求,创作者可以使用 Retake 功能重新生成一首风格相似、结构类似的歌曲,或者通过 Repaint 对特定部分(如旋律或歌词)进行局部调整,进一步优化作品。


无论你想微调歌词,还是想重新构思整个作品,ACE-Step 都能帮助创作者在不同创段精确打磨作品。从而让创作更加高效灵活,加速创作的实用性。


由于音频上传限制,仅展示 Repaint 的效果


3、灵活拓展,覆盖多样创作需求

ACE-Step 拥有高度的可拓展性,支持 LoRA、ControlNet 等主流微调方式,轻松适配多种音乐创作场景,满足个性化定制需求。

    LoRA 微调(定制音乐风格):通过 LoRA 微调技术,ACE-Step 可以根据创作者的需求进行特定风格的定制化训练,如生成符合 rap 风格的歌词,确保输出内容与目标风格高度一致。


    ControlNet 微调(人声驱动伴奏生成):结合 ControlNet 技术,ACE-Step 能根据输入的旋律或人声自动生成相匹配的伴奏,提升音乐创作的个性化和灵活性。

02

技术亮点



上述特点的实现得益于 ACE-Step 在技术上的创新,借助先进的架构和训练策略,显著提升了生成质量、训练效率和模型的可扩展性,同时确保了音乐生成的速度、质量与灵活性。

ACE-Step 模型架构图


技术亮点一:一阶段 DiT 架构 + REPA 提升音乐结构性

传统的开源音乐生成模型大多采用两阶段架构:第一阶段生成语义代码,第二阶段通过 Diffusion 生成音频。这种方法在歌词发音的准确性和旋律的连贯性上存在限制,尤其在歌声的清晰度和乐器细节的表现上不足。


ACE-Step 采用一阶段 DiT 架构,并结合 REPA 技术,通过语义约束提升生成的音频质量。这个创新解决了传统模型的瓶颈,使得音频生成更加精确,且无需依赖声伴分离技术或歌词时间戳对齐,极大提高了生成的灵活性和训练效率。



技术亮点二:DCAE 与线性 Transformer 结合,提升生成速度与效率

在音频生成方面,ACE-Step 采用 DCAE(深度压缩自编码器)技术,通过压缩 Mel 频率,将 44.1kHz 的数据压缩至原来的 1/8,既减少了数据量,又保持了音质的细腻度,显著提升了训练收敛速度和生成效率。


同时,ACE-Step 引入线性 Transformer 架构,减少了显存占用并优化了计算复杂度,提高了训练的稳定性和效率。这两项技术不仅加速了音频生成,还能处理更长的音频数据,满足大规模创作的需求。



03

ACE-Step 优势



相比开源音乐模型,ACE-Step 展现了以下优势:

    全曲生成:ACE-Step 通过输入完整上下文生成音乐,真正实现了旋律与结构的一致性。尤其在歌曲的结尾部分能够自然复用开头的旋律,提供更加连贯的音乐体验,避免了断片式创作的突兀。


    精准时长控制:ACE-Step 能生成不同时长的完整音乐,无需后期剪辑。比如,ACE-Step 针对60 秒广告,能精确生成完整配乐。


    灵活输入格式:模型支持更自由的文本描述和风格输入,极大地拓宽了创作边界,允许创作者根据个人需求随心所欲地设定创作风格与内容。


    多语言与多风格生成:ACE-Step 支持多种语言(如中文、英语、西班牙语等)和多样化的音乐风格,从而更好地契合全球用户的创作需求,更加贴近现代音乐审美。



ACE-Step 的开源发布为全球创作者提供了更高效和灵活的创作工具,这是阶跃星辰与 ACE Studio 合作的一项重要成果。凭借强大的多模态能力和高度可定制的功能,为音乐创作带来了前所未有的自由度与精准度。未来,双方将进一步推动音乐模型技术演进,并探索在综合泛文娱产业的落地实践,为全球用户提供专业的音乐技术服务。


点击阅读原文, 即可跳转模型链接




👇点击关注ModelScope公众号获取
更多技术信息~




阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

ACE-Step 音乐大模型 AI音乐生成 阶跃星辰 ACE Studio
相关文章