阶跃星辰 05月08日 15:31
阶跃多模态再添一员:阶跃与 ACE Studio 联合开源音乐大模型 ACE-Step!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

阶跃星辰与 ACE Studio 联合发布并开源音乐大模型 ACE-Step,这是一款参数量为 3.5B 的多语言音乐创作工具。它具备快速生成、强可控性和易于拓展的特点,支持中英等 19 种语言,并提供 Edit 和 Retake/Repaint 功能,让创作者可以精准调整歌词和优化作品。ACE-Step 采用创新架构,提升了旋律流畅性和歌词契合度,支持 LoRA 和 ControlNet 等微调方式,满足多样化音乐创作需求,有望推动音乐生成领域的发展。

🎼 高效多元创作:ACE-Step 支持19种语言的歌曲生成,并提供快速和慢速两种生成模式,最快15秒即可生成一整首歌,满足跨文化创作需求,支持多种主流音乐风格,确保音乐的连贯性与和谐。

🎤 全能编辑器:ACE-Step 提供 Edit 和 Retake/Repaint 功能,Edit 功能允许精准修改歌词,Retake/Repaint 功能则可灵活优化作品,创作者可以在不同创作阶段精确打磨作品,使创作过程更高效灵活。

⚙️ 灵活拓展:ACE-Step 支持 LoRA 和 ControlNet 等主流微调方式,通过 LoRA 微调技术进行特定风格定制,结合 ControlNet 技术实现人声驱动伴奏生成,满足个性化定制需求,拓展音乐创作场景。

💡 技术亮点:ACE-Step 采用一阶段 DiT 架构结合 REPA 技术提升音乐结构性,解决了传统模型在歌词发音和旋律连贯性上的限制;同时,DCAE 与线性 Transformer 结合提升生成速度与效率,加速音频生成,并能处理更长的音频数据。

拥抱开源的 2025-05-07 15:31 北京

音乐创作的全能“编辑器”:高效多元、强可控、可编辑,满足多样化需求。

一年前,阶跃与 ACE Studio 达成深度战略合作,依托 ACE Studio 的专业级音乐能力与阶跃领先的多模态技术,双方致力于打造最懂音乐的大模型,为广泛的音乐爱好者提供科技化的音乐表达工具。

一年后的今天,技术与艺术的融合成果展现,阶跃星辰与 ACE Studio 正式联合发布并开源音乐大模型——ACE-Step(中文名:音跃),成为继语音、视频、图片、视觉推理等多模态大模型之后的又一重要突破,展现了音乐创作与生成的最新进展。

ACE Studio 是一家以生成式 AI 技术为核心的科技公司,旗下的产品 ACE Studio,是一款 Gen-AI 为核心的音乐创作工作站产品(The Cursor.ai for music),用户遍布全球,包括格莱美获奖者,世界顶级的工作室都在使用。

ACE-Step 音跃大模型参数量为 3.5B,具备快速高质量生成、强可控性、易于拓展等特点,同时支持多种语言的歌曲生成,涵盖中、英、日、韩、西班牙、俄语等19 种语言。通过创新架构与训练策略,ACE-Step 提升了旋律的流畅性与歌词的契合度,让生成的音乐在旋律、结构上更完整、更具情感表达力。

作为一个通用性强的音乐基础模型,ACE-Step 支持包括 LoRA 和 ControlNet 在内的多种微调方式,可灵活适配音频编辑、人声合成、伴奏生成、声线克隆、风格迁移等多种下游任务,极大降低音乐 AI 应用的开发门槛。借助这些能力,ACE-Step 有望推动音乐生成领域迈向自己的 “Stable Diffusion 时刻”。

模型特点

ACE-Step 具备高效多元创作能力、强可控性易于拓展的三大核心特色。

1、高效多元创作支持

ACE-Step 具备出色的多语言支持、极速生成能力以及高质量的音乐创作表现,确保创作者能够实现跨文化创作与高质量交付。

ACE-Step 支持多种主流音乐风格的创作,并能够生成丰富多样且兼具表现力的演唱、器乐编排,确保音乐的连贯性与和谐,并展现出风格的多样性。

除此之外,ACE-Step 也支持高质量的纯音乐生成。

ACE-Step 提供两种生成模式:快速和慢速模式。最快 15 秒即可生成一整首歌,慢速模式也仅需 32 秒。

ACE-Step 支持 19 种语言(如中文、英文、西班牙语等)的歌曲生成,满足跨文化创作的需求。无论是本地化定制还是跨语言创作,ACE-Step 都能提供强大支持,帮助创作者轻松应对全球化的音乐创作需求。

ACE-Step 能精准捕捉每个乐器的音色和表现力,确保每个音符栩栩如生,并灵活展现不同歌唱技巧和音乐风格,让每一首歌都充满独特的韵味与深度。

2、全能编辑器:可控性强

ACE-Step 不仅仅是一个“生成器”,它还是一个全能的“编辑器”,在创作过程中提供高度的可控性。它为创作者提供了两个关键功能:Edit 和 Retake/Repaint,使得创作过程既精确又灵活。

创作者可以在不改变旋律的情况下,精确修改已生成歌曲的歌词内容、语气或情感表达,确保每行歌词与整体音乐风格完美契合。

修改第一句歌词:When I was young -> when you were kid

如果生成的作品不完全符合创作需求,创作者可以使用 Retake 功能重新生成一首风格相似、结构类似的歌曲,或者通过 Repaint 对特定部分(如旋律或歌词)进行局部调整,进一步优化作品。

无论你想微调歌词,还是想重新构思整个作品,ACE-Step 都能帮助创作者在不同创段精确打磨作品。从而让创作更加高效灵活,加速创作的实用性。

由于音频上传限制,仅展示 Repaint 的效果

3、灵活拓展,覆盖多样创作需求

ACE-Step 拥有高度的可拓展性,支持 LoRA、ControlNet 等主流微调方式,轻松适配多种音乐创作场景,满足个性化定制需求。

技术亮点

上述特点的实现得益于 ACE-Step 在技术上的创新,借助先进的架构和训练策略,显著提升了生成质量、训练效率和模型的可扩展性,同时确保了音乐生成的速度、质量与灵活性。

ACE-Step 模型架构图

技术亮点一:一阶段 DiT 架构 + REPA 提升音乐结构性

传统的开源音乐生成模型大多采用两阶段架构:第一阶段生成语义代码,第二阶段通过 Diffusion 生成音频。这种方法在歌词发音的准确性和旋律的连贯性上存在限制,尤其在歌声的清晰度和乐器细节的表现上不足。

ACE-Step 采用一阶段 DiT 架构,并结合 REPA 技术,通过语义约束提升生成的音频质量。这个创新解决了传统模型的瓶颈,使得音频生成更加精确,且无需依赖声伴分离技术或歌词时间戳对齐,极大提高了生成的灵活性和训练效率。

技术亮点二:DCAE 与线性 Transformer 结合,提升生成速度与效率

在音频生成方面,ACE-Step 采用 DCAE(深度压缩自编码器)技术,通过压缩 Mel 频率,将 44.1kHz 的数据压缩至原来的 1/8,既减少了数据量,又保持了音质的细腻度,显著提升了训练收敛速度和生成效率。

同时,ACE-Step 引入线性 Transformer 架构,减少了显存占用并优化了计算复杂度,提高了训练的稳定性和效率。这两项技术不仅加速了音频生成,还能处理更长的音频数据,满足大规模创作的需求。

ACE-Step 优势

相比开源音乐模型,ACE-Step 展现了以下优势:

ACE-Step 的开源发布为全球创作者提供了更高效和灵活的创作工具,这是阶跃星辰与 ACE Studio 合作的一项重要成果。凭借强大的多模态能力和高度可定制的功能,为音乐创作带来了前所未有的自由度与精准度。未来,双方将进一步推动音乐模型技术演进,并探索在综合泛文娱产业的落地实践,为全球用户提供专业的音乐技术服务。

开源链接与体验地址:

Huggingface:

https://huggingface.co/ACE-Step/ACE-Step-v1-3.5B

Huggingface Space Demo:

https://huggingface.co/spaces/ACE-Step/ACE-Step

Github:

https://github.com/ace-step/ACE-Step

Github 项目页:

https://ace-step.github.io/

推荐阅读

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

ACE-Step 音乐创作 开源模型
相关文章