掘金 人工智能 前天 22:25
别只盯着Suno了,腾讯端出的这盘“王炸”可能要改变游戏规则
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

腾讯AI Lab推出开源音乐大模型SongGeneration,旨在降低AI音乐创作门槛。该模型在音质、乐感和速度上有所突破,具备音色克隆、多轨生成、风格跟随等功能。开源策略为开发者和创作者提供了无限可能,有望推动AI音乐生态的繁荣。

🎤 音色克隆:只需3秒人声音频,即可“克隆”音色,用于创作新歌,为内容创作者提供无限可能。

🎼 多轨生成:模型可输出独立的人声和伴奏轨道,方便后期调整和二次创作,提升专业度。

🎸 风格跟随:上传10秒参考音频,模型即可创作风格、节奏、配器一致的新曲,适应多种音乐风格。

🎧 超低比特率编解码器:采用极低比特率的编解码器,实现“音乐速记”,提高处理速度和效率。

🤝 人类偏好对齐:通过引入音乐性、歌词对齐等偏好数据,使生成结果更符合人类听感。

当大家还在为 Suno 和 Udio 生成的以假乱真的旋律惊叹时,牌桌上的一个“老玩家”悄无声息地扔出了一对王炸。

是的,我说的就是腾讯 AI Lab。他们这次拿出的开源音乐大模型 SongGeneration,给我的感觉就像在平静的湖面投下了一颗深水炸弹。它不仅技术上硬核,而且“开源”这两个字,直接把格局拉满了。

作为一个天天泡在各种模型和代码里的人,我可以负责任地说,这不仅仅是一个新玩具,更像是一份宣言,一份要把音乐AIGC门槛彻底打下来的宣言。

一上来就解决“老大难”:音质、乐感和速度

玩过AI音乐生成的朋友都懂,最头疼的是什么?

要么是生成的曲子听着像上个世纪的MIDI音效,音质感人;要么是旋律东拼西凑,毫无“音乐性”可言;要么就是你输入“一首悲伤的歌”,它给你生成个二人转,驴唇不对马嘴。哦,对了,还有那动辄一杯咖啡才出结果的龟速。

SongGeneration 这次的目标非常明确,就是冲着这三大痛点来的。他们用的 LLM-DiT 融合架构,简单来说,就是让擅长理解人类语言的大模型(LLM)去当“制作人”,指挥专业的“音频渲染师”(DiT架构),在保证出活儿快的同时,把音质和乐感死死拿捏住。

听听这“黑话”:三秒克隆音色,双轨独立出声

光说不练假把式,我们来看看它的“绝活儿”。

核心技术拆解:不只是炼丹,更是巧思

为什么 SongGeneration 能做到这些?我深挖了一下它的技术论文,发现了一些非常有意思的东西:

    超低比特率的“音乐速记”:传统的AI在处理音频时,就像在读一本超厚的字典,又慢又累。SongGeneration 首创了一个极低比特率(0.35kbps)的编解码器。这好比是发明了一套“音乐速记法”,把复杂的音乐信息高度浓缩成最精华的符号。这样一来,大模型处理起来就轻松多了,速度和效率自然飙升。

    “混合”与“双轨”的协奏:为了保证人声和伴奏既和谐又有细节,它用了一种很聪明的策略。先生成一个“混合轨道”的草稿,确定整首歌的骨架和感觉,保证“人歌合一”。然后,再精细打磨独立的“双轨”,把人声的质感和伴奏的细节给拉满。一粗一细,配合默契。

    最懂你的“人类偏好对齐”:这是最接近“艺术感”的部分。腾讯不仅用海量数据喂它,还教会了它“审美”。通过引入音乐性、歌词对齐、提示词一致性这三个维度的偏好数据进行微调,让模型生成的结果不再是冰冷的算法堆砌,而是更符合人类听感的“好音乐”。评测里提到,它的歌词准确度甚至超过了Suno v4.5,这就是偏好对齐的功劳。

开源,才是真正的“核武器”

聊了这么多技术,但我觉得 SongGeneration 最具颠覆性的一点,是它选择了 开源

在 Suno、Udio 等闭源商业模型筑起高墙的今天,腾讯选择把自己的核心技术、模型权重、代码全部开放,这无疑是在向全球的开发者和创作者发出邀请:“来,一起玩,把它变得更强!”

这意味着:

我的看法:SongGeneration 的出现,就像是 AI 音乐圈的“安卓时刻”。它或许不是第一个做到“能听”的,但它通过开源,给了所有人一个机会,去构建一个百花齐放的生态。它的目标,可能不只是做一个“Suno杀手”,而是想成为未来无数AI音乐应用的“地基”。

总而言之,腾讯 AI Lab 的 SongGeneration 不仅是一款在技术上能与顶尖选手掰手腕的优秀模型,更用开放的姿态,为整个AI音乐创作领域注入了新的活力。

音乐创作的“大航海时代”,可能才刚刚拉开序幕。


如果你也对最新的AI信息感兴趣或者有疑问 都可以加入我的大家庭 第一时间分享最新AI资讯、工具、教程、文档 欢迎你的加入!!!😉😉😉

公众号:墨风如雪小站

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

SongGeneration AI音乐 开源 腾讯
相关文章