智源社区 03月01日
语音合成也遵循Scaling Law,太乙真人“原声放送”讲解论文 | 港科大等开源
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了Llasa语音合成法,由香港科技大学等推出,该法验证语音合成模型可遵循Scaling Law,提出简单框架,采用单层VQ编解码器和单个Transformer架构,研究了训练和推理时间扩展的影响,且成果开源。

🎤Llasa是一种单阶段TTS框架,基于Llama模型,采用单Transformer架构。

🔊语音分词器Xcodec2将语音波形编码为离散标记,保留语义和声学信息。

📈通过扩展模型规模和训练数据规模,提高语音合成性能,如自然度等。

💡探索推理阶段增加计算资源来优化语音质量的方法,如PRM和ORM。

活久见,太乙真人给讲论文了噻!

咳咳,诸位道友且听我一番唠叨。

老道我闭关数日,所得一篇妙诀,便是此Llasa之法。此术上个月一出,海外仙长们无不瞠目结舌,直呼“HOLY SHIT”!

热度最高时,曾在huggingface上的“丹药热度榜”上排第六。

咳咳,书回正传。

如上引发围观的成果由香港科技大学等联合推出,它验证语音合成模型,也可以遵循Scaling Law,即扩展计算资源、语音合成效果可以更好

它核心提出了一个语音合成的简单框架Llasa,该框架采用单层VQ编解码器和单个Transformer架构,和标准LLM保持一致。

研究团队提供了TTS模型(1B、3B、8B)、编解码器的checkpoint以及训练代码。

一气呵成TTS系统

近年来,基于Transformer的大型语言模型(LLM)在自然语言处理领域取得了显著进展,尤其是通过扩展模型规模和训练数据来提升性能。

然而,当前的TTS系统通常需要多阶段模型(例如在 LLM 后使用扩散模型),这使得在训练或推理阶段扩展计算资源变得复杂。

本研究提出了一种单阶段TTS框架Llasa,旨在简化这一过程,同时探索训练时间和推理时间扩展对语音合成的影响。

它基于Llama模型,采用单Transformer架构,结合了一个设计良好的语音分词器(tokenizer),能够将语音波形编码为离散的语音标记,并解码回高质量音频。

该框架的核心在于将语音和文本标记联合建模,通过预测下一个语音标记来生成语音。

关键组件:

    语音分词器(Xcodec2):将语音波形编码为离散标记,同时保留语音的语义和声学信息。

    Transformer模型:基于 Llama 初始化,学习文本和语音标记的联合分布。

验证Scaling Law

训练时间扩展(Scaling Train-time Compute)

研究者通过扩展模型规模和训练数据规模来研究其对语音合成性能的影响。

实验表明,增加模型参数(从1B到8B)和训练数据量(从80k小时到250k小时)可以显著提高语音的自然度、韵律准确性和情感表达能力。

关键发现:

    文本理解能力:更大的模型和更多的数据能够更好地理解复杂文本(如诗歌、情感文本)。数据越多,连生僻字,复合词也能辨其真意。

    零样本学习能力:扩展训练资源能够显著提高模型对未见说话人的语音克隆能力。

推理时间扩展(Scaling Inference-time Compute)

研究还探索了在推理阶段通过增加计算资源(例如使用语音理解模型作为验证器)来优化生成语音的质量。实验表明,推理时间扩展可以显著提高语音的情感表达、音色一致性和内容准确性。

关键方法:

    过程奖励模型(PRM):通过逐步优化生成过程来提高语音质量。

    输出奖励模型(ORM):通过评估最终生成的语音来选择最优输出。

实验结果

    语音分词器性能:提出的Xcodec2在多个指标上优于现有分词器,特别是在低比特率下的语音重建质量。

    TTS 性能:Llasa在LibriSpeech、Seed-TTS-Eval和ESD数据集上达到了最先进的性能,尤其是在情感相似性、音色相似性和零样本学习能力方面。

    推理时间扩展效果:通过PRM和ORM方法,推理时间扩展显著提高了语音合成的质量,尤其是在复杂任务中。

“开源渡世”

咳咳,太乙真人重新上线:

老道已将丹方(训练代码)、丹药(模型权重)公之于世,广邀三界修士共参:

秘方参照:Llasa: Scaling Train-Time and Inference-Time Compute for Llama-based Speech Synthesis

论文链接:https://arxiv.org/abs/2502.04128

Llasa 训练代码 https://github.com/zhenye234/LLaSA_training

Codec 训练 https://github.com/zhenye234/X-Codec-2.0

Llasa test-time-scaling代码 https://github.com/zhenye234/LLaSA_inference

模型权重: https://huggingface.co/collections/HKUSTAudio/llasa-679b87dbd06ac556cc0e0f44

诸位道友若有心得,不妨留言论道,老道自当一一解惑!

—  —

学术投稿请于工作日发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉我们:

你是谁,从哪来,投稿内容

附上论文/项目主页链接,以及联系方式哦

我们会(尽量)及时回复你

一键关注 ? 点亮星标

科技前沿进展每日见

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

内容中包含的图片若涉及版权问题,请及时与我们联系删除

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Llasa 语音合成 Scaling Law Transformer
相关文章