Datawhale 07月24日 23:28
沐神B站更新了
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

李沐团队发布了其最新研发的Higgs Audio V2语音大模型教程,该模型能够同时理解和生成语音,并处理文本。与传统模型不同,Higgs Audio V2将语音任务转化为与文本相似的离散token表示,通过整合1000万小时的语音数据进行训练,实现了“大力出奇迹”的效果。该模型不仅能生成多语言对话、自动调整韵律、哼唱旋律,还能生成语音和背景音乐。在处理语音信号时,它采用了统一的离散化音频分词器,并在文本空间中映射语音语义。模型在EmergentTTS-Eval、Seed-TTS Eval和ESD等基准测试中表现出色,尤其在“情绪”和“问题”类别上远超GPT-4o-mini-tts。代码已在GitHub发布,并提供在线试玩平台。

✨ Higgs Audio V2模型整合了1000万小时语音数据,通过将语音信号离散化为token,并利用LLM进行训练,实现了强大的语音理解和生成能力。它能够处理文本,并同时生成语音,打破了传统语音和文本模型相互独立的壁垒。

🚀 该模型具备多种创新能力,包括生成多语言的自然多说话人对话、在旁白过程中自动调整韵律、使用克隆声音进行旋律哼唱,以及同时生成语音和背景音乐,为语音内容创作提供了极大的灵活性和创造空间。

💡 Higgs Audio V2通过训练一个统一的离散化音频分词器,以每秒25帧的速度运行,有效捕捉语音的语义和声学特征,同时保持甚至提高了音频质量。在模型训练过程中,通过利用额外训练的AudioVerse模型分析语音,输出场景、人物、情绪等信息,再反哺给生成模型,实现模型的共同进步。

🏆 在EmergentTTS-Eval基准上,Higgs Audio V2在“情绪”和“问题”类别中分别比GPT-4o-mini-tts高出75.7%和55.7%的胜率,在Seed-TTS Eval和情感语音数据集(ESD)等传统TTS基准测试中也取得了最佳性能,显示出其在语音合成领域的领先地位。

💻 李沐团队已将Higgs Audio V2的模型代码全部发布在GitHub,并提供了在线试玩平台和Hugging Face版本,方便用户自行安装和体验。对于喜欢创作鬼畜视频或虚拟主播的用户,该模型能够直接复制特定人物的声音,但建议提供匹配场景的语音信息以获得更好的声纹克隆效果。

2025-07-23 22:22 浙江

 Datawhale干货 

教程:李沐,编辑:量子位

这一天,辣个男人终于回想起……他的小破站账号!(活久见)

李沐老师终于带着他的手搓语音大模型教程回归了….

本期视频不讲论文,李沐老师来手把手教大家怎样玩转他们团队最新研发的Higgs Audio V2模型,不仅能处理文本,还能同时理解并生成语音。

除了一些常规语音任务外,这个模型还具备一些较为罕见的能力,比如生成多种语言的自然多说话人对话、旁白过程中的自动韵律调整、使用克隆声音进行旋律哼唱以及同时生成语音和背景音乐。

整个过程堪称“大力出奇迹”,直接将1000万小时的语音数据整合到LLM的文本训练,让它能听也能说。(当然还有亿点点细节)

粗暴,但有效!

鬼畜视频?人力手搓已经OUT了,李沐老师直接用算力帮大伙搞定,效果be like:

沐神教你手搓语音大模型

传统的语音和文本模型之间相互独立,李沐老师就想,欸,能不能将两者结合起来,直接让LLM用语音进行沟通。

那么首先就要知道文本语言模型的本质是用给定的一段指令去生成预测结果,就是将任务先拆解为系统指令(system)用户输入(user)模型回复(assistant)三个部分。

system告诉模型,需要做什么事情,例如回答该问题、写一段文字或者其他,user就是告知事情的详细内容,例如问题具体是什么、文字要什么风格。

所以如果要让模型支持语音,就需要为模型增加一个系统命令,在user里输入要转录为语音的文字,让模型从system里输出对应语音数据。

这样语音任务就能转换成相同的处理格式,直接打通语音和文本之间的映射,通过追加更多的数据和算力,直接scaling law“大力出奇迹”。

这就引出了新的问题,语音信号本质是连续的,要如何才能在离散的文本token中表示呢?

现有的方法是将一秒的语音信号裁切成多段(如100毫秒一段),为每一段匹配最相似的预定义模板(如45个模板),然后将其表示为长度为10的编号序列,也就是一个个token。

但这样做,虽然可以将一小时的音频从60兆压缩到0.16兆,但质量相当糟糕,所以需要优先保留语音的语义信息,而声学信号只保留少量部分,后续再通过其他手段还原。

于是他们训练了一个统一的离散化音频分词器,以每秒25帧的速度运行,同时保持甚至提高音频质量,以捕获语义和声学特征。

然后要让模型很好地理解和生成声音,就需要利用模型的文本空间,将语音的语义尽量地映射回文本,当中需要大量的数据支持。

由于版权问题,沐导没有使用B站或YouTube这类公开视频网站数据,而是购买或从允许抓取的网站获取。

这样得到的数据质量参差不齐,需要删除其中的90%才能满足1000万小时的训练数据需求。

其次,将语音对话表示为相应的system(场景描述、声学特征、人物特征等)、user(对话文本)、assistant(对应音频输出)的形式。

由于OpenAI和谷歌一向禁止使用他们的模型输出再训练,且训练成本过高,为了实现这种标注,他们利用相同的模型架构额外训练出一个语音模型AudioVerse

该模型接收用户语音输入,分析并输出场景、人物、情绪、内容等信息,再将输出反过来作为生成模型的system提示和user输入,实现模型的共同进步。

举个例子就是,如果想要教一个徒弟同时会拳脚功夫,但师傅一次又教不了,那就同时教两个徒弟,一个学打拳,一个学踢腿,然后让他们俩天天互相打,打着打着两个就都会拳脚功夫了。

最终,这个多模态模型就完成了,不仅可以完成简单的文本转语音,还能实现更复杂的任务,比如让它写一首歌并唱出来,再加上配乐。

还能根据语音分析场景、人物(性别、年龄、情绪状态)、环境音(室内外),并进行复杂的理解和推理。

在实时语音聊天上,还可实现低延迟、理解情绪并表达情绪的自然语音交互,而不仅仅是机械的问答。

EmergentTTS-Eval基准上,相较于其他模型,性能可以说是遥遥领先,尤其是在“情绪”和“问题”类别中,相比GPT-4o-mini-tts高出了75.7%和55.7%的胜率。

此外,它在Seed-TTS Eval和情感语音数据集 (ESD) 等传统TTS基准测试中也取得了最佳性能。

那么,我们能玩吗?相信同学们都已经跃跃欲试了。

放心,沐导都包圆了,模型代码都已全部发布在GitHub(可点击文末链接获取~),并提供了在线试玩平台和Hugging Face版本。

想要安装在自己电脑上的同学,需要准备好GPU版Pytorch,或使用media驱动提供的Docker简化安装,readme里还有一些语音样例(包含文本和对应的音频),大家可以自行体验学习。

尤其是喜欢搞搞鬼畜视频、虚拟主播的同学们,这个模型一定要试试,它可以直接复制特定人物的声音。

不过温馨提醒,生成特定场景的文本时,最好提供类似场景中人物说话的语音信息(例如吵架、放松、大笑的语音),可以更好地进行声纹克隆嗷~

视频教程:https://www.bilibili.com/video/BV1LGbozkEDY

模型代码:https://github.com/boson-ai/higgs-audio

给沐神三连

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

李沐 Higgs Audio V2 语音大模型 AI语音 深度学习
相关文章