我爱计算机视觉 2024年12月03日
准确性超Moshi和GLM-4-Voice!端到端语音双工模型Freeze-Omni
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Freeze-Omni 是一种端到端的语音双工对话模型,它能够在完全冻结大型语言模型(LLM)参数的情况下,为LLM接入语音输入和输出,实现语音对话能力。该模型通过三阶段训练策略,分别训练语音编码器、语音解码器和状态标签,有效解决了LLM灾难性遗忘和语音问答评估难题。Freeze-Omni 仅需少量数据和计算资源,语音问答准确性显著超越现有模型,同时保持LLM的知识能力,并具备低延迟的双工对话能力,为语音交互领域带来了新的突破。

🤔 **冻结LLM参数,保留知识能力:**Freeze-Omni在整个训练过程中完全冻结LLM参数,确保大型语言模型的知识能力和聪明度不受影响,避免了LLM微调导致的灾难性遗忘问题。

🚀 **低延迟双工对话:**通过一系列优化,Freeze-Omni实现了低延迟的双工对话能力,平均响应时延约为1.2秒,用户体验更加流畅自然。

📊 **语音问答准确性显著提升:**在多个语音问答数据集上的评估结果表明,Freeze-Omni的准确率显著超越了Moshi和GLM-4-Voice等现有模型,并有效缩小了语音问答与文本问答之间的准确率差距。

📚 **数据需求少,计算资源消耗低:**Freeze-Omni仅需要文本-语音配对数据和少量文本问答数据进行训练,大大降低了训练成本和难度。

💡 **支持多种LLM:**Freeze-Omni可以支持任何具有文本模态的大语言模型,并保留基底LLM的能力,例如提示服从和角色扮演等,具有广泛的应用前景。

52CV 2024-12-03 14:19

代码已开源




关注公众号,发现CV技术之美




GPT-4o提供的全双工语音对话带来了一股研究热潮,目前诸多工作开始研究如何利用LLM来实现端到端的语音到语音(Speech-to-Speech)对话能力,但是目前大部分开源方案存在以下两个问题:

针对上述这些问题,近日腾讯&西工大&南大的研究人员提出了一种低延迟的端到端语音双工对话模型Freeze-Omni(VITA大模型系列第二个工作),其可以在完全冻结LLM的情况下,为LLM接入语音输入和输出,使其能够支持端到端的语音对话能力,且通过一系列优化使得其具备低延迟的双工对话能力,其主要特性如下:


三阶段训练策略实现语音输入输出能力

Freeze-Omni的整体结构如图1所示,其包含有语音编码器(Speech Encoder)和语音解码器(Speech Decoder)以及基底LLM三部分。在运行过程中,流式的语音输入通过语音编码器形成分块(Chunk)特征,然后通过Adapter连接到LLM,LLM生成的Hidden State和文本Token的在分块分割后分别以块的形式送入非自回归前缀语音解码器(NAR Prefix Speech Decoder)和非自回归语音解码器(NAR Speech Decoder)以进行Prefill操作,最后自回归语音解码器(AR Speech Decoder)将会完成Generate操作以生成语音Token,并由Codec Decoder将其流式解码为语音信号输出。

图1. Freeze-Omni框架图

Freeze-Omni各个模块的三阶段训练策略如下:

流式语音编码器的三阶段训练:如图2所示,第一阶段(a)会先使用ASR数据训练一个具有ASR能力的语音编码。第二阶段(b)会以ASR任务为优化目标,将语音编码器与LLM做模态对齐,这个过程中LLM是处于冻结状态的。第三阶段(c)会使用由TTS系统合成的语音输入-文本回答的多轮QA数据进行训练,这里会使用第二阶段训练好的语音编码器,但是其参数保持冻结以保留其语音鲁棒性,而可训练的参数只有每个问题前的Prompt Embedding,用于指导LLM从ASR任务迁移到QA任务中。

图2. 流式语音编码器的三阶段训练示意图

流式语音解码器的三阶段训练:如图3所示,第一阶段(a)会先训练一个单码本的语音编解码模型,使用单码本的目的主要是为了降低计算复杂度和时延。第二阶段(b)将会训练NAR语音编码器和AR语音编码器,这里会使用文本-语音的TTS数据,其文本会通过基底LLM的Tokenizer转化为Token,再经过基底LLM的Embedding层转化为文本特征,这个过程中Embedding的参数是冻结的,训练目标的语音Token是由第一阶段的语音编码器提供。第三阶段(c)将会冻结第二阶段训练得到的所有网络,但同时加入了一个NAR Prefix语音编码器,其用于接受LLM输出的Hidden State,并将输出的kv-cache作为第二阶段模型的初始kv-cache,该过程使用的数据是文本输入-语音输出的QA数据,主要目的是为了使得语音编码器迁移到LLM的输出领域中。

图3. 流式语音解码器的三阶段训练示意图

双工对话的状态标签训练:如图4所示,为了实现双工交互,Freeze-Omni在语音编码器训练的第三阶段中,会为每个Chunk的最后一个语音帧对应的LLM输出Hidden State加入一个额外的分类层进行多任务训练,其目的主要是为了输出状态标签。当使用VAD激活语音流输入后,状态标签0表示LLM将会继续接受语音Chunk的输入,状态标签1表示LLM将会停止接收语音,且会打断用户并进入LLM的Generate阶段输出回复,状态标签2表示LLM也会停止接收语音,但不会打断用户,相当于对这次语音激活做了拒识。

图4. 全双工对话的状态标签训练示意图

模型性能测评

训练配置:Freeze-Omni在训练过程中,使用了开源Qwen2-7B-Instruct作为基底模型,语音编码器在训练过程中使用了11万小时中文英文混合的ASR数据,语音解码器训练过程使用了3000小时由TTS系统合成的文本-语音数据,所提到的QA数据是由6万条从moss-003-sft-data中抽取的多轮对话经过TTS系统合成得到的。

语音输入理解能力评估:Freeze-Omni提供了其在常见的英文测试集上的ASR性能测试结果,从中可以看出,其ASR准确性处于较为领先的水平。

图5. 语音理解能力评估

语音输出质量评估:Freeze-Omni提供了其在1000条LLM输出的Hidden State与Text Token上语音解码器生成的语音在使用ASR模型测试得到的词错误率(CER),从结果中可以看出NAR Prefix语音解码器的引入会有效降低词错误率,提高生成语音的质量。

图6. 语音输出质量评估

语音问答准确性评估:Freeze-Omni提供了其在LlaMA-Questions, Web Questions, 和Trivia QA三个集合上的语音问答准确率评估,从结果中可以看出Freeze-Omni的准确率具有绝对的领先水平,超越Moshi与GLM-4-Voice等目前SOTA的模型,并且其语音模态下的准确率相比其基底模型Qwen2-7B-Instruct的文本问答准确率而言,差距明显相比Moshi与其文本基底模型Helium的要小,足以证明Freeze-Omni的训练方式可以使得LLM在接入语音模态之后,聪明度和知识能力受到的影响最低。

图7. 语音问答准确性评估

系统延迟评估:Freeze-Omni还提供了端到端时延分析(即用户说完后到LLM输出音频的时间差),作者将其分为了可统计时延和不可统计时延两部分,其中可统计时延的总时长平均数仅为745ms,而作者也提到如果经过测量考虑到网络延迟和不可统计时延部分,则系统的平均响应时延在1.2s左右,在行业内仍为领先水平。

图8. 系统延迟评估

最新 AI 进展报道
请联系:amos@52cv.net

✈ 「互动赠书」

在本文留言区谈谈你在学习研究和开发AI的经历中有感悟的一件事,CV君将选择留言的一位粉丝送书《AI群星闪耀时》一本,希望留言是“有意义有启发”的,截止到12月4日16点,解释权保留。

END




欢迎加入「语音交流群?备注:voice




跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

语音对话 LLM Freeze-Omni 语音交互 端到端
相关文章