PaperAgent 2024年09月25日
对标OpenAI高级语音【Her】的Moshi,全面Open!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Moshi全面开源,包括论文、技术细节等。它是语音-文本基础模型,由多个组件构成,能实现实时口语对话,性能优于之前模型。

🎤 Moshi由Helium、Mimi及新的多流架构组成。Helium是基于2.1T标记训练的7B语言模型;Mimi是神经音频编解码器,联合建模语义和声学信息;新多流架构用于联合建模不同通道音频。

💻 Moshi的改进之处在于其架构和训练。Mimi比SoundStream和Encodec有所改进,RQ-Transformer的变体增强了Helium,多流建模可对全双工对话动态进行建模。

📊 对Moshi的各方面进行了全面评估,包括质量、音频语言建模和口头问答等,发现其表现远优于之前发布的模型,还具有独特能力。

2024-09-25 11:02 湖北

开源版OpenAI高级语音Moshi的论文、技术细节、权重、代码统统开源

今天凌晨,OpenAI宣布高级语音(Advanced Voice)功能将在本周内向 ChatGPT应用中的所有Plus和Team用户推出。新增自定义指令、记忆、五种新声音和改进的口音,还支持50多种语言,但这项能力是闭源的!

而对标OpenAI对标OpenAI高级语音【Her】的Moshi,则全面Open:论文、技术细节、权重、代码统统开源!

Moshi演示效果

Moshi 由三个主要组件组成:Helium(基于 2.1T 标记训练的 7B 语言模型)、Mimi(用于对语义和声学信息进行建模的神经音频编解码器)以及新的多流架构(用于在不同通道上联合建模来自用户和 Moshi 的音频)。

Moshi概览Moshi是一个语音-文本基础模型,能够实现实时口语对话。Moshi架构的主要组成部分包括:一个定制的文本语言模型主干(Helium);一个带有残差向量量化的神经音频编解码器,并从自监督语音模型中提取语义知识(Mimi);对用户和Moshi进行语义和声学标记的流式、分层生成,以及在使用内部独白时Moshi的时间对齐文本标记。

Mimi 是一种神经音频编解码器,它通过使用蒸馏法联合建模语义和声学信息,比 SoundStream 和 Encodec 有所改进,灵感来自 SpeechTokenizer。不仅其改进的架构和对抗性训练使其优于 SpeechTokenizer,RVQGAN

然后,使用 RQ-Transformer 的变体来增强Helium,RQ-Transformer 是之前为离散图像生成提出的架构,它允许对语义和声学标记的层次结构进行建模,而无需增加 Helium(时间变换器)的序列长度,方法是

对生成音频的主要贡献如下:多流建模,在每个时间步长上堆叠 Moshi 和用户的标记,以便可以对全双工对话动态进行建模,包括重叠、反向通道、中断等。没有说话者轮流

内心独白的一个有趣的副产品是,通过延迟音频标记几秒钟,得到了一个流式 TTS 系统,而通过做相反的事情(延迟文本标记),得到了一个具有对齐的流式 ASR!

在对大规模音频进行预训练后,使用自己的模型创建合成对话:Helium 编写脚本,然后我们的多流 TTS 将其转换为全双工对话,总共,创建了 20,000 小时的数据,其中包含各种录音。

对Helium、Mimi 和 Moshi 进行了全面的评估,包括质量、音频语言建模和口头问答,以及广泛的安全性和量化分析。发现 Moshi 的表现远远优于之前发布的模型,同时具有独特的能力

Paper: https://kyutai.org/Moshi.pdfRepo: https://github.com/kyutai-labs/moshiHuggingFace: https://huggingface.co/kmhf

推荐阅读


欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Moshi 语音-文本模型 开源 多流架构
相关文章