2024-09-03 15:02 湖北
Mini-Omni是一个开源多模型大型语言模型,可以一边听、一边说,一边思考。具有实时端到端语音输入和流音频输出对话功能。
Mini -Omni模型架构。
Mini-Omni训练方法分为三个不同的阶段:
模态对齐。此阶段的目标是增强文本模型理解和生成语音的能力。Mini -Omni的核心模型完全冻结,仅在两个适配器中允许梯度。在此阶段,我们使用来自语音识别和语音合成的数据来训练模型的语音识别和合成能力。
适应性训练。一旦新模态与文本模型的输入对齐,适配器就会被冻结。在此阶段,我们只专注于在给定音频输入时训练模型的文本功能,因为音频输出只是从文本合成的。使用来自语音识别、口头问答和文本响应任务的数据对模型进行训练。
多模态微调。在最后阶段,使用综合数据对整个模型进行微调。此时,所有模型权重都解冻并进行训练。由于主要模态对齐任务是在适配器训练期间处理的,因此原始模型的功能得到了最大程度的保留。
Mini-Omni的三阶段训练阶段:模态扩展、模态适应训练和整体微调。
Mini-Omni特征
✅实时语音对话功能。无需额外的 ASR 或 TTS 模型。
✅一边说话一边思考,能够同时生成文本和音频。
✅流音频输出功能。
✅ 通过“音频到文本”和“音频到音频”批量推理进一步提升性能。
https://github.com/gpt-omni/mini-omni
https://arxiv.org/abs/2408.16725
推荐阅读
• 对齐LLM偏好的直接偏好优化方法:DPO、IPO、KTO
• RAG全景图:从RAG启蒙到高级RAG之36技,再到终章Agentic RAG!
• Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解(1.2万字,20+文献,27张图)
欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。