Mini-Omni：边听、边说、边思考多模态大模型，对标GPT-4 Omni

PaperAgent 2024年09月05日

Mini-Omni：边听、边说、边思考多模态大模型，对标GPT-4 Omni

Mini-Omni是开源多模型大型语言模型，具实时语音对话等功能，其训练分三阶段

🎤Mini-Omni是一个开源多模型大型语言模型，它可以实现实时端到端语音输入和流音频输出对话功能，无需额外的ASR或TTS模型，用户能够享受到便捷的语音交互体验。

🧠Mini-Omni具有一边听、一边说、一边思考的能力，能够同时生成文本和音频，大大提高了信息处理和交流的效率。

📈Mini-Omni的训练方法分为三个阶段，包括模态对齐、适应性训练和多模态微调。模态对齐增强文本模型理解和生成语音的能力；适应性训练专注于训练模型的文本功能；多模态微调则对整个模型进行综合调整，最大程度保留原始模型功能。

2024-09-03 15:02 湖北

Mini-Omni是一个开源多模型大型语言模型，可以一边听、一边说，一边思考。具有实时端到端语音输入和流音频输出对话功能。

Mini -Omni模型架构。

Mini-Omni训练方法分为三个不同的阶段：

模态对齐。此阶段的目标是增强文本模型理解和生成语音的能力。Mini -Omni的核心模型完全冻结，仅在两个适配器中允许梯度。在此阶段，我们使用来自语音识别和语音合成的数据来训练模型的语音识别和合成能力。

适应性训练。一旦新模态与文本模型的输入对齐，适配器就会被冻结。在此阶段，我们只专注于在给定音频输入时训练模型的文本功能，因为音频输出只是从文本合成的。使用来自语音识别、口头问答和文本响应任务的数据对模型进行训练。

多模态微调。在最后阶段，使用综合数据对整个模型进行微调。此时，所有模型权重都解冻并进行训练。由于主要模态对齐任务是在适配器训练期间处理的，因此原始模型的功能得到了最大程度的保留。

Mini-Omni的三阶段训练阶段：模态扩展、模态适应训练和整体微调。

Mini-Omni特征

✅实时语音对话功能。无需额外的 ASR 或 TTS 模型。

✅一边说话一边思考，能够同时生成文本和音频。

✅流音频输出功能。

✅ 通过“音频到文本”和“音频到音频”批量推理进一步提升性能。

https://github.com/gpt-omni/mini-omnihttps://arxiv.org/abs/2408.16725

推荐阅读

• 对齐LLM偏好的直接偏好优化方法：DPO、IPO、KTO

• 2024：ToB、Agent、多模态

• RAG全景图：从RAG启蒙到高级RAG之36技，再到终章Agentic RAG！

• Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解（1.2万字，20+文献，27张图）

欢迎关注我的公众号“PaperAgent”，每天一篇大模型（LLM）文章来锻炼我们的思维，简单的例子，不简单的方法，提升自己。

跳转微信打开

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Mini-Omni 语言模型语音对话多模态

相关文章

Coalition of news publishers sue Microsoft and OpenAI

This AI Paper by Microsoft and Tsinghua University Introduces YOCO: A Decoder-Decoder Architectures for Language Models

OLMo: Everything You Need to Train an Open Source LLM with Akshita Bhagia - #674

Multilingual LLMs and the Values Divide in AI with Sara Hooker - #651

BloombergGPT - an LLM for Finance with David Rosenberg - #639

AI Trends 2023: Reinforcement Learning - RLHF, Robotic Pre-Training, and Offline RL with Sergey Levine - #612

Scaling BERT and GPT for Financial Services with Jennifer Glore - #561

Using Brain Imaging to Improve Neural Networks with Alona Fyshe - #513

Can Language Models Be Too Big? ? with Emily Bender and Margaret Mitchell - #467

Nexus Lab Cohort 2 - Second Mind - TWiML Talk #66