PaperAgent 2024年09月05日
Mini-Omni:边听、边说、边思考多模态大模型,对标GPT-4 Omni
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Mini-Omni是开源多模型大型语言模型,具实时语音对话等功能,其训练分三阶段

🎤Mini-Omni是一个开源多模型大型语言模型,它可以实现实时端到端语音输入和流音频输出对话功能,无需额外的ASR或TTS模型,用户能够享受到便捷的语音交互体验。

🧠Mini-Omni具有一边听、一边说、一边思考的能力,能够同时生成文本和音频,大大提高了信息处理和交流的效率。

📈Mini-Omni的训练方法分为三个阶段,包括模态对齐、适应性训练和多模态微调。模态对齐增强文本模型理解和生成语音的能力;适应性训练专注于训练模型的文本功能;多模态微调则对整个模型进行综合调整,最大程度保留原始模型功能。

2024-09-03 15:02 湖北

Mini-Omni是一个开源多模型大型语言模型,可以一边听、一边说,一边思考。具有实时端到端语音输入和流音频输出对话功能。

Mini -Omni模型架构。

Mini-Omni训练方法分为三个不同的阶段:

Mini-Omni的三阶段训练阶段:模态扩展、模态适应训练和整体微调。

Mini-Omni特征

实时语音对话功能。无需额外的 ASR 或 TTS 模型。

一边说话一边思考,能够同时生成文本和音频。

流音频输出功能。

✅ 通过“音频到文本”和“音频到音频”批量推理进一步提升性能。

https://github.com/gpt-omni/mini-omnihttps://arxiv.org/abs/2408.16725

推荐阅读


欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Mini-Omni 语言模型 语音对话 多模态
相关文章