PaperAgent 01月19日
MiniCPM-o 2.6:视觉、语音和多模态流式能力达到了GPT-4o级别
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

MiniCPM-o 2.6模型在视觉、语音和多模态流式能力上达到了GPT-4o-202405的水平,是开源社区中模态支持最丰富、性能最佳的模型之一。该模型不仅优化了MiniCPM-V 2.6的各项能力,还增加了许多新功能。其语音模式支持可配置的中英双语语音对话,并具备情感、语速、风格控制等高级能力。视觉方面,提升了OCR、可信行为、多语言支持和视频理解能力。该模型采用端到端全模态架构和全模态流式机制,支持在iPad等端侧设备上进行多模态实时流式交互,并可通过文字或语音样例控制声音风格,实现端到端声音克隆。

👁️‍🗨️ MiniCPM-o 2.6模型在视觉、语音和多模态流式能力上达到了GPT-4o-202405的水平,是开源社区中模态支持最丰富、性能最佳的模型之一,总参数量为8B。

🎤 该模型在语音模式中支持可配置的中英双语语音对话,并具备情感/语速/风格控制、端到端声音克隆、角色扮演等进阶能力,用户可以通过文字或语音样例控制声音风格,甚至实现声音克隆和音色创建。

🖼️ MiniCPM-o 2.6进一步提升了MiniCPM-V 2.6的OCR、可信行为、多语言支持和视频理解等视觉能力。基于其领先的视觉token密度,MiniCPM-V 2.6成为首个支持在iPad等端侧设备上进行多模态实时流式交互的多模态大模型。

⚙️ 模型架构采用端到端全模态架构,通过端到端的方式连接和训练不同模态的编/解码模块,充分利用丰富的多模态知识。同时,模型还采用了全模态流式机制,将不同模态的离线编/解码器改造为适用于流式输入/输出的在线模块,并针对大语言模型基座设计了时分复用的全模态流式信息处理机制。

2025-01-15 13:30 湖北

MiniCPM-o 2.6,该模型视觉、语音和多模态流式能力达到了 GPT-4o-202405 级别,进一步优化了 MiniCPM-V 2.6 的众多亮点能力,还支持了很多有趣的新功能。

MiniCPM-o 系列的最新、性能最佳模型。总参数量 8B,视觉、语音和多模态流式能力达到了 GPT-4o-202405 级别,是开源社区中模态支持最丰富、性能最佳的模型之一。在新的语音模式中,MiniCPM-o 2.6 支持可配置声音的中英双语语音对话,还具备情感/语速/风格控制、端到端声音克隆、角色扮演等进阶能力。模型也进一步提升了 MiniCPM-V 2.6 的 OCR、可信行为、多语言支持和视频理解等视觉能力。基于其领先的视觉 token 密度,MiniCPM-V 2.6 成为了首个支持在 iPad 等端侧设备上进行多模态实时流式交互的多模态大模型。

模型架构

https://github.com/OpenBMB/MiniCPM-o/tree/main

推荐阅读


欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

MiniCPM-o 2.6 多模态 大模型 流式交互 语音克隆
相关文章