MiniCPM-o 2.6：视觉、语音和多模态流式能力达到了GPT-4o级别

PaperAgent 01月19日

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

MiniCPM-o 2.6模型在视觉、语音和多模态流式能力上达到了GPT-4o-202405的水平，是开源社区中模态支持最丰富、性能最佳的模型之一。该模型不仅优化了MiniCPM-V 2.6的各项能力，还增加了许多新功能。其语音模式支持可配置的中英双语语音对话，并具备情感、语速、风格控制等高级能力。视觉方面，提升了OCR、可信行为、多语言支持和视频理解能力。该模型采用端到端全模态架构和全模态流式机制，支持在iPad等端侧设备上进行多模态实时流式交互，并可通过文字或语音样例控制声音风格，实现端到端声音克隆。

👁️‍🗨️ MiniCPM-o 2.6模型在视觉、语音和多模态流式能力上达到了GPT-4o-202405的水平，是开源社区中模态支持最丰富、性能最佳的模型之一，总参数量为8B。

🎤 该模型在语音模式中支持可配置的中英双语语音对话，并具备情感/语速/风格控制、端到端声音克隆、角色扮演等进阶能力，用户可以通过文字或语音样例控制声音风格，甚至实现声音克隆和音色创建。

🖼️ MiniCPM-o 2.6进一步提升了MiniCPM-V 2.6的OCR、可信行为、多语言支持和视频理解等视觉能力。基于其领先的视觉token密度，MiniCPM-V 2.6成为首个支持在iPad等端侧设备上进行多模态实时流式交互的多模态大模型。

⚙️ 模型架构采用端到端全模态架构，通过端到端的方式连接和训练不同模态的编/解码模块，充分利用丰富的多模态知识。同时，模型还采用了全模态流式机制，将不同模态的离线编/解码器改造为适用于流式输入/输出的在线模块，并针对大语言模型基座设计了时分复用的全模态流式信息处理机制。

2025-01-15 13:30 湖北

MiniCPM-o 2.6，该模型视觉、语音和多模态流式能力达到了 GPT-4o-202405 级别，进一步优化了 MiniCPM-V 2.6 的众多亮点能力，还支持了很多有趣的新功能。

MiniCPM-o 系列的最新、性能最佳模型。总参数量 8B，视觉、语音和多模态流式能力达到了 GPT-4o-202405 级别，是开源社区中模态支持最丰富、性能最佳的模型之一。在新的语音模式中，MiniCPM-o 2.6 支持可配置声音的中英双语语音对话，还具备情感/语速/风格控制、端到端声音克隆、角色扮演等进阶能力。模型也进一步提升了 MiniCPM-V 2.6 的 OCR、可信行为、多语言支持和视频理解等视觉能力。基于其领先的视觉 token 密度，MiniCPM-V 2.6 成为了首个支持在 iPad 等端侧设备上进行多模态实时流式交互的多模态大模型。

模型架构

端到端全模态架构。通过端到端的方式连接和训练不同模态的编/解码模块以充分利用丰富的多模态知识。

全模态流式机制。 (1) 我们将不同模态的离线编/解码器改造为适用于流式输入/输出的在线模块。(2) 我们针对大语言模型基座设计了时分复用的全模态流式信息处理机制，将平行的不同模态的信息流拆分重组为周期性时间片序列。

可配置的声音方案。我们设计了新的多模态系统提示，包含传统文本系统提示词，和用于指定模型声音的语音系统提示词。模型可在推理时灵活地通过文字或语音样例控制声音风格，并支持端到端声音克隆和音色创建等高级能力。

https://github.com/OpenBMB/MiniCPM-o/tree/main

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签