百川智能上线开源全模态模型 Omni-1.5，号称多项能力超越 GPT-4o mini

IT之家 01月26日

百川智能上线开源全模态模型 Omni-1.5，号称多项能力超越 GPT-4o mini

百川智能的Baichuan-Omni-1.5开源全模态模型正式上线，支持多模态理解与生成，在多个方面表现优异，具有多种强大功能，还构建了庞大数据库，并提供开源地址。

💻Baichuan-Omni-1.5支持文本、图像、音频和视频全模态理解与生成

🎯在视觉、语音等多方面表现优于GPT-4o mini，在多模态医疗领域具领先优势

🔊采用端到端音频解决方案，支持多语言对话、音频合成等功能

📽️对视频理解的多个关键环节优化，整体性能超GPT-4o-mini

IT之家 1 月 26 日消息，百川智能今日宣布，Baichuan-Omni-1.5 开源全模态模型正式上线。该模型不仅支持文本、图像、音频和视频的全模态理解，还具备文本和音频的双模态生成能力。

官方宣称，其在视觉、语音及多模态流式处理等方面，Baichuan-Omni-1.5 的表现均优于 GPT-4o mini；在多模态医疗应用领域，其具备更突出的领先优势。

Baichuan-Omni-1.5 不仅能在输入和输出端实现多种交互操作，还拥有强大的多模态推理能力和跨模态迁移能力。

其在音频技术领域采用了端到端解决方案，可支持多语言对话、端到端音频合成，还可实现自动语音识别、文本转语音等功能，且支持音视频实时交互。

据介绍，在视频理解能力方面，Baichuan-Omni-1.5 通过对编码器、训练数据和训练方法等多个关键环节进行深入优化，其整体性能大幅超越 GPT-4o-mini。

模型结构方面，Baichuan-Omni-1.5 的模型输入部分支持各种模态通过相应的 Encoder / Tokenizer 输入到大型语言模型中。

而在模型输出部分，Baichuan-Omni-1.5 采用了文本-音频交错输出的设计，通过 Text Tokenizer 和 Audio Decoder 同时生成文本和音频。

百川智能构建了一个包含 3.4 亿条高质量图片 / 视频-文本数据和近 100 万小时音频数据的庞大数据库，且在 SFT 阶段使用了 1700 万条全模态数据。

IT之家附开源地址如下：

GitHub：

https://github.com/baichuan-inc/Baichuan-Omni-1.5

模型权重：

Baichuan-Omni-1.5：
https://huggingface.co/baichuan-inc/Baichuan-Omni-1d5
https://modelers.cn/models/Baichuan/Baichuan-Omni-1d5
Baichuan-Omni-1.5-Base：
https://huggingface.co/baichuan-inc/Baichuan-Omni-1d5-Base
https://modelers.cn/models/Baichuan/Baichuan-Omni-1d5-Base

技术报告：

https://github.com/baichuan-inc/Baichuan-Omni-1.5/blob/main/baichuan_omni_1_5.pdf

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Baichuan-Omni-1.5 全模态模型多模态医疗音频技术

相关文章

OpenAI challenges Google Search + 2 more stories

vivo OriginOS 与 QQ 音乐成立联合实验室：offload 输出模式下手机续航最高提升近 9 小时

MiniMax不藏了，大秀视频/语音/文本全模态模型家族，“每天与世界交互30亿次”

全球首款脑机接口的 AI 耳机登场，这家公司想用意识操控一切

最好的纯血鸿蒙耳机降临！华为FreeBuds Pro 4前瞻

无问芯穹发布全球首个端侧全模态理解的开源模型Megrez-3B-Omni

Pavé微型扬声器通过新颖的音频技巧实现虚拟环绕音效

松下 Technics EAH-AZ100 耳机登场：60 年底蕴打造、独有磁流体驱动单元，售价 300 美元

iPad 也能跑 GPT-4o 级别模型，国产小钢炮的新模型可能会让 AI 硬件不再鸡肋