阿里深夜炸場！通義千問發佈新一代端到端旗艦模型Qwen2.5-Omni

富途牛牛头条 03月27日 08:03

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

阿里巴巴推出通义千问系列最新旗舰模型Qwen2.5-Omni，一款端到端多模态模型，能够处理文本、图像、音频和视频等多种输入，并提供实时流式响应。该模型采用全新的Thinker-Talker架构和TMRoPE位置编码技术，实现了音视频的精准同步。Qwen2.5-Omni在语音生成方面表现出色，超越了许多现有替代方案，并在多模态和单模态任务中均展现出卓越性能，在OmniBench等多项基准测试中达到SOTA水平。该模型已在多个平台开源开放。

🎧 **全能创新架构:** Qwen2.5-Omni采用了全新的Thinker-Talker架构，这是一种端到端的多模态模型，能够支持文本、图像、音频和视频的跨模态理解，并以流式方式生成文本和自然语音响应。

⏱️ **实时音视频交互:** 该模型架构旨在支持完全实时交互，支持分块输入和即时输出，提供流畅的音视频体验。

🗣️ **自然流畅的语音生成:** Qwen2.5-Omni在语音生成的自然性和稳定性方面表现出色，超越了许多现有的流式和非流式替代方案。

🥇 **全模态性能优势:** 在同等规模的单模态模型进行基准测试时，Qwen2.5-Omni表现出卓越的性能，在音频能力上优于类似大小的Qwen2-Audio，并与Qwen2.5-VL-7B保持同等水平。

🏆 **卓越的端到端语音指令跟随能力:** Qwen2.5-Omni在端到端语音指令跟随方面表现出色，与文本输入处理效果相媲美，并在MMLU通用知识理解和GSM8K数学推理等基准测试中表现优异。

北京时间周四凌晨，阿里巴巴发布通义千问系列的最新旗舰模型Qwen2.5-Omni。这款端到端多模态模型专为广泛的多模态感知设计，能够处理文本、图像、音频和视频等多种输入，同时能够通过生成文本和合成语音提供实时流式响应。

据“通义千问Qwen”官方微信号介绍，这款模型的主要特点如下：

全能创新架构：Qwen团队提出了一种全新的Thinker-Talker架构，这是一种端到端的多模态模型，旨在支持文本/图像/音频/视频的跨模态理解，同时以流式方式生成文本和自然语音响应。Qwen提出了一种新的位置编码技术，称为TMRoPE（Time-aligned Multimodal RoPE），通过时间轴对齐实现视频与音频输入的精准同步。

实时音视频交互：架构旨在支持完全实时交互，支持分块输入和即时输出。

自然流畅的语音生成：在语音生成的自然性和稳定性方面超越了许多现有的流式和非流式替代方案。

全模态性能优势：在同等规模的单模态模型进行基准测试时，表现出卓越的性能。Qwen2.5-Omni在音频能力上优于类似大小的Qwen2-Audio，并与Qwen2.5-VL-7B保持同等水平。

卓越的端到端语音指令跟随能力：Qwen2.5-Omni在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果，在MMLU通用知识理解和GSM8K数学推理等基准测试中表现优异。

模型性能方面，Qwen2.5-Omni在包括图像，音频，音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型，例如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro。

在多模态任务OmniBench，Qwen2.5-Omni达到了SOTA的表现。此外，在单模态任务中，Qwen2.5-Omni在多个领域中表现优异，包括语音识别（Common Voice）、翻译（CoVoST2）、音频理解（MMAU）、图像推理（MMMU、MMStar）、视频理解（MVBench）以及语音生成（Seed-tts-eval和主观自然听感）。

该模型现已在 Hugging Face、ModelScope、DashScope 和 GitHub上开源开放。

编辑/new

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签