Cnbeta 03月27日 06:52
阿里通义千问新一代端到端旗舰模型Qwen2.5-Omni发布
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

阿里巴巴推出了新一代旗舰多模态模型Qwen2.5-Omni,这款模型集文本、图像、音频和视频处理于一身,并支持实时流式语音输出。Qwen2.5-Omni采用了创新的Thinker-Talker架构,实现了跨模态理解与流畅的语音合成。该模型在多项基准测试中表现出色,尤其在音视频处理方面具有显著优势。Qwen2.5-Omni已在多个平台上开源,为开发者提供了广泛的应用可能性。

🧠 **全能架构与多模态理解:** Qwen2.5-Omni采用创新的Thinker-Talker架构,实现文本、图像、音频、视频的跨模态理解。Thinker模块负责处理多模态输入,生成语义表征;Talker模块则以流式方式接收Thinker的输出,合成语音。

⏱️ **实时音视频交互:** Qwen2.5-Omni架构支持完全实时交互,可以分块输入并即时输出。模型引入TMRoPE位置编码技术,实现视频与音频输入的精准同步,提升了音视频处理的效率和质量。

🗣️ **卓越的语音生成能力:** Qwen2.5-Omni在语音生成的自然性和稳定性方面表现出色,超越了许多现有的流式和非流式替代方案。Talker模块采用双轨自回归Transformer解码器设计,确保语音输出的流畅性和连贯性。

🏅 **全模态性能优势:** Qwen2.5-Omni在音频、图像、音视频等多模态任务中表现优异,超越了类似规模的单模态模型,并在OmniBench多模态任务中达到了SOTA水平。在单模态任务中,该模型也在语音识别、翻译、音频理解、图像推理、视频理解和语音生成等多个领域表现出色。

🔓 **开源开放:** Qwen2.5-Omni已在Hugging Face、ModelScope、DashScope和GitHub上开源开放,为开发者提供了广泛的访问和应用可能性。

3月27日,北京时间周四凌晨,阿里巴巴发布通义千问系列的最新旗舰模型Qwen2.5-Omni。这款端到端多模态模型专为广泛的多模态感知设计,能够处理文本、图像、音频和视频等多种输入,同时能够通过生成文本和合成语音提供实时流式响应。

据“通义千问Qwen”官方微信号介绍,这款模型的主要特点如下:

全能创新架构:Qwen团队提出了一种全新的Thinker-Talker架构,这是一种端到端的多模态模型,旨在支持文本/图像/音频/视频的跨模态理解,同时以流式方式生成文本和自然语音响应。Qwen提出了一种新的位置编码技术,称为TMRoPE(Time-aligned Multimodal RoPE),通过时间轴对齐实现视频与音频输入的精准同步。

实时音视频交互:架构旨在支持完全实时交互,支持分块输入和即时输出。

自然流畅的语音生成:在语音生成的自然性和稳定性方面超越了许多现有的流式和非流式替代方案。

全模态性能优势:在同等规模的单模态模型进行基准测试时,表现出卓越的性能。Qwen2.5-Omni在音频能力上优于类似大小的Qwen2-Audio,并与Qwen2.5-VL-7B保持同等水平。

卓越的端到端语音指令跟随能力:Qwen2.5-Omni在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果,在MMLU通用知识理解和GSM8K数学推理等基准测试中表现优异。

Qwen2.5-Omni采用Thinker-Talker双核架构。Thinker模块如同大脑,负责处理文本、音频、视频等多模态输入,生成高层语义表征及对应文本内容;Talker 模块则类似发声器官,以流式方式接收 Thinker实时输出的语义表征与文本,流畅合成离散语音单元。Thinker 基于 Transformer 解码器架构,融合音频/图像编码器进行特征提取;Talker则采用双轨自回归 Transformer 解码器设计,在训练和推理过程中直接接收来自 Thinker 的高维表征,并共享全部历史上下文信息,形成端到端的统一模型架构。


模型架构图

模型性能方面,Qwen2.5-Omni在包括图像,音频,音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型,例如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro。

在多模态任务OmniBench,Qwen2.5-Omni达到了SOTA的表现。此外,在单模态任务中,Qwen2.5-Omni在多个领域中表现优异,包括语音识别(Common Voice)、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU、MMStar)、视频理解(MVBench)以及语音生成(Seed-tts-eval和主观自然听感)。


该模型现已在 Hugging Face、ModelScope、DashScope 和 GitHub上开源开放。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Qwen2.5-Omni 多模态模型 人工智能 阿里巴巴
相关文章