IT之家 03月27日 06:52
阿里云通义千问发布新一代端到端多模态旗舰模型 Qwen2.5-Omni 并开源,看听说写样样精通
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

阿里云推出了新一代端到端多模态旗舰模型Qwen2.5-Omni,该模型能够无缝处理文本、图像、音频和视频等多种输入形式,并以流式方式生成文本和自然语音输出。Qwen2.5-Omni采用了创新的Thinker-Talker架构,实现了实时音视频交互和自然流畅的语音生成。在多模态和单模态任务中,Qwen2.5-Omni均表现出卓越的性能,并在OmniBench等基准测试中达到了SOTA水平。该模型已在Hugging Face、ModelScope、DashScope和GitHub上开源。

🗣️ Qwen2.5-Omni 采用了全新的Thinker-Talker架构,这是一种端到端的多模态模型,支持文本、图像、音频、视频的跨模态理解,并能以流式方式生成文本和自然语音响应。

⏱️ 该模型引入了TMRoPE(Time-aligned Multimodal RoPE)位置编码技术,通过时间轴对齐实现视频与音频输入的精准同步,支持完全实时交互,实现分块输入和即时输出。

🎤 在语音生成方面,Qwen2.5-Omni 在自然性和稳定性方面超越了许多现有的流式和非流式替代方案,提供更加流畅的语音体验。

🏆 在同等规模的单模态模型基准测试中,Qwen2.5-Omni 表现出卓越的性能,在音频能力上优于 Qwen2-Audio,并与 Qwen2.5-VL-7B 保持同等水平,并在多模态任务OmniBench达到了SOTA的表现。

🧠 在端到端语音指令跟随方面,Qwen2.5-Omni 的表现与文本输入处理效果相当,在MMLU通用知识理解和GSM8K数学推理等基准测试中表现优异。

IT之家 3 月 27 日消息,今日凌晨,阿里云发布通义千问 Qwen 模型家族中新一代端到端多模态旗舰模型 ——Qwen2.5-Omni,并在 Hugging Face、ModelScope、DashScope 和 GitHub 上开源。

阿里云表示,该模型专为全方位多模态感知设计,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音合成输出。IT之家汇总其主要特点如下:

据官方介绍,Qwen2.5-Omni 采用 Thinker-Talker 双核架构。Thinker 模块如同大脑,负责处理文本、音频、视频等多模态输入,生成高层语义表征及对应文本内容;Talker 模块则类似发声器官,以流式方式接收 Thinker 实时输出的语义表征与文本,流畅合成离散语音单元。Thinker 基于 Transformer 解码器架构,融合音频 / 图像编码器进行特征提取;Talker 则采用双轨自回归 Transformer 解码器设计,在训练和推理过程中直接接收来自 Thinker 的高维表征,并共享全部历史上下文信息,形成端到端的统一模型架构。

模型架构图

模型性能方面,Qwen2.5-Omni 在包括图像,音频,音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型,例如 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro。

在多模态任务 OmniBench,Qwen2.5-Omni 达到了 SOTA 的表现。此外,在单模态任务中,Qwen2.5-Omni 在多个领域中表现优异,包括语音识别(Common Voice)、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU、MMStar)、视频理解(MVBench)以及语音生成(Seed-tts-eval 和主观自然听感)。

▲ 模型性能图

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Qwen2.5-Omni 多模态模型 阿里云
相关文章