Qwen2.5-Omni采用Thinker-Talker双核架构。Thinker负责“想”,Talker负责“说”,两者无缝协作!
Thinker模块如同大脑,负责处理文本、音频、视频等多模态输入,生成高层语义表征及对应文本内容。
Talker模块则类似发声器官,以流式方式接收Thinker实时输出的语义表征与文本,流畅合成离散语音单元。
Thinker基于Transformer解码器架构,融合音频/图像编码器进行特征提取;Talker则采用双轨自回归Transformer解码器设计,在训练和推理过程中直接接收来自Thinker的高维表征,并共享全部历史上下文信息,形成端到端的统一模型架构。
模型架构图
“卷”出新高度
Qwen2.5-Omni如何脱颖而出
Qwen2.5-Omni在包括图像,音频,音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型,例如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro。
在多模态任务OmniBench,Qwen2.5-Omni达到了SOTA的表现。此外,在单模态任务中,Qwen2.5-Omni在多个领域中表现优异,包括语音识别(Common Voice)、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU、MMStar)、视频理解(MVBench)以及语音生成(Seed-tts-eval和主观自然听感)。
模型性能图
快速上手
多模态交互一键开启
你可以通过Qwen Chat(https://chat.qwenlm.ai)发起语音/视频聊天感受模型能力。
此外,Qwen2.5-Omni 已全面开源,欢迎开发者们在各大平台探索和使用。
ModelScope
https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B
Hugging Face
https://huggingface.co/Qwen/Qwen2.5-Omni-7B
DashScope
https://help.aliyun.com/zh/model-studio/user-guide/qwen-omni
GitHub
https://github.com/QwenLM/Qwen2.5-Omni
Demo体验