深度财经头条 03月27日 03:35
阿里深夜炸场!通义千问发布新一代端到端旗舰模型Qwen2.5-Omni
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

阿里巴巴推出旗舰多模态模型Qwen2.5-Omni,该模型能够处理文本、图像、音频和视频等多种输入,并以流式方式生成文本和语音。Qwen2.5-Omni采用了创新的Thinker-Talker架构和TMRoPE位置编码技术,实现了实时的音视频交互和自然流畅的语音生成。在多模态和单模态任务中,Qwen2.5-Omni均展现出卓越的性能,超越了同等规模的单模态模型和部分封闭源模型。该模型现已在多个平台开源开放。

💡Qwen2.5-Omni采用了全新的Thinker-Talker架构,这是一种端到端的多模态模型,支持文本、图像、音频和视频的跨模态理解,并能以流式方式生成文本和自然语音响应。

⏱️该模型支持完全实时交互,能够进行分块输入和即时输出,并采用了TMRoPE(Time-aligned Multimodal RoPE)位置编码技术,通过时间轴对齐实现视频与音频输入的精准同步。

🗣️在语音生成方面,Qwen2.5-Omni在自然性和稳定性方面超越了许多现有的流式和非流式替代方案。

🏆在多模态任务OmniBench中,Qwen2.5-Omni达到了SOTA的表现。在单模态任务中,Qwen2.5-Omni在语音识别、翻译、音频理解、图像推理、视频理解以及语音生成等多个领域表现优异。

🌍该模型已在Hugging Face、ModelScope、DashScope 和 GitHub上开源开放。


财联社3月27日讯,北京时间周四凌晨,阿里巴巴发布通义千问系列的最新旗舰模型Qwen2.5-Omni。这款端到端多模态模型专为广泛的多模态感知设计,能够处理文本、图像、音频和视频等多种输入,同时能够通过生成文本和合成语音提供实时流式响应。

据“通义千问Qwen”官方微信号介绍,这款模型的主要特点如下:

模型性能方面,Qwen2.5-Omni在包括图像,音频,音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型,例如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro。

在多模态任务OmniBench,Qwen2.5-Omni达到了SOTA的表现。此外,在单模态任务中,Qwen2.5-Omni在多个领域中表现优异,包括语音识别(Common Voice)、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU、MMStar)、视频理解(MVBench)以及语音生成(Seed-tts-eval和主观自然听感)。

该模型现已在 Hugging Face、ModelScope、DashScope 和 GitHub上开源开放。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

通义千问 Qwen2.5-Omni 多模态模型 人工智能 开源
相关文章