IT之家 05月01日 10:38
阿里通义千问 2.5-Omni-3B AI 全模态登场:7B 版 90% 性能,显存占用减少 53%
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

阿里巴巴Qwen团队继Qwen2.5-Omni-7B后,发布轻量级多模态模型Qwen2.5-Omni-3B,可在Hugging Face下载。该模型专为消费级硬件设计,覆盖文本、音频、图像和视频等多种输入功能。尽管参数规模缩小,3B版本在多模态性能上仍保持了7B模型的90%以上,尤其在实时文本生成和自然语音输出方面表现亮眼。处理长上下文输入时,VRAM占用显著减少,可在24GB GPU上运行。但需注意,该模型仅限研究用途,商业使用需获取阿里巴巴Qwen团队许可。

💡Qwen2.5-Omni-3B是阿里巴巴Qwen团队发布的轻量级多模态模型,旨在降低AI模型的使用门槛,使其能够在消费级硬件上运行。

🖥️该模型在内存使用上进行了显著改进,处理25,000 token的长上下文输入时,VRAM占用减少53%,可在24GB GPU上运行,无需企业级GPU集群支持。

🗣️尽管参数规模缩小,Qwen2.5-Omni-3B在多模态性能上仍保持了7B模型的90%以上,尤其在实时文本生成和自然语音输出方面表现亮眼。

⚠️Qwen2.5-Omni-3B的使用受到严格限制,仅限研究用途,企业若想开发商业产品,必须先从阿里巴巴Qwen团队获取单独许可。

IT之家 5 月 1 日消息,阿里巴巴持续发力 AI 领域,其 Qwen 团队于 3 月发布 Qwen2.5-Omni-7B 模型后,昨日(4 月 30 日)再次发布 Qwen2.5-Omni-3B,目前可以在 Hugging Face 上开放下载。

IT之家注:这款 3B 参数模型是其 7B 旗舰多模态模型的轻量版本,专为消费级硬件设计,覆盖文本、音频、图像和视频等多种输入功能。

团队表示,尽管参数规模缩小,3B 版本在多模态性能上仍保持了 7B 模型的 90% 以上,尤其在实时文本生成和自然语音输出方面表现亮眼。

基准测试显示,其在视频理解(VideoBench: 68.8)和语音生成(Seed-tts-eval test-hard: 92.1)等任务中接近 7B 模型水平。

Qwen2.5-Omni-3B 在内存使用上的改进尤为突出。团队报告称,处理 25,000 token 的长上下文输入时,该模型 VRAM 占用减少 53%,从 7B 模型的 60.2 GB 降至 28.2 GB。

这意味着该模型可在 24GB GPU 上运行,无需企业级 GPU 集群支持,可以在高端台式机和笔记本电脑上运行。

其架构创新,如 Thinker-Talker 设计和定制位置嵌入方法 TMRoPE,确保了视频与音频输入的同步理解。此外,模型支持 FlashAttention 2 和 BF16 精度优化,进一步提升速度并降低内存消耗。

Qwen2.5-Omni-3B 的使用受到严格限制。根据许可条款,该模型仅限研究用途,企业若想开发商业产品,必须先从阿里巴巴 Qwen 团队获取单独许可,意味着该模型非直接生产部署,定位更偏向于测试和原型开发。

参考

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Qwen2.5-Omni-3B 多模态模型 阿里巴巴 AI 轻量化
相关文章