魔搭ModelScope社区 2024年12月13日
AI Safeguard联合 CMU,斯坦福提出端侧多模态小模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Ivy-VL是由AI Safeguard联合CMU与斯坦福开发的轻量级多模态模型,旨在解决多模态大模型在移动端部署的难题。该模型参数量仅为3B,却在多个多模态榜单中取得SOTA成绩,具有卓越的性能。Ivy-VL基于LLaVA-One-Vision,结合先进的视觉编码器和强大的语言模型,在视觉问答、图像描述、复杂推理等任务中表现优异。它不仅降低了计算资源需求,还提升了响应速度,适用于AI眼镜、智能手机等资源受限的设备。Ivy-VL的开源和商业许可,方便了开发者快速上手,推动了移动端AI应用的发展。

🚀 **极致轻量化**: Ivy-VL模型参数仅为3B,大幅降低了计算资源需求,使其能够在AI眼镜、智能手机等资源受限的设备上高效运行。

🏆 **卓越性能**: Ivy-VL在多个多模态榜单中获得SOTA成绩,通过精细优化的数据集训练,展现出超越同类模型的性能,证明小模型也能实现重大突破,在OpenCompass榜单上,做到了4B以下开源模型第一的性能。

💡 **强大跨模态理解**: 基于LLaVA-One-Vision,结合先进的视觉编码器和强大的语言模型,Ivy-VL在视觉问答、图像描述、复杂推理等任务中表现优异,满足端侧应用的多模态需求。

🌍 **开放生态**: Ivy-VL模型开源且允许商用,方便开发者快速上手,无论是AI创新团队还是个人开发者,都能利用Ivy-VL构建自己的多模态应用。

2024-12-13 20:42 浙江

Ivy-VL,由AI Safeguard联合CMU与斯坦福开发,是一款轻量级多模态模型,以其高效、轻量化和强性能解决了端侧部署难题,推动移动端AI应用发展,为低功耗设备运行先进AI技术铺平道路。

01


介绍



随着人工智能的快速发展,多模态大模型(MLLMs)在计算机视觉、自然语言处理和多模态任务中扮演着重要角色。然而,受限于硬件资源和能效需求,将这些模型部署到移动设备和边缘设备上⼀直是⼀个巨大挑战。在这⼀背景下,Ivy-VL凭借卓越的性能,成为面向移动端多模态模型的新标杆。


Ivy-VL 是由 AI Safeguard 联合CMU与斯坦福开发的⼀款轻量级多模态模型。秉承⾼效、轻量化和强性能的设计理念,Ivy-VL 解决了多模态⼤模型在端侧部署中的诸多难题。模型的问世不仅推动了移动端 AI 应⽤的发展,也为更多设备在低功耗环境下运行先进 AI 技术铺平了道路。


模型下载链接:


模型体验链接:

https://modelscope.cn/studios/AI-Safeguard/Ivy-VL


02


模型亮点


1、极致轻量化

Ivy-VL 的参数量仅为 3B,极⼤地降低了计算资源需求,与7B 以几十B的多模态模型相比,具有更小的硬件占⽤。模型可⾼效运行于 AI 眼镜、智能手机等资源受限的设备上。


2、卓越性能

Ivy-VL在多个多模态榜单中夺得 SOTA(state-of-the-art)成绩。通过精⼼优化的数据集训练,Ivy- VL 展现了远超同类模型的性能,证明了小模型同样可以实现⼤突破。在专业多模态模型评测榜单OpenCompass上面,做到了 4B 以下开源模型第⼀的性能。超越了顶尖的端侧 SOTA 模型,包括Qwen2-VL-2B,InternVL2-2B,InternVL2.5-2B,SmolVLM-Instruct, Aquila-VL-2B 以及PaliGemma3B 等模型。


3、低延迟和高响应速度

3B 的LLM 模型大小,显著提升了Ivy-VL 的响应速度,确保其在端侧设备上实现实时推理。在⽣成速度、能效⽐和准确率之间,达到了完美平衡。


4、强大的跨模态理解能力

Ivy-VL基于 LLaVA-One-Vision,结合先进的视觉编码器(google/siglip-so400m-patch14- 384)与强⼤的语⾔模型(Qwen2.5-3B-Instruct),Ivy-VL 在视觉问答、图像描述、复杂推理等任务中表现优异,完美满⾜端侧应⽤的多模态需求。


5、开放生态

Ivy-VL 将模型开源,并且允许商用,⽅便开发者快速上手。无论是 AI 创新团队还是个⼈开发者,都可以利⽤ Ivy-VL 构建⾃⼰的多模态应⽤。


03


核心应用场景


04


测试用例


Ivy-VL 在科学⾃然问题中获得了很好的性能,可以发现在第⼀张图中,Ivy-VL能准确 de 识别是哪个⽣物体的生命周期,第⼆张图中判断图中哪个阶段代表冬至。



在推理和图表问题中,可以看出,在第⼀张图中,Ivy-VL 可以准确的识别出图中量杯的总容积是多少。第⼆张图中,需要进⾏的推理问题,模型同样给出正确的答案。

05


Ivy-VL 的未来展望



Ivy-VL 的诞⽣标志着轻量级多模态模型在端侧设备上的⼀次重要突破。未来,AI Safeguard将持优化 Ivy-VL步提升其视频模态任务中表现并探索更多⾏应⽤场景


Ivy-VL 为多模态大模型的边缘部署和普及开创了全新可能。无论是推动移动设备 AI 应⽤, 还是服务于广泛的 IoT 设备,Ivy-VL 都将是行业的理想之选。


点击阅读原文,即可跳转模型链接~




?点击关注ModelScope公众号获取

更多技术信息~



阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Ivy-VL 多模态模型 轻量级AI 端侧部署 AI应用
相关文章