特工宇宙 01月06日
眼脑并用!Qwen 开源 QVQ 刷新视觉推理想象力
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

阿里云通义千问发布了全球首个开源多模态推理模型QVQ-72B-Preview,引发行业关注。该模型不仅能“看图说话”,更重要的是能将视觉信息与深度推理相结合,在视觉推理能力上取得了显著突破。QVQ在MMMU、MathVista等权威评测集上表现出色,展现出超预期的视觉理解和推理能力。通过实际测试,QVQ在电影片段识别、游戏画面分析、物体计数、路线规划、数学题解答以及艺术鉴赏等方面均展现出强大的能力,超越了其他同类模型。尽管仍存在一些局限性,QVQ的出现为多模态领域注入了新的活力,并为通往AGI的道路铺下了重要的基石。

🚀QVQ模型是全球首个开源的多模态推理模型,它不仅能识别图像,还能进行深度的视觉推理,这在行业内是一项重要的突破。

🔍在权威评测集如MMMU和MathVista上,QVQ展现了卓越的性能,证明其在视觉理解和推理方面的能力远超预期。

💡实际测试表明,QVQ在识别电影片段、游戏画面,甚至在复杂的数学和物理问题上都有出色的表现,其推理能力和细节分析能力令人印象深刻。

🚇QVQ不仅能识别图像内容,还能根据图像中的细节进行推理,例如通过地铁照片推断行驶方向和站点,展示了其细致的观察和分析能力。

🎨除了逻辑推理,QVQ在情商和艺术鉴赏方面也表现出色,能够准确判断画作的作者,这表明其在多模态理解方面的全面性。

原创 特工少女 2024-12-27 16:11 浙江

不止于看,更在于思。

近两年,大模型的发展从单模态进化到多模态,从基础对话进化到深度推理,AI 正在持续突破人类认知的边界(特别是在 23 年下半年,随着 GPT-4V、Claude-3 等新一代多模态模型的出现,“视觉智能”便成为了行业关注的焦点)。

然而,真正的技术突破不仅在于看得见,更在于想得透。在多模态领域,大多数模型仍处于“看图说话”的阶段,而能将视觉信息与深度推理相结合的凤毛麟角。

更值得注意的是,目前领先的多模态模型几乎都选择了闭源路线。一个能在视觉推理领域达到前沿水平的开源模型,无疑将为这个方向注入新的活力。

而就在 23 年年末的圣诞节,通义千问带来了一个重磅答案——QVQ(也太可爱了叭)

继上个月的 QwQ 之后,12 月 25 日,阿里云通义千问又发布了全球首个开源多模态推理模型 QVQ-72B-Preview(不愧是源神)

第一次看到这个讯息还是在 AK 大佬的帖子上,“这可能是第一个用于视觉推理的开放权重模型”。

也有网友表示:“QVQ 将视觉推理带到了下一个阶段”。

不得不说 Qwen 在海外是真火,还登上了 Hacker News 第二名。

QVQ 在 MMMU、MathVista 等权威评测集上的成绩单也是相当亮眼,都取得了超预期的视觉理解和推理能力。

?是睿智的狸,还是乡下的猹?让我们来实测一下‼️

体验地址:https://modelscope.cn/studios/Qwen/QVQ-72B-preview

不知道大家会不会有时候看到一个电影片段,或者刷到一个视频台词截图,但死活找不到片名。现在有了 AI 之后方便很多!

比如拿了个《Her》的片段截图,问了问 Claude 先生,很遗憾没答对。

但 QVQ 正确的回答了出来。

同理拿游戏画面测试,识别的也是相当准确。

甚至细节也描述的非常到位。

小试牛刀之后,让我们再来上点强度,来数数椅子!(说实话我一个真人都数成了四把)

QWQ 正确的回答出了五把,并且逐步思考的非常全面!而隔壁的 Claude 和 GPT o1 都回答错了。

说到思考全面,我们尝试复刻网友展示的一个 Case,拍了一张地铁上的照片,让 QVQ 告诉我该咋去唐人街。

没想到 QVQ 观察的十分细致,通过图片上一些人眼都很难注意到的细节,推理出当前的站点以及列车行驶方向。从多角度分析,并不断反思,最后总结出了一个合理的答案(看来是个心思缜密的 J 人?)

让我们再整点烧脑的数学题,就决定是你了,图论!

稍微有点糊咳咳(反正大家应该看不懂 bushi)但是经过 QVQ 详尽的分析,结果是对滴!

再来个硬核的物理题,发现 QvQ 依然不在话下(比我在搜题软件上得到的答案详尽的多!)

除了数理逻辑之外,情商和艺术鉴赏能力也十分在线。

让 QVQ 判断画作的作家也是手拿把掐。

在 AI 发展的众多突破中,QVQ 的出现让人眼前一亮。不是因为它有多少参数,也不是因为它在某个基准测试上刷新了记录,而是因为它展示了一种难得的可能性:当图像和语言在机器的"大脑"里不再是两条平行线,会擦出怎样的火花?

这个问题的意义远超技术本身。就像一个人,光是会说话还不够,光是会看东西也不够,关键是要把所见所闻融会贯通,形成自己的认知和判断。QVQ在这方面迈出了关键的一步——它不只是能看能说,更重要的是开始学会用看到的东西来思考和推理。

不过,在 QVQ 的官方博客中也有写道:尽管 QVQ 的性能超出了预期,但仍存在一些局限性(语言混合和代码切换、递归推理导致陷入循环没有响应等问题)通义千问的愿景是开发一个全方位的智能模型(A Omni and Smart Model),在不久的将来,我们计划将更多模式整合到一个统一的模型中,使其更加智能,能够应对复杂的挑战并参与科学探索。”

Blog:https://qwenlm.github.io/blog/qvq-72b-preview/

从这个角度看,或许 QVQ 的价值不在于它有多完美,而在于它为通往 AGI 的漫漫长路,铺下了一块重要的基石!

--完--




阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

QVQ 多模态推理 视觉智能 开源模型 通义千问
相关文章