Cnbeta 03月28日 23:17
阿里通义千问推出QVQ-Max视觉推理模型:有“眼力”,更有“脑力”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

阿里通义千问团队推出了QVQ-Max视觉推理模型,该模型具备强大的多模态处理能力,能够“看懂”图片和视频,并进行分析、推理。新模型在MathVision榜单上展现了解决复杂数学问题的潜力。QVQ-Max的核心能力体现在细致观察、深入推理和灵活应用三个方面,可以识别图片关键元素、结合背景知识推导结论,并进行插画设计、生成短视频脚本等创作。通义千问旨在通过该模型提升用户体验,拓展AI应用场景。

🧐 细致观察:QVQ-Max具备强大的图片解析能力,能够快速识别图片中的关键元素,包括物品、文字标识等细节信息。例如,它可以识别出照片中的具体物品,并指出用户可能忽略的细节。

💡 深入推理:QVQ-Max不仅能识别图片内容,还能结合背景知识进行分析和推理。它能够根据几何题中的图形推导出答案,或根据视频内容推测接下来可能发生的情节。

🎨 灵活应用:除了分析和推理,QVQ-Max还能进行创作,例如设计插画、生成短视频脚本,甚至创作角色扮演内容。用户可以上传草稿或照片,模型会提供完善或评论建议,满足多样化的需求。

3月28日,阿里通义千问团队发文宣布,正式推出QVQ-Max视觉推理模型第一版。该团队表示,去年12月发布的探索模型QVQ-72B-Preview存在一些不足,而新版本的模型具备强大的多模态处理能力,它不仅能够“看懂”图片和视频里的内容,还能结合这些信息进行分析、推理,甚至给出解决方案。

从数学题到生活小问题,从编程代码到艺术创作,QVQ-Max都表现出了不俗的能力。


MathVision榜单测评图 图源:通义千问官方公众号

在权威的MathVision榜单测评中,通过对模型thinking最大长度的调整,其在解决复杂数学问题的准确率上呈现出持续上升的趋势,充分彰显了该模型蕴含的巨大潜力。

据悉QVQ-Max的核心能力,主要体现在三个关键维度:

细致观察:QVQ-Max对图片的解析能力非常强,无论是复杂的图表还是日常生活中随手拍的照片,它都能快速识别出关键元素。比如,它可以告诉你一张照片里有哪些物品、有什么文字标识,甚至还能指出一些你可能忽略的小细节

深入推理:仅仅识别出图片里的内容还不够,QVQ-Max 还能进一步分析这些信息,并结合背景知识得出结论。例如,在一道几何题中,它可以根据题目附带的图形推导出答案;在一段视频里,它能根据画面内容推测出接下来可能发生的情节。

灵活应用:除了分析和推理,QVQ-Max 还能做一些有趣的事情,比如帮你设计插画、生成短视频脚本,甚至根据你的需求创作角色扮演的内容。如果你上传一幅草稿,它可能会帮你完善成一幅完整的作品;上传一个日常照片,它可以化身犀利的评论家。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

通义千问 QVQ-Max 视觉推理 多模态
相关文章