阿里通义千问推出视觉推理模型 QVQ-Max：可分析、推理图片和视频内容

IT之家 3 月 28 日消息，今天凌晨，阿里通义千问团队宣布推出新一代视觉推理模型 QVQ-Max。

据官方介绍，QVQ-Max 不仅能够理解图片和视频内容，还能为上述信息提供分析并推理。不止分析和推理，QVQ-Max 还可以完成设计插图、生成短视频剧本等内容，甚至根据用户的需求创建角色扮演内容。

QVQ-Max 的能力可以总结为三个方面：细致观察、深入推理和灵活应用。下面分别来说说它在这些方面的表现。

细致观察：抓住每一个细节

QVQ-Max 对图片的解析能力非常强，无论是复杂的图表还是日常生活中随手拍的照片，它都能快速识别出关键元素。比如，它可以告诉你一张照片里有哪些物品、有什么文字标识，甚至还能指出一些你可能忽略的小细节。

深入推理：不只是“看到”，还要“想到”

仅仅识别出图片里的内容还不够，QVQ-Max 还能进一步分析这些信息，并结合背景知识得出结论。例如，在一道几何题中，它可以根据题目附带的图形推导出答案；在一段视频里，它能根据画面内容推测出接下来可能发生的情节。

灵活应用：从解答问题到创作

除了分析和推理，QVQ-Max 还能做一些有趣的事情，比如帮你设计插画、生成短视频脚本，甚至根据你的需求创作角色扮演的内容。如果你上传一幅草稿，它可能会帮你完善成一幅完整的作品；上传一个日常照片，它可以化身犀利的评论家，占卜师。

QVQ-Max 的应用范围很广，无论是在学习、工作还是日常生活中都能派上用场。

职场工具：在工作中，QVQ-Max 可以协助完成数据分析、信息整理、编程写代码等任务。

学习助手：对于学生来说，QVQ-Max 可以帮助解答数学、物理等科目的难题，尤其是那些配有图表的题目。它还能通过直观的方式讲解复杂概念，让学习变得更轻松。

生活小帮手：在生活中，QVQ-Max 也能提供不少实用建议。比如，它可以根据你的衣柜照片推荐穿搭方案，或者根据食谱图片指导你如何烹饪一道新菜。

IT之家注意到，目前该模型已上线 Qwen Chat，用户只需上传任意图片或视频，提出问题，并点击“Thinking”按钮，即可使用 QVQ-Max 的推理能力。

阿里巴巴表示，这只是该模型演化过程中的一个阶段，未来还将持续优化其性能并扩展功能。

Fish AI Reader