原创鱼丸 2025-07-03 15:17 新加坡

边说边改，会“思考”的生成模型

作者｜鱼丸

编辑｜星奈

媒体｜AI大模型工场

从大模型爆火到现在，多模态大模型一直是行业发展的核心主旋律之一。从理解图文内容，到能听、能看、能说、能画，AI在不断向“人类感知”靠近。OpenAI的Sora、GPT-4o、谷歌的Gemini系列，以及国产的豆包、通义、文心、元宝等等也都在争夺通用智能的多模态赛道。

但我们也看到，多模态在“能看懂”到“能生成”之间，其实存在一道难以逾越的“语义鸿沟”。很多模型虽然可以识图、识物，却难以在理解基础上进行高质量创作和精准控制，尤其在图像编辑、风格迁移、复杂场景组合等任务中，仍存在很大的缺陷。

最近两天，阿里推出的多模态理解和生成模型Qwen VLo，正在尝试打破这道鸿沟，让AI不仅能“看懂”世界，更能“描绘”世界。

AI大模型工场了解到，Qwen VLo采用了独特的渐进式图片生成方式。就像下方里呈现的那样，从左至右、自上而下，模型逐步清晰地勾勒出整幅图片。在这个过程中，Qwen VLo可以不断地对预测内容进行调整优化，以此保证最终成果更加协调统一。

这种生成机制，不仅大幅提升了视觉呈现效果，还可以体验到更加灵活和可控的体验，有一种看着作品逐步生成下一步的惊喜感。

现在我们就能通过Qwen Chat（chat.qwen.ai）访问这一模型的预览版，AI大模型工场也亲自上手测试，看看它如何“描绘”世界？

Qwen VLo亮点三合一：

多模态创作能力提升

Qwen VLo通过语义一致性强化、开放指令生态构建及多语言支持，实现从基础的多模态处理到更加智能的创意协作的跨越。

1、多模态理解与生成能力进阶升级

相较于传统多模态模型在内容生成中常出现的语义偏差问题（例如物体类型误判、原图结构特征丢失等），Qwen VLo 通过强化细节捕捉机制，实现了生成内容与原始输入的高度语义一致性。这种能力让模型在图像理解与再创作过程中，能精准保留核心元素特征，避免语义断层。

2、开放指令驱动的灵活创作体系

生成图片后可通过自然语言下达多样化指令，风格迁移，场景优化等，并且模型不仅支持艺术创作，还能完成传统视觉感知任务生成深度图、分割图、检测图及边缘信息或者一些复杂的指令执行，同步实现物体修改、文字编辑与背景更换等多维度操作。

3、多语言交互的全球化适配

Qwen VLo突破语言限制，支持中文、英文等多语种指令输入，为不同语言背景的用户提供统一的交互体验，实现跨文化场景下的多模态创作与处理需求。

基于以上优点Qwen VLo到底“描绘”的有多细致呢，让我们来看一下~

会“思考”的绘画大师：

边说边改多种需求全部满足

Qwen VLo 能够直接生成图像，并对其进行修改，例如替换背景、添加主体、进行风格迁移。

首先我们输入生成一张可爱的布娃娃：

可以看到Qwen VLo生成了一个卡通风格，穿蓝色连衣裙抱着兔子的娃娃，符合可爱的要求，并且自动添加了花的背景。

接着我们再提出要求布娃娃换一件粉色的裙子。

风格没有变化，背景也基本保持了一致，Qwen VLo在生成粉色裙子的同时并没有对背景造成影响。

接着我们把图片换一种风格，变成写实风。

变成吉卜力风格。

对比两种生成的不同风格，写实风确实有一种真实感，吉卜力风格更像是宫崎骏下场亲自画的一样。

Qwen VLo 还会根据自己的理解进行重新创作，这意味着在风格转换和迁移方面拥有更大的发挥空间，比如将卡通变为写实、将形象变成3D玩具等有趣的生成效果。

先生成一个真实的兔子：

将兔子变成3D玩具质感。

Qwen VLo 在图像与指令理解上的优势使其能够更好地解析复杂指令，一条指令中可以包含多个操作和修改，从而一次性完成多重任务。

我们让Qwen VLo理解一些复杂的命令看看。输入在深秋黄昏的古寺庭院里，一位身穿藏蓝僧袍的僧人正静坐于青石台阶上，落叶铺满地面，斑驳的夕阳透过枫树洒下金红色光影，古老木门上刻有精美花纹。

图片中的木门细节的雕刻痕迹和落叶的光影处理的非常细节。

另外Qwen VLo也支持文本到图像的直接生成，包括通用图像和中英文海报等。

金毛拿着报纸走出家门，报纸上印着Qwen VLo，背景为木质暖调玄关。

Qwen VLo 还可以支持多张图像的输入理解和生成。

把上方的草莓苹果和香蕉放在一起。

Qwen VLo 除了能对图像的编辑和再创作，还可以完成一些对已有信息的标注，比如检测、分割、边缘检测等。

生成一个都是玩具的玩具箱的图片。

生成边缘描绘检测图：

Qwen VLo还支持动态长宽比的图像生成，对于长宽比高达4:1，1:3等细长类型图像也能轻松掌握。（极端长宽比图像生成功能还没有正式上线)

选择下方的图片生成，并且选择比例16：9.输入画面风格为浪漫唯美的摄影风。使用长焦镜头从侧面拍摄一列穿行于樱花隧道的复古列车。粉白色的樱花如瀑布般倾泻而下，覆盖铁轨与列车车顶，花瓣随风飘落，在空中形成粉色的漩涡。列车车窗透出暖黄色灯光，隐约可见车内乘客的剪影。远处的山峦与天空被夕阳染成粉橙色，与樱花色调相呼应。

作为统一的理解与生成模型，Qwen VLo 还可以对生成的内容进行再分析和理解，例如识别生成图片中的水果的种类。

Qwen VLo是怎么“描绘”世界的？

Qwen VLo 背后最大的技术突破点有两项：

1、动态分辨率训练，支持动态分辨率生成

Qwen VLo 采用动态分辨率训练，支持动态分辨率生成。无论是输入端还是输出端，模型都支持任意分辨率和长宽比的图像生成。这意味着用户不再受限于固定的格式，可以根据实际需求生成适配不同场景的图像内容，无论是海报、插图、网页Banner还是社交媒体封面，为AI视觉内容创作拓宽了边界。

2、渐进式生成机制

Qwen VLo 引入了类似“人类作画”的生成方式：从左到右、从上到下逐步构建画面，边生成边修正。这种“画布式”生成机制，在文字较多、画面复杂、风格精细的任务中表现更加稳定、可控。

不过目前尚处预览阶段的 Qwen VLo仍有提升空间，存在生成内容与事实不符、和原图存在偏差、指令执行不到位以及意图识别不稳定等问题，这些需要之后进行升级处理。

Qwen VLo 的出现，透露出一个重要信号：模态模型的“生成能力”正在反过来提升其“理解能力”。过去，视觉模型主要依靠分类、检测、分割等被动任务训练；如今，通过生成任务，模型不仅表达了理解，还能自我验证。

这意味着，多模态AI可能不再只是“看图说话”的助手，而是具备“从图到文、再从文到图”的全闭环创作者。

AIGC大模型工场已经组织了非常精准的「AI大模型垂直社群」，覆盖超1000位AIGC圈，百度大模型业务负责人，京东大模型业务负责人，腾讯大模型业务人，阿里云大模型技术负责人，科大讯飞大模型公关，商汤大模型业务，阅文大模型公关，360大模型公关负责人都在群里啦，欢迎大模型业务负责人加入。请加微信fqq2000nian，注明真实身份。

Qwen VLo亮点三合一：

多模态创作能力提升

1、多模态理解与生成能力进阶升级

2、开放指令驱动的灵活创作体系

3、多语言交互的全球化适配

会“思考”的绘画大师：

边说边改多种需求全部满足

Qwen VLo是怎么“描绘”世界的？

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签