原创 鱼丸 2025-07-03 15:17 新加坡
边说边改,会“思考”的生成模型
作者|鱼丸
编辑|星奈
媒体|AI大模型工场
从大模型爆火到现在,多模态大模型一直是行业发展的核心主旋律之一。从理解图文内容,到能听、能看、能说、能画,AI在不断向“人类感知”靠近。OpenAI的Sora、GPT-4o、谷歌的Gemini系列,以及国产的豆包、通义、文心、元宝等等也都在争夺通用智能的多模态赛道。
但我们也看到,多模态在“能看懂”到“能生成”之间,其实存在一道难以逾越的“语义鸿沟”。很多模型虽然可以识图、识物,却难以在理解基础上进行高质量创作和精准控制,尤其在图像编辑、风格迁移、复杂场景组合等任务中,仍存在很大的缺陷。
最近两天,阿里推出的多模态理解和生成模型Qwen VLo,正在尝试打破这道鸿沟,让AI不仅能“看懂”世界,更能“描绘”世界。
AI大模型工场了解到,Qwen VLo采用了独特的渐进式图片生成方式。就像下方里呈现的那样,从左至右、自上而下,模型逐步清晰地勾勒出整幅图片。在这个过程中,Qwen VLo可以不断地对预测内容进行调整优化,以此保证最终成果更加协调统一。
这种生成机制,不仅大幅提升了视觉呈现效果,还可以体验到更加灵活和可控的体验,有一种看着作品逐步生成下一步的惊喜感。
现在我们就能通过Qwen Chat(chat.qwen.ai)访问这一模型的预览版,AI大模型工场也亲自上手测试,看看它如何“描绘”世界?
Qwen VLo亮点三合一:
多模态创作能力提升
Qwen VLo通过语义一致性强化、开放指令生态构建及多语言支持,实现从基础的多模态处理到更加智能的创意协作的跨越。
1、多模态理解与生成能力进阶升级
相较于传统多模态模型在内容生成中常出现的语义偏差问题(例如物体类型误判、原图结构特征丢失等),Qwen VLo 通过强化细节捕捉机制,实现了生成内容与原始输入的高度语义一致性。这种能力让模型在图像理解与再创作过程中,能精准保留核心元素特征,避免语义断层。
2、开放指令驱动的灵活创作体系
生成图片后可通过自然语言下达多样化指令,风格迁移,场景优化等,并且模型不仅支持艺术创作,还能完成传统视觉感知任务生成深度图、分割图、检测图及边缘信息或者一些复杂的指令执行,同步实现物体修改、文字编辑与背景更换等多维度操作。
3、多语言交互的全球化适配
Qwen VLo突破语言限制,支持中文、英文等多语种指令输入,为不同语言背景的用户提供统一的交互体验,实现跨文化场景下的多模态创作与处理需求。
基于以上优点Qwen VLo到底“描绘”的有多细致呢,让我们来看一下~
会“思考”的绘画大师:
边说边改多种需求全部满足
Qwen VLo 能够直接生成图像,并对其进行修改,例如替换背景、添加主体、进行风格迁移。
首先我们输入生成一张可爱的布娃娃:
可以看到Qwen VLo生成了一个卡通风格,穿蓝色连衣裙抱着兔子的娃娃,符合可爱的要求,并且自动添加了花的背景。
接着我们再提出要求布娃娃换一件粉色的裙子。
风格没有变化,背景也基本保持了一致,Qwen VLo在生成粉色裙子的同时并没有对背景造成影响。
接着我们把图片换一种风格,变成写实风。
变成吉卜力风格。
对比两种生成的不同风格,写实风确实有一种真实感,吉卜力风格更像是宫崎骏下场亲自画的一样。
Qwen VLo 还会根据自己的理解进行重新创作,这意味着在风格转换和迁移方面拥有更大的发挥空间,比如将卡通变为写实、将形象变成3D玩具等有趣的生成效果。
先生成一个真实的兔子:
将兔子变成3D玩具质感。
Qwen VLo 在图像与指令理解上的优势使其能够更好地解析复杂指令,一条指令中可以包含多个操作和修改,从而一次性完成多重任务。
我们让Qwen VLo理解一些复杂的命令看看。输入在深秋黄昏的古寺庭院里,一位身穿藏蓝僧袍的僧人正静坐于青石台阶上,落叶铺满地面,斑驳的夕阳透过枫树洒下金红色光影,古老木门上刻有精美花纹。
图片中的木门细节的雕刻痕迹和落叶的光影处理的非常细节。
另外Qwen VLo也支持文本到图像的直接生成,包括通用图像和中英文海报等。
金毛拿着报纸走出家门,报纸上印着Qwen VLo,背景为木质暖调玄关。
Qwen VLo 还可以支持多张图像的输入理解和生成。
把上方的草莓苹果 和香蕉放在一起。
Qwen VLo 除了能对图像的编辑和再创作,还可以完成一些对已有信息的标注,比如检测、分割、边缘检测等。
生成一个都是玩具的玩具箱的图片。
生成边缘描绘检测图:
Qwen VLo还支持动态长宽比的图像生成,对于长宽比高达4:1,1:3等细长类型图像也能轻松掌握。(极端长宽比图像生成功能还没有正式上线)
选择下方的图片生成,并且选择比例16:9.输入画面风格为浪漫唯美的摄影风。使用长焦镜头从侧面拍摄一列穿行于樱花隧道的复古列车。粉白色的樱花如瀑布般倾泻而下,覆盖铁轨与列车车顶,花瓣随风飘落,在空中形成粉色的漩涡。列车车窗透出暖黄色灯光,隐约可见车内乘客的剪影。远处的山峦与天空被夕阳染成粉橙色,与樱花色调相呼应。
作为统一的理解与生成模型,Qwen VLo 还可以对生成的内容进行再分析和理解,例如识别生成图片中的水果的种类。
Qwen VLo是怎么“描绘”世界的?
Qwen VLo 背后最大的技术突破点有两项:
1、动态分辨率训练,支持动态分辨率生成
Qwen VLo 采用动态分辨率训练,支持动态分辨率生成。无论是输入端还是输出端,模型都支持任意分辨率和长宽比的图像生成。这意味着用户不再受限于固定的格式,可以根据实际需求生成适配不同场景的图像内容,无论是海报、插图、网页Banner还是社交媒体封面,为AI视觉内容创作拓宽了边界。
2、渐进式生成机制
Qwen VLo 引入了类似“人类作画”的生成方式:从左到右、从上到下逐步构建画面,边生成边修正。这种“画布式”生成机制,在文字较多、画面复杂、风格精细的任务中表现更加稳定、可控。
不过目前尚处预览阶段的 Qwen VLo仍有提升空间,存在生成内容与事实不符、和原图存在偏差、指令执行不到位以及意图识别不稳定等问题,这些需要之后进行升级处理。
Qwen VLo 的出现,透露出一个重要信号:模态模型的“生成能力”正在反过来提升其“理解能力”。过去,视觉模型主要依靠分类、检测、分割等被动任务训练;如今,通过生成任务,模型不仅表达了理解,还能自我验证。
这意味着,多模态AI可能不再只是“看图说话”的助手,而是具备“从图到文、再从文到图”的全闭环创作者。