AI大模型工场 前天 14:11
阿里重磅上新!Qwen VLo让你P图只用“动嘴”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Qwen VLo是阿里推出的一款多模态理解和生成模型,旨在打破AI在图像编辑、风格迁移等任务中的语义鸿沟。它采用渐进式图片生成方式,从左至右、自上而下逐步勾勒图像,并不断调整优化,保证最终成果的协调统一。Qwen VLo通过语义一致性强化、开放指令生态构建及多语言支持,实现从基础的多模态处理到更加智能的创意协作的跨越。它不仅支持图像编辑和再创作,还能完成深度图、分割图等视觉感知任务,并支持多张图像的输入理解和生成。

🎨 Qwen VLo采用渐进式图片生成方式,从左至右、自上而下逐步勾勒图像,并不断调整优化,保证最终成果的协调统一,大幅提升了视觉呈现效果。

🌐 Qwen VLo通过语义一致性强化、开放指令生态构建及多语言支持,实现从基础的多模态处理到更加智能的创意协作的跨越,支持中文、英文等多语种指令输入。

🖌️ Qwen VLo不仅能直接生成图像,还能对其进行修改,例如替换背景、添加主体、进行风格迁移,并支持复杂指令的解析和执行,如生成特定场景的图像。

🔍 Qwen VLo还支持图像的标注任务,如检测、分割、边缘检测等,并能对生成的内容进行再分析和理解,例如识别生成图片中的水果的种类。

🚀 Qwen VLo背后最大的技术突破点是动态分辨率训练和渐进式生成机制,支持任意分辨率和长宽比的图像生成,并引入类似“人类作画”的生成方式。

原创 鱼丸 2025-07-03 15:17 新加坡

边说边改,会“思考”的生成模型

作者|鱼丸

编辑|星奈

媒体|AI大模型工场

从大模型爆火到现在,多模态大模型一直是行业发展的核心主旋律之一。从理解图文内容,到能听、能看、能说、能画,AI在不断向“人类感知”靠近。OpenAI的Sora、GPT-4o、谷歌的Gemini系列,以及国产的豆包、通义、文心、元宝等等也都在争夺通用智能的多模态赛道。

但我们也看到,多模态在“能看懂”到“能生成”之间,其实存在一道难以逾越的“语义鸿沟”。很多模型虽然可以识图、识物,却难以在理解基础上进行高质量创作和精准控制,尤其在图像编辑、风格迁移、复杂场景组合等任务中,仍存在很大的缺陷。

最近两天,阿里推出的多模态理解和生成模型Qwen VLo,正在尝试打破这道鸿沟,让AI不仅能“看懂”世界,更能“描绘”世界。

AI大模型工场了解到,Qwen VLo采用了独特的渐进式图片生成方式。就像下方里呈现的那样,从左至右、自上而下,模型逐步清晰地勾勒出整幅图片。在这个过程中,Qwen VLo可以不断地对预测内容进行调整优化,以此保证最终成果更加协调统一。

这种生成机制,不仅大幅提升了视觉呈现效果,还可以体验到更加灵活和可控的体验,有一种看着作品逐步生成下一步的惊喜感。

现在我们就能通过Qwen Chat(chat.qwen.ai)访问这一模型的预览版,AI大模型工场也亲自上手测试,看看它如何“描绘”世界?

Qwen VLo亮点三合一:

多模态创作能力提升

Qwen VLo通过语义一致性强化、开放指令生态构建及多语言支持,实现从基础的多模态处理到更加智能的创意协作的跨越。

1、多模态理解与生成能力进阶升级

相较于传统多模态模型在内容生成中常出现的语义偏差问题(例如物体类型误判、原图结构特征丢失等),Qwen VLo 通过强化细节捕捉机制,实现了生成内容与原始输入的高度语义一致性。这种能力让模型在图像理解与再创作过程中,能精准保留核心元素特征,避免语义断层。

2、开放指令驱动的灵活创作体系

生成图片后可通过自然语言下达多样化指令,风格迁移,场景优化等,并且模型不仅支持艺术创作,还能完成传统视觉感知任务生成深度图、分割图、检测图及边缘信息或者一些复杂的指令执行,同步实现物体修改、文字编辑与背景更换等多维度操作。

3、多语言交互的全球化适配

Qwen VLo突破语言限制,支持中文、英文等多语种指令输入,为不同语言背景的用户提供统一的交互体验,实现跨文化场景下的多模态创作与处理需求。

基于以上优点Qwen VLo到底“描绘”的有多细致呢,让我们来看一下~

会“思考”的绘画大师:

边说边改多种需求全部满足

Qwen VLo 能够直接生成图像,并对其进行修改,例如替换背景、添加主体、进行风格迁移。

首先我们输入生成一张可爱的布娃娃:

可以看到Qwen VLo生成了一个卡通风格,穿蓝色连衣裙抱着兔子的娃娃,符合可爱的要求,并且自动添加了花的背景。

接着我们再提出要求布娃娃换一件粉色的裙子。

风格没有变化,背景也基本保持了一致,Qwen VLo在生成粉色裙子的同时并没有对背景造成影响。

接着我们把图片换一种风格,变成写实风。

变成吉卜力风格。

对比两种生成的不同风格,写实风确实有一种真实感,吉卜力风格更像是宫崎骏下场亲自画的一样。

Qwen VLo 还会根据自己的理解进行重新创作,这意味着在风格转换和迁移方面拥有更大的发挥空间,比如将卡通变为写实、将形象变成3D玩具等有趣的生成效果。

先生成一个真实的兔子:

将兔子变成3D玩具质感。

Qwen VLo 在图像与指令理解上的优势使其能够更好地解析复杂指令,一条指令中可以包含多个操作和修改,从而一次性完成多重任务。

我们让Qwen VLo理解一些复杂的命令看看。输入在深秋黄昏的古寺庭院里,一位身穿藏蓝僧袍的僧人正静坐于青石台阶上,落叶铺满地面,斑驳的夕阳透过枫树洒下金红色光影,古老木门上刻有精美花纹。

图片中的木门细节的雕刻痕迹和落叶的光影处理的非常细节。

另外Qwen VLo也支持文本到图像的直接生成,包括通用图像和中英文海报等。

金毛拿着报纸走出家门,报纸上印着Qwen VLo,背景为木质暖调玄关。

Qwen VLo 还可以支持多张图像的输入理解和生成。

把上方的草莓苹果 和香蕉放在一起。

Qwen VLo 除了能对图像的编辑和再创作,还可以完成一些对已有信息的标注,比如检测、分割、边缘检测等。

生成一个都是玩具的玩具箱的图片。

生成边缘描绘检测图:

Qwen VLo还支持动态长宽比的图像生成,对于长宽比高达4:1,1:3等细长类型图像也能轻松掌握。(极端长宽比图像生成功能还没有正式上线)

选择下方的图片生成,并且选择比例16:9.输入画面风格为浪漫唯美的摄影风。使用长焦镜头从侧面拍摄一列穿行于樱花隧道的复古列车。粉白色的樱花如瀑布般倾泻而下,覆盖铁轨与列车车顶,花瓣随风飘落,在空中形成粉色的漩涡。列车车窗透出暖黄色灯光,隐约可见车内乘客的剪影。远处的山峦与天空被夕阳染成粉橙色,与樱花色调相呼应。

作为统一的理解与生成模型,Qwen VLo 还可以对生成的内容进行再分析和理解,例如识别生成图片中的水果的种类。

Qwen VLo是怎么“描绘”世界的?

Qwen VLo 背后最大的技术突破点有两项:

1、动态分辨率训练,支持动态分辨率生成

Qwen VLo 采用动态分辨率训练,支持动态分辨率生成。无论是输入端还是输出端,模型都支持任意分辨率和长宽比的图像生成。这意味着用户不再受限于固定的格式,可以根据实际需求生成适配不同场景的图像内容,无论是海报、插图、网页Banner还是社交媒体封面,为AI视觉内容创作拓宽了边界。

2、渐进式生成机制

Qwen VLo 引入了类似“人类作画”的生成方式:从左到右、从上到下逐步构建画面,边生成边修正。这种“画布式”生成机制,在文字较多、画面复杂、风格精细的任务中表现更加稳定、可控。

不过目前尚处预览阶段的 Qwen VLo仍有提升空间,存在生成内容与事实不符、和原图存在偏差、指令执行不到位以及意图识别不稳定等问题,这些需要之后进行升级处理。

Qwen VLo 的出现,透露出一个重要信号:模态模型的“生成能力”正在反过来提升其“理解能力”。过去,视觉模型主要依靠分类、检测、分割等被动任务训练;如今,通过生成任务,模型不仅表达了理解,还能自我验证。

这意味着,多模态AI可能不再只是“看图说话”的助手,而是具备“从图到文、再从文到图”的全闭环创作者。

AIGC大模型工场已经组织了非常精准的「AI大模型垂直社群」,覆盖超1000位AIGC圈,百度大模型业务负责人,京东大模型业务负责人,腾讯大模型业务人,阿里云大模型技术负责人,科大讯飞大模型公关,商汤大模型业务,阅文大模型公关,360大模型公关负责人都在群里啦,欢迎大模型业务负责人加入。请加微信fqq2000nian,注明真实身份。

数据支持天眼查,大模型独家合作账号

— END —

监制 / 刘老师

编辑 / AIGCCCCC

视觉 / 大模型

微博 / @AI大模型工场

TG/AI  Marketing Field

 

大模型应用创业者,你怎么看

■ 百度文心一言 阿里通义千问 ▍通用大模型案例

■ 科大讯飞星火 京东 ▍产业大模型案例

■ 商汤日日新,腾讯,昆仑万维 ▍ 金融大模型案例

■ 盘古大模型,中国电信,医联 ▍医疗大模型案例

■阅文大模型,腾讯音乐大模型 ▍文娱大模型案例

■知乎,360大模型,火山引擎 ▍ 教育大模型案例

■  网易,金山办公大模型 ▍更多行业大模型案例

上次介绍高考已出分,AI志愿填报谁更靠谱?

本文由大模型领域垂直媒体「AI大模型工场」

原创出品,未经许可,请勿转载。

/

欢迎提供新的大模型商业化落地思路

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Qwen VLo 多模态模型 AI生成 图像编辑 语义鸿沟
相关文章