马斯克穿大花袄骑电动车逛游乐园？实测Vidu1.5，多主体一致性太强大！

2024-11-14 13:32 北京

Vidu1.5无需LoRA微调，开启视觉上下文时代

编辑｜星奈

媒体｜AI大模型工场

视频模型的“杀手级”难题被攻克了！

国产视频大模型Vidu重磅发布1.5新版本（www.vidu.studio)，全新上线「多主体一致性」功能，首个突破了涵盖人物、物体、环境等融合的多主体一致性能力！

早在9号，Vidu就在官方账号上预热了此次发布，同步放出一段案例，案例中上传一张黑人男子照片、铠甲图、城市街景，Vidu1.5 便将这三者元素完美的融合到一个视频中，实现“男子穿着铠甲走在街道”上的画面。从效果看，Vidu 1.5 赋予了视频模型前所未有的控制能力，通过图片输入来实现精准控制和编辑！

昨天上线后，有海外用户评价，这直接把Runway、LumaAI等一众视频模型都一锅端了，其他视频模型都实现不了的能力，Vidu竟然给攻破了，甚至在语义理解甚至比图像模型王者Midjorney还强。

更有海外用户更是直呼“改变了游戏规则”，未来“只要上传一张角色图+一张环境图”就可以创作连续的视频故事。

地表最强！「多主体一致性」难题被攻克

当前在视频生成领域，一个亟待解决的挑战就是「一致性控制」问题。即在不同生成的视频之间，模型往往难以确保主体（如人物角色或物体）的外观、特征和风格保持一致。

特别是在处理包含多个角色或物体的场景时，现有模型还无法做到对多个主体同时进行控制，例如，主体间的特征容易产生混淆，主体间的互动也难以保持自然连贯。

不过，这一“世纪难题”如今被国产视频模型攻克了！

国产视频模型Vidu上新1.5版本，全新上线「多图参考」功能，通过上传一至三张参考图，实现对单主体100%的精确控制，同时实现多主体交互控制、主体与场景融合控制，能够无缝集成人物、道具和场景。

Vidu自最初上线以来，就一直致力于解决视频模型中「一致性」的核心难题：早在7月底全球上线的时候，Vidu 就推出「角色一致性」功能，用户可上传自定义的角色图，然后指定该角色在任意场景中做出任意动作；在9月初，Vidu全球首发了「主体参照」功能，允许用户上传任意主体的一张图片，通过描述词任意切换场景。这次 Vidu 1.5 则是进一步深化了在「一致性」方面的领先布局和深厚优势。

对于单主体而言，通过上传特定主体的不同角度或不同景别下的图片，Vidu 1.5 能实现100%精准控制。

一是对复杂主体的精准控制：无论是细节丰富的角色还是复杂的物体，Vidu 1.5都能保证主体形象在不同角度下的高度一致，整体形象始终如一。

比如下面的复古美女，造型极具复杂度，但无论在何种景别、视角下，甚至是特写镜头中，角色的形象都能始终保持高度一致。通常视频模型在生成侧面、背面等刁钻视角的画面时，往往靠模型“自行脑补”，这过程中就容易出现各种不满足用户预期的画面，Vidu 1.5完全避免了这一问题，能够保证不同视角下主体信息的准确。

二是人物面部特征和动态表情的自然一致：在人物特写画面中，Vidu 1.5能够确保人物面部的特征细节和表情变化自然流畅，不会出现面部僵硬或失真的现象。

除了能实现对单主体的精确控制，可在Vidu1.5的「多图参考」中选择上传多个主体，可以均是人物角色，也可以是人物+道具物体等，以实现多主体的一致性控制。

比如我们让小李子和宋小宝握个手

双角色主体

描述词：两个人在握手

除了控制双角色主体外，三角色主体，甚至指定主体和场景图，Vidu1.5都能轻松实现。

例如，我们让马斯克穿上东北大花袄骑着电动车在游乐园逛。

描述词：男人穿着花袄在游乐园骑电动车

也可以让宋小宝穿着东北大花袄在比萨斜塔前打卡。

双主体（角色+道具）+场景

描述词：男人穿着大花棉袄站在比萨斜塔前

终结LoRA炼丹时代！仅靠三张图稳定输出

更值得关注的是，这一突破性的工作源自于Vidu 1.5背后基础模型能力的全面提升，而非业界主流的LoRA微调方案，无需专门的数据采集、数据标注、微调训练环节，一键直出高一致性视频。

这就厉害了，要知道LoRA微调一直是业界解决一致性问题最主流的方案。

所谓LoRA（Low-Rank Adaptation）方案，即在预训练模型的基础上，用特定主体的多段视频进行微调，让模型理解该主体的特征，从而能生成该主体在不同角度、光线和场景下的形象，保证其在若干次不同生成时的一致性。

简单理解，比如我创作了一只卡通狗的形象，想生成连续一致的视频画面，但模型在预训练过程中并没有学习过该形象，所以需要拿卡通狗的多段视频，让模型进一步训练，让模型认识这只卡通狗长什么样，从而能够生成。

但这里的问题是，通常LoRA需要20～100段的视频，数据构造繁琐，且需要一定的训练时间，通常需要数个小时甚至更久的时间，成本为单次视频生成的成百上千倍。

另外LoRA微调模型容易产生过拟合，即在理解主体特征的同时，也会遗忘大量原先的知识。这导致对于动态的表情或肢体动作的变化，很难有效控制，所以生成的视频容易产生僵硬或不自然的效果，以及在复杂动作或大幅度变换时，微调模型无法很好地捕捉细节，导致主体特征不够精准。

所以LoRA主要适用于大多数简单情形下的主体一致性需求，但对于高复杂的主体或问题场景，需要更多的微调数据和更复杂的模型微调策略。

但Vidu 1.5基于通用模型能力的提升，仅靠三张图就实现高可控的稳定输出，直接省去“炼丹”环节，称得上是“ LoRA终结器”！

AIGC大模型工场已经组织了非常精准的「AI大模型垂直社群」，覆盖超1000位AIGC圈，百度大模型业务负责人，京东大模型业务负责人，腾讯大模型业务人，阿里云大模型技术负责人，科大讯飞大模型公关，商汤大模型业务，阅文大模型公关，360大模型公关负责人都在群里啦，欢迎大模型业务负责人加入。请加微信fqq2000nian，注明真实身份。

数据支持天眼查，大模型独家合作账号

— END —

监制 / 刘老师

编辑 / AIGCCCCC

视觉 / 大模型

微博 / @AI大模型工场

TG/AI Marketing Field

大模型应用创业者，你怎么看？

■ 百度文心一言，阿里通义千问 ▍通用大模型案例

■ 科大讯飞星火京东 ▍产业大模型案例

■ 商汤日日新、腾讯，昆仑万维 ▍ 金融大模型案例

■ 盘古大模型，中国电信，医联 ▍医疗大模型案例

■阅文大模型，腾讯音乐大模型 ▍ 文娱大模型案例

■知乎，360大模型，火山引擎 ▍ 教育大模型案例

■ 网易，金山办公大模型 ▍ 更多行业大模型案例

上次介绍中国AI大模型平台排行榜 | 10月

本文由大模型领域垂直媒体「AI大模型工场」

原创出品，未经许可，请勿转载。

欢迎提供新的大模型商业化落地思路

跳转微信打开

地表最强！「多主体一致性」难题被攻克

终结LoRA炼丹时代！仅靠三张图稳定输出

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签