AI大模型工场 2024年11月14日
马斯克穿大花袄骑电动车逛游乐园?实测Vidu1.5,多主体一致性太强大!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

国产视频大模型Vidu发布1.5新版本,重磅推出「多主体一致性」功能,实现了对人物、物体、环境等多主体的一致性控制。该功能通过上传图片,实现精准控制和编辑视频内容,例如将人物、服装和场景融合到一起。Vidu1.5突破了现有视频模型的限制,无需LoRA微调,仅靠三张图片就能稳定输出高质量视频,简化了创作流程,提升了视频生成效率和质量,被认为是视频生成领域的重大突破,甚至被海外用户评价为‘改变了游戏规则’。

🤔**Vidu1.5突破性地实现了多主体一致性控制**: 通过上传1-3张参考图,可以精准控制单主体,并实现多主体交互控制以及主体与场景融合,例如控制人物、道具和场景的统一性,解决了视频生成领域的一致性难题。

📷**无需LoRA微调,简化视频创作流程**: Vidu1.5基于模型能力的提升,无需像LoRA那样进行数据采集、标注和微调训练,仅需上传图片即可生成高质量视频,降低了创作门槛,提高了效率。

🖼️**实现对复杂主体和动态表情的精准控制**: Vidu1.5能够精准控制复杂主体的细节,保证主体在不同角度和视角下的高度一致,同时还能保证人物面部特征和动态表情的自然流畅,避免了传统模型容易出现的僵硬或失真现象。

🚀**被认为是视频生成领域的重大突破**: Vidu1.5的突破性能力被海外用户评价为‘改变了游戏规则’,因为它克服了现有视频模型的局限性,为用户提供了更便捷、高效的视频创作工具。

💡**终结LoRA炼丹时代**: Vidu1.5通过提升基础模型能力,避免了LoRA微调带来的数据构造繁琐、训练时间长、过拟合等问题,为视频生成领域带来了新的发展方向。

2024-11-14 13:32 北京

Vidu1.5无需LoRA微调,开启视觉上下文时代


编辑|星奈

媒体|AI大模型工场



视频模型的“杀手级”难题被攻克了!

国产视频大模型Vidu重磅发布1.5新版本(www.vidu.studio),全新上线「多主体一致性」功能,首个突破了涵盖人物、物体、环境等融合的多主体一致性能力!

早在9号,Vidu就在官方账号上预热了此次发布,同步放出一段案例,案例中上传一张 黑人男子照片、铠甲图、城市街景,Vidu1.5 便将这三者元素完美的融合到一个视频中,实现“男子穿着铠甲走在街道”上的画面。从效果看,Vidu 1.5 赋予了视频模型前所未有的控制能力,通过图片输入来实现精准控制和编辑!

昨天上线后,有海外用户评价,这直接把Runway、LumaAI等一众视频模型都一锅端了,其他视频模型都实现不了的能力,Vidu竟然给攻破了,甚至在语义理解甚至比图像模型王者Midjorney还强。



更有海外用户更是直呼“改变了游戏规则”,未来“只要上传一张角色图+一张环境图”就可以创作连续的视频故事。



地表最强!「多主体一致性」难题被攻克


当前在视频生成领域,一个亟待解决的挑战就是「一致性控制」问题。即在不同生成的视频之间,模型往往难以确保主体(如人物角色或物体)的外观、特征和风格保持一致。


特别是在处理包含多个角色或物体的场景时,现有模型还无法做到对多个主体同时进行控制,例如,主体间的特征容易产生混淆,主体间的互动也难以保持自然连贯。

不过,这一“世纪难题”如今被国产视频模型攻克了!

国产视频模型Vidu上新1.5版本,全新上线「多图参考」功能,通过上传一至三张参考图,实现对单主体100%的精确控制,同时实现多主体交互控制、主体与场景融合控制,能够无缝集成人物、道具和场景。

Vidu自最初上线以来,就一直致力于解决视频模型中「一致性」的核心难题:早在7月底全球上线的时候,Vidu 就推出「角色一致性」功能,用户可上传自定义的角色图,然后指定该角色在任意场景中做出任意动作;在9月初,Vidu全球首发了「主体参照」功能,允许用户上传任意主体的一张图片,通过描述词任意切换场景。这次 Vidu 1.5 则是进一步深化了在「一致性」方面的领先布局和深厚优势。

对于单主体而言,通过上传特定主体的不同角度或不同景别下的图片,Vidu 1.5 能实现100%精准控制。

一是对复杂主体的精准控制:无论是细节丰富的角色还是复杂的物体,Vidu 1.5都能保证主体形象在不同角度下的高度一致,整体形象始终如一。

比如下面的复古美女,造型极具复杂度,但无论在何种景别、视角下,甚至是特写镜头中,角色的形象都能始终保持高度一致。通常视频模型在生成侧面、背面等刁钻视角的画面时,往往靠模型“自行脑补”,这过程中就容易出现各种不满足用户预期的画面,Vidu 1.5完全避免了这一问题,能够保证不同视角下主体信息的准确。

二是人物面部特征和动态表情的自然一致:在人物特写画面中,Vidu 1.5能够确保人物面部的特征细节和表情变化自然流畅,不会出现面部僵硬或失真的现象。

除了能实现对单主体的精确控制,可在Vidu1.5的「多图参考」中选择上传多个主体,可以均是人物角色,也可以是人物+道具物体等,以实现多主体的一致性控制。

比如我们让小李子和宋小宝握个手

双角色主体

描述词:两个人在握手

除了控制双角色主体外,三角色主体,甚至指定主体和场景图,Vidu1.5都能轻松实现。

例如,我们让马斯克穿上东北大花袄骑着电动车在游乐园逛。

描述词:男人穿着花袄在游乐园骑电动车

也可以让宋小宝穿着东北大花袄在比萨斜塔前打卡。

双主体(角色+道具)+场景

描述词:男人穿着大花棉袄站在比萨斜塔前



终结LoRA炼丹时代!仅靠三张图稳定输出


更值得关注的是,这一突破性的工作源自于Vidu 1.5背后基础模型能力的全面提升,而非业界主流的LoRA微调方案,无需专门的数据采集、数据标注、微调训练环节,一键直出高一致性视频。


这就厉害了,要知道LoRA微调一直是业界解决一致性问题最主流的方案。

所谓LoRA(Low-Rank Adaptation)方案,即在预训练模型的基础上,用特定主体的多段视频进行微调,让模型理解该主体的特征,从而能生成该主体在不同角度、光线和场景下的形象,保证其在若干次不同生成时的一致性。

简单理解,比如我创作了一只卡通狗的形象,想生成连续一致的视频画面,但模型在预训练过程中并没有学习过该形象,所以需要拿卡通狗的多段视频,让模型进一步训练,让模型认识这只卡通狗长什么样,从而能够生成。

但这里的问题是,通常LoRA需要20~100段的视频,数据构造繁琐,且需要一定的训练时间,通常需要数个小时甚至更久的时间,成本为单次视频生成的成百上千倍。

另外LoRA微调模型容易产生过拟合,即在理解主体特征的同时,也会遗忘大量原先的知识。这导致对于动态的表情或肢体动作的变化,很难有效控制,所以生成的视频容易产生僵硬或不自然的效果,以及在复杂动作或大幅度变换时,微调模型无法很好地捕捉细节,导致主体特征不够精准。

所以LoRA主要适用于大多数简单情形下的主体一致性需求,但对于高复杂的主体或问题场景,需要更多的微调数据和更复杂的模型微调策略。

但Vidu 1.5基于通用模型能力的提升,仅靠三张图就实现高可控的稳定输出,直接省去“炼丹”环节,称得上是“ LoRA终结器”


AIGC大模型工场已经组织了非常精准的「AI大模型垂直社群」,覆盖超1000位AIGC圈,百度大模型业务负责人,京东大模型业务负责人,腾讯大模型业务人,阿里云大模型技术负责人,科大讯飞大模型公关,商汤大模型业务,阅文大模型公关,360大模型公关负责人都在群里啦,欢迎大模型业务负责人加入。请加微信fqq2000nian,注明真实身份。



数据支持天眼查,大模型独家合作账号


— END —


监制 / 刘老师

编辑 / AIGCCCCC

视觉 / 大模型

微博 / @AI大模型工场

TG/AI  Marketing Field


  


大模型应用创业者,你怎么看


■ 百度文心一言,阿里通义千问   ▍通用大模型案例

 ■ 科大讯飞星火 京东  ▍产业大模型案例

■ 商汤日日新、腾讯,昆仑万维   ▍ 金融大模型案例

■ 盘古大模型,中国电信,医联 ▍医疗大模型案例

■阅文大模型,腾讯音乐大模型 ▍ 文娱大模型案例

■知乎,360大模型,火山引擎 ▍ 教育大模型案例

■  网易,金山办公大模型   ▍    更多行业大模型案例



上次介绍中国AI大模型平台排行榜 | 10月





本文由大模型领域垂直媒体「AI大模型工场」

原创出品,未经许可,请勿转载。 

/

欢迎提供新的大模型商业化落地思路

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Vidu 视频大模型 多主体一致性 视觉上下文 LoRA
相关文章