AI大模型工场 2024年10月21日
Vidu全球首发“主体参照”功能,国产视频生成可控性进入新阶段
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

生数科技推出的视频生成大模型Vidu,全球首发“主体参照”功能,该功能能够实现对任意主体的一致性生成,让视频生成更加稳定、可控。该功能不局限于单一对象,而是面向“任意主体”,无论是人物、动物、商品,还是动漫角色、虚构主体,都能确保其在视频生成中的一致性和可控性。Vidu 是全球首个支持该能力的视频大模型,重塑视频创作流程,探索多场景商业化落地。

🎉 **主体参照功能:实现任意主体的一致性生成** Vidu 的“主体参照”功能允许用户上传任意主体的一张图片,模型就能锁定该主体的形象,通过描述词任意切换场景,输出主体一致的视频。该功能突破了传统视频生成模型的局限性,例如图生视频、角色一致性,在一致性方面有较为明显的提升。 例如,输入一张林黛玉的角色照,输入同样的“在现代咖啡厅喝咖啡”的描述,Vidu 可以完美保留林黛玉的形象,并在现代场景中自然而真实地呈现。 Vidu 的“主体参照”功能不仅适用于人物,还适用于动物、商品、动漫角色、虚构主体等,确保主体在不同环境和状态下的形象连贯一致。

🚀 **重塑视频创作流程:简化步骤,提高效率** Vidu 摒弃了传统的分镜头画面生成步骤,通过“上传主体图+输入场景描述词”的方式,直接生成视频素材。这一创新方法不仅大幅减少了工作量,还打破了分镜头画面对视频内容的限制,让创作者能够基于文本描述,发挥更大的想象力,创造出画面丰富、灵活多变的视频内容。 例如,在跑步鞋广告案例中,仅通过一张商品图,便完成了所有视频画面的生成,无论是不同角度、背景,还是动态表现,跑步鞋的形象在整个视频中都保持了高度一致。整个流程仅花费6个小时,其中30段 AI 视频素材的生成仅花费3个小时。

💰 **商业化落地:广告、游戏、短剧等领域应用广泛** Vidu 的“主体参照”功能展现了强大的商业化潜力,尤其在广告片方向。广告片的一大关键在于要保证多个镜头、不同场景下品牌物形象的一致性,Vidu 可以完美实现这一需求,节省广告制作的成本,提高效率。 生数科技表示,目前会关注企业和视频的相关性,例如广告、游戏、短剧和影视等领域,以及面向C端的AI视频的衍生趣味玩法。现阶段B端市场是生数科技长期重点关注的方向,C端则在不断的探索过程中。

2024-09-12 14:53 北京

国产视频生成领域的黑马



编辑|星奈

媒体|AI大模型工场



国产视频生成领域的黑马——生数科技,搞了个大动作:


9月11日,生数科技视频生成大模型Vidu,全球首发“主体参照”功能,该功能能够实现对任意主体的一致性生成,让视频生成更加稳定、可控。


什么是“主体参照”?就是允许用户上传任意主体的一张图片,Vidu 就能够锁定该主体的形象,通过描述词任意切换场景,输出主体一致的视频。


据AI大模型工场了解,该功能不局限于单一对象,而是面向“任意主体”,无论是人物、动物、商品,还是动漫角色、虚构主体,都能确保其在视频生成中的一致性和可控性,这是视频生成领域的一大创新。


值得一提的是,Vidu 是全球首个支持该能力的视频大模型。



一张图实现主体可控



目前,视频模型普遍存在不可控的局限性,视频生成连续性弱,无法保证每次生成视频的主体、场景和风格一致,输出结果随机性较大。


虽然已经有不少厂商推出“图生视频”和“角色一致性”等能力,但 Vidu 的“主体参照”功能在一致性方面有较为明显地提升。


具体对比看:


比如,我们输入一张林黛玉的角色照,输入同样的“在现代咖啡厅喝咖啡”的描述。在图生视频、角色一致性及主体参照下表现差异明显。



图生视频


角色一致性


主体参照


可以能直观看到,在Vidu “主体参照”功能下,林黛玉的形象在现代场景中得到了完美保留,场景输出也自然而真实。


那么,Vidu的“主体参照”功能在不同主体下表现效果如何?


如,以人物角色为“主体参照”,无论是真实人物还是虚构角色,Vidu 都能保持其在不同环境中、不同镜头下的形象连贯一致。




以动物为“主体参照”,我们可以看到,Vidu 可以实现其在不同环境下、大幅运动状态中细节特征保持一致。



以商品为“主体参照”,商品的外观和细节在不同场景中保持高度一致。


在 Vidu 拿手的动漫生成方面,针对动漫角色或者虚构的主体等,Vidu 也可以保持其高度一致。




生数科技联合创始人兼 CEO 唐家渝表示,这次发布的主体参照功能,在一致性生成方面确实有很大提升,但是还有很多需要进一步提升空间。


例如一个商品:鞋、床等物品,假设它变成一个工艺品,精雕细琢的柜子,上面有繁复花纹和镂空部分,这样复杂的结构,目前生成成功的概率依旧是不高的。场景生成包含很多组成因素,要想在更复杂、更动态化的场景中有更好的表现,需要不断提升模型能力。



重塑视频创作流程,探索多场景商业化落地



一般来说,传统视频创作流程包含剧本策划、角色设计到分镜头、动画渲染、配音剪辑需要十多项流程。


在进入AI生成视频创作中,在分镜头及视频制作环节使用AI代替,尽管制作流程有所优化,但由于可控性不足的问题,视频主体在生成过程中容易崩坏。


为了解决这一问题,业界曾尝试采用“先AI生图、再图生视频”的方法,通过AI绘图工具如 Midjourney 生成分镜头画面,先在图片层面保持主体一致,然后再将这些画面转化为视频片段并进行剪辑合成。


然而,在这一制作流程中,图片生成工作量约占全流程50%以上,生图过程的一致性难以保证,且最终视频内容受制于镜头画面而缺乏创造性和灵活性。


为此,Vidu摒弃了传统的分镜头画面生成步骤,通过“上传主体图+输入场景描述词”的方式,直接生成视频素材。这一创新方法不仅大幅减少了工作量,还打破了分镜头画面对视频内容的限制,让创作者能够基于文本描述,发挥更大的想象力,创造出画面丰富、灵活多变的视频内容。



这不仅为视频创作带来了前所未有的自由度和创新空间,也在商业化创作方向带来更多想象空间。


在商业广告片方向, “主体参照”功能展现了强大的潜力。广告片的一大关键在于要保证多个镜头、不同场景下品牌物形象的一致性。Vidu “主体参照”功能能够很好的实现,例如,在下面的跑步鞋广告案例中,仅通过一张商品图,便完成了所有视频画面的生成,无论是不同角度、背景,还是动态表现,跑步鞋的形象在整个视频中都保持了高度一致。




生数科技官方介绍到,该视频仅一位人员花费6个小时完成,包含前期策划、素材生成,后期剪辑,其中30段 AI 视频素材的生成仅花费3个小时,整个流程仅参照一张商品图。


传统广告片制作高度依赖线下实拍和后期制作,时间周期长、成本投入大,但现在通过 Vidu 能够极大地节省广告制作的成本,整个产出流程更加高效,品牌方对新素材的开发也能更加灵活。


在会后的媒体采访中,唐家渝表示,目前在客户方面首先,首先会关注企业和视频的相关性,例如最直接用于各种视频内容创作的,以及天然与视频内容相关的领域,比如广告、游戏、短剧和影视等,另外也会关注面向C端的AI视频的衍生趣味玩法。


并表示,现阶段B端市场是生数科技长期重点关注的方向,“B端是比较明确、比较直接的,就是说其实比较稳定的一些需求在里面,所以B端是我们长期非常重点的一个方向。C端的话,我们也在不断的探索过程中”。


此次新功能发布同时,生数科技也推出了合作伙伴计划,邀请广告、影视、动漫、游戏等行业的机构加入,共同探索新的视频创作模式,在内容共创、技术支持、市场拓展等方面展开合作。



首批合作伙伴包括开心麻花、猫眼娱乐、巨人网络、美克家居、融创文化、河南省非物质文化遗产保护和智慧化中心、李可柒画院等知名企业与机构。

AIGC大模型工场已经组织了非常精准的「AI大模型垂直社群」,覆盖超1000位AIGC圈,百度大模型业务负责人,京东大模型业务负责人,腾讯大模型业务人,阿里云大模型技术负责人,科大讯飞大模型公关,商汤大模型业务,阅文大模型公关,360大模型公关负责人都在群里啦,欢迎大模型业务负责人加入。请加微信fqq2000nian,注明真实身份。



数据支持天眼查,大模型独家合作账号


— END —


监制 / 刘老师

编辑 / AIGCCCCC

视觉 / 大模型

微博 / @AI大模型工场

TG/AI  Marketing Field


  


大模型应用创业者,你怎么看


■ 百度文心一言,阿里通义千问   ▍通用大模型案例

 ■ 科大讯飞星火 京东  ▍产业大模型案例

■ 商汤日日新、腾讯,昆仑万维   ▍ 金融大模型案例

■ 盘古大模型,中国电信,医联 ▍医疗大模型案例

■阅文大模型,腾讯音乐大模型 ▍ 文娱大模型案例

■知乎,360大模型,火山引擎 ▍ 教育大模型案例

■  网易,金山办公大模型   ▍    更多行业大模型案例



上次介绍李彦宏内部讲话曝光,谈大模型三大认知误区:智能体还是非共识





本文由大模型领域垂直媒体「AI大模型工场」

原创出品,未经许可,请勿转载。 

/

欢迎提供新的大模型商业化落地思路


跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

生数科技 Vidu 视频生成 主体参照 AI 大模型
相关文章