2024-09-12 14:53 北京
国产视频生成领域的黑马
编辑|星奈
媒体|AI大模型工场
国产视频生成领域的黑马——生数科技,搞了个大动作:
9月11日,生数科技视频生成大模型Vidu,全球首发“主体参照”功能,该功能能够实现对任意主体的一致性生成,让视频生成更加稳定、可控。
什么是“主体参照”?就是允许用户上传任意主体的一张图片,Vidu 就能够锁定该主体的形象,通过描述词任意切换场景,输出主体一致的视频。
据AI大模型工场了解,该功能不局限于单一对象,而是面向“任意主体”,无论是人物、动物、商品,还是动漫角色、虚构主体,都能确保其在视频生成中的一致性和可控性,这是视频生成领域的一大创新。
值得一提的是,Vidu 是全球首个支持该能力的视频大模型。
一张图实现主体可控
目前,视频模型普遍存在不可控的局限性,视频生成连续性弱,无法保证每次生成视频的主体、场景和风格一致,输出结果随机性较大。
虽然已经有不少厂商推出“图生视频”和“角色一致性”等能力,但 Vidu 的“主体参照”功能在一致性方面有较为明显地提升。
具体对比看:
图生视频(Image to Video):基于首帧画面的连续生成,无法直接输出目标场景,限制了视频内容的多样性和场景的自由度;
角色一致性(Character to Video):只限于人物面部特征的一致性,难以保证人物整体形象的稳定;
主体参照(Subject Consistency):不局限于人物,面向任意主体,其次在人物主体下,可选择保持面部一致,也可选择保持人物整体形象的高度一致,通过输入文字描述灵活输出目标场景;
比如,我们输入一张林黛玉的角色照,输入同样的“在现代咖啡厅喝咖啡”的描述。在图生视频、角色一致性及主体参照下表现差异明显。
△
图生视频
△
角色一致性
△
主体参照
可以能直观看到,在Vidu “主体参照”功能下,林黛玉的形象在现代场景中得到了完美保留,场景输出也自然而真实。
那么,Vidu的“主体参照”功能在不同主体下表现效果如何?
如,以人物角色为“主体参照”,无论是真实人物还是虚构角色,Vidu 都能保持其在不同环境中、不同镜头下的形象连贯一致。
以动物为“主体参照”,我们可以看到,Vidu 可以实现其在不同环境下、大幅运动状态中细节特征保持一致。
以商品为“主体参照”,商品的外观和细节在不同场景中保持高度一致。
在 Vidu 拿手的动漫生成方面,针对动漫角色或者虚构的主体等,Vidu 也可以保持其高度一致。
生数科技联合创始人兼 CEO 唐家渝表示,这次发布的主体参照功能,在一致性生成方面确实有很大提升,但是还有很多需要进一步提升空间。
例如一个商品:鞋、床等物品,假设它变成一个工艺品,精雕细琢的柜子,上面有繁复花纹和镂空部分,这样复杂的结构,目前生成成功的概率依旧是不高的。场景生成包含很多组成因素,要想在更复杂、更动态化的场景中有更好的表现,需要不断提升模型能力。
重塑视频创作流程,探索多场景商业化落地
一般来说,传统视频创作流程包含剧本策划、角色设计到分镜头、动画渲染、配音剪辑需要十多项流程。
在进入AI生成视频创作中,在分镜头及视频制作环节使用AI代替,尽管制作流程有所优化,但由于可控性不足的问题,视频主体在生成过程中容易崩坏。
为了解决这一问题,业界曾尝试采用“先AI生图、再图生视频”的方法,通过AI绘图工具如 Midjourney 生成分镜头画面,先在图片层面保持主体一致,然后再将这些画面转化为视频片段并进行剪辑合成。
然而,在这一制作流程中,图片生成工作量约占全流程50%以上,生图过程的一致性难以保证,且最终视频内容受制于镜头画面而缺乏创造性和灵活性。
为此,Vidu摒弃了传统的分镜头画面生成步骤,通过“上传主体图+输入场景描述词”的方式,直接生成视频素材。这一创新方法不仅大幅减少了工作量,还打破了分镜头画面对视频内容的限制,让创作者能够基于文本描述,发挥更大的想象力,创造出画面丰富、灵活多变的视频内容。
这不仅为视频创作带来了前所未有的自由度和创新空间,也在商业化创作方向带来更多想象空间。
在商业广告片方向, “主体参照”功能展现了强大的潜力。广告片的一大关键在于要保证多个镜头、不同场景下品牌物形象的一致性。Vidu “主体参照”功能能够很好的实现,例如,在下面的跑步鞋广告案例中,仅通过一张商品图,便完成了所有视频画面的生成,无论是不同角度、背景,还是动态表现,跑步鞋的形象在整个视频中都保持了高度一致。
生数科技官方介绍到,该视频仅一位人员花费6个小时完成,包含前期策划、素材生成,后期剪辑,其中30段 AI 视频素材的生成仅花费3个小时,整个流程仅参照一张商品图。
传统广告片制作高度依赖线下实拍和后期制作,时间周期长、成本投入大,但现在通过 Vidu 能够极大地节省广告制作的成本,整个产出流程更加高效,品牌方对新素材的开发也能更加灵活。
在会后的媒体采访中,唐家渝表示,目前在客户方面首先,首先会关注企业和视频的相关性,例如最直接用于各种视频内容创作的,以及天然与视频内容相关的领域,比如广告、游戏、短剧和影视等,另外也会关注面向C端的AI视频的衍生趣味玩法。
并表示,现阶段B端市场是生数科技长期重点关注的方向,“B端是比较明确、比较直接的,就是说其实比较稳定的一些需求在里面,所以B端是我们长期非常重点的一个方向。C端的话,我们也在不断的探索过程中”。
此次新功能发布同时,生数科技也推出了合作伙伴计划,邀请广告、影视、动漫、游戏等行业的机构加入,共同探索新的视频创作模式,在内容共创、技术支持、市场拓展等方面展开合作。
首批合作伙伴包括开心麻花、猫眼娱乐、巨人网络、美克家居、融创文化、河南省非物质文化遗产保护和智慧化中心、李可柒画院等知名企业与机构。
AIGC大模型工场已经组织了非常精准的「AI大模型垂直社群」,覆盖超1000位AIGC圈,百度大模型业务负责人,京东大模型业务负责人,腾讯大模型业务人,阿里云大模型技术负责人,科大讯飞大模型公关,商汤大模型业务,阅文大模型公关,360大模型公关负责人都在群里啦,欢迎大模型业务负责人加入。请加微信fqq2000nian,注明真实身份。
数据支持天眼查,大模型独家合作账号
— END —
监制 / 刘老师
编辑 / AIGCCCCC
视觉 / 大模型
微博 / @AI大模型工场
TG/AI Marketing Field
大模型应用创业者,你怎么看?
■ 百度文心一言,阿里通义千问 ▍通用大模型案例
■ 科大讯飞星火 京东 ▍产业大模型案例
■ 商汤日日新、腾讯,昆仑万维 ▍ 金融大模型案例
■ 盘古大模型,中国电信,医联 ▍医疗大模型案例
■阅文大模型,腾讯音乐大模型 ▍ 文娱大模型案例
■知乎,360大模型,火山引擎 ▍ 教育大模型案例
■ 网易,金山办公大模型 ▍ 更多行业大模型案例
上次介绍李彦宏内部讲话曝光,谈大模型三大认知误区:智能体还是非共识
本文由大模型领域垂直媒体「AI大模型工场」
原创出品,未经许可,请勿转载。
/
欢迎提供新的大模型商业化落地思路