Vidu全球首发“主体参照”功能，国产视频生成可控性进入新阶段

2024-09-12 14:53 北京

国产视频生成领域的黑马

编辑｜星奈

媒体｜AI大模型工场

国产视频生成领域的黑马——生数科技，搞了个大动作：

9月11日，生数科技视频生成大模型Vidu，全球首发“主体参照”功能，该功能能够实现对任意主体的一致性生成，让视频生成更加稳定、可控。

什么是“主体参照”？就是允许用户上传任意主体的一张图片，Vidu 就能够锁定该主体的形象，通过描述词任意切换场景，输出主体一致的视频。

据AI大模型工场了解，该功能不局限于单一对象，而是面向“任意主体”，无论是人物、动物、商品，还是动漫角色、虚构主体，都能确保其在视频生成中的一致性和可控性，这是视频生成领域的一大创新。

值得一提的是，Vidu 是全球首个支持该能力的视频大模型。

一张图实现主体可控

目前，视频模型普遍存在不可控的局限性，视频生成连续性弱，无法保证每次生成视频的主体、场景和风格一致，输出结果随机性较大。

虽然已经有不少厂商推出“图生视频”和“角色一致性”等能力，但 Vidu 的“主体参照”功能在一致性方面有较为明显地提升。

具体对比看：

图生视频（Image to Video）：基于首帧画面的连续生成，无法直接输出目标场景，限制了视频内容的多样性和场景的自由度；

角色一致性（Character to Video）：只限于人物面部特征的一致性，难以保证人物整体形象的稳定；

主体参照（Subject Consistency）：不局限于人物，面向任意主体，其次在人物主体下，可选择保持面部一致，也可选择保持人物整体形象的高度一致，通过输入文字描述灵活输出目标场景；

比如，我们输入一张林黛玉的角色照，输入同样的“在现代咖啡厅喝咖啡”的描述。在图生视频、角色一致性及主体参照下表现差异明显。

‍

△

图生视频

△

角色一致性

△

主体参照

可以能直观看到，在Vidu “主体参照”功能下，林黛玉的形象在现代场景中得到了完美保留，场景输出也自然而真实。

那么，Vidu的“主体参照”功能在不同主体下表现效果如何？

如，以人物角色为“主体参照”，无论是真实人物还是虚构角色，Vidu 都能保持其在不同环境中、不同镜头下的形象连贯一致。

以动物为“主体参照”，我们可以看到，Vidu 可以实现其在不同环境下、大幅运动状态中细节特征保持一致。

以商品为“主体参照”，商品的外观和细节在不同场景中保持高度一致。

在 Vidu 拿手的动漫生成方面，针对动漫角色或者虚构的主体等，Vidu 也可以保持其高度一致。

生数科技联合创始人兼 CEO 唐家渝表示，这次发布的主体参照功能，在一致性生成方面确实有很大提升，但是还有很多需要进一步提升空间。

例如一个商品：鞋、床等物品，假设它变成一个工艺品，精雕细琢的柜子，上面有繁复花纹和镂空部分，这样复杂的结构，目前生成成功的概率依旧是不高的。场景生成包含很多组成因素，要想在更复杂、更动态化的场景中有更好的表现，需要不断提升模型能力。

重塑视频创作流程，探索多场景商业化落地

一般来说，传统视频创作流程包含剧本策划、角色设计到分镜头、动画渲染、配音剪辑需要十多项流程。

在进入AI生成视频创作中，在分镜头及视频制作环节使用AI代替，尽管制作流程有所优化，但由于可控性不足的问题，视频主体在生成过程中容易崩坏。

为了解决这一问题，业界曾尝试采用“先AI生图、再图生视频”的方法，通过AI绘图工具如 Midjourney 生成分镜头画面，先在图片层面保持主体一致，然后再将这些画面转化为视频片段并进行剪辑合成。

然而，在这一制作流程中，图片生成工作量约占全流程50%以上，生图过程的一致性难以保证，且最终视频内容受制于镜头画面而缺乏创造性和灵活性。

为此，Vidu摒弃了传统的分镜头画面生成步骤，通过“上传主体图+输入场景描述词”的方式，直接生成视频素材。这一创新方法不仅大幅减少了工作量，还打破了分镜头画面对视频内容的限制，让创作者能够基于文本描述，发挥更大的想象力，创造出画面丰富、灵活多变的视频内容。

这不仅为视频创作带来了前所未有的自由度和创新空间，也在商业化创作方向带来更多想象空间。

在商业广告片方向， “主体参照”功能展现了强大的潜力。广告片的一大关键在于要保证多个镜头、不同场景下品牌物形象的一致性。Vidu “主体参照”功能能够很好的实现，例如，在下面的跑步鞋广告案例中，仅通过一张商品图，便完成了所有视频画面的生成，无论是不同角度、背景，还是动态表现，跑步鞋的形象在整个视频中都保持了高度一致。

生数科技官方介绍到，该视频仅一位人员花费6个小时完成，包含前期策划、素材生成，后期剪辑，其中30段 AI 视频素材的生成仅花费3个小时，整个流程仅参照一张商品图。

传统广告片制作高度依赖线下实拍和后期制作，时间周期长、成本投入大，但现在通过 Vidu 能够极大地节省广告制作的成本，整个产出流程更加高效，品牌方对新素材的开发也能更加灵活。

在会后的媒体采访中，唐家渝表示，目前在客户方面首先，首先会关注企业和视频的相关性，例如最直接用于各种视频内容创作的，以及天然与视频内容相关的领域，比如广告、游戏、短剧和影视等，另外也会关注面向C端的AI视频的衍生趣味玩法。

并表示，现阶段B端市场是生数科技长期重点关注的方向，“B端是比较明确、比较直接的，就是说其实比较稳定的一些需求在里面，所以B端是我们长期非常重点的一个方向。C端的话，我们也在不断的探索过程中”。

此次新功能发布同时，生数科技也推出了合作伙伴计划，邀请广告、影视、动漫、游戏等行业的机构加入，共同探索新的视频创作模式，在内容共创、技术支持、市场拓展等方面展开合作。

首批合作伙伴包括开心麻花、猫眼娱乐、巨人网络、美克家居、融创文化、河南省非物质文化遗产保护和智慧化中心、李可柒画院等知名企业与机构。

AIGC大模型工场已经组织了非常精准的「AI大模型垂直社群」，覆盖超1000位AIGC圈，百度大模型业务负责人，京东大模型业务负责人，腾讯大模型业务人，阿里云大模型技术负责人，科大讯飞大模型公关，商汤大模型业务，阅文大模型公关，360大模型公关负责人都在群里啦，欢迎大模型业务负责人加入。请加微信fqq2000nian，注明真实身份。

数据支持天眼查，大模型独家合作账号

— END —

监制 / 刘老师

编辑 / AIGCCCCC

视觉 / 大模型

微博 / @AI大模型工场

TG/AI Marketing Field

大模型应用创业者，你怎么看？

■ 百度文心一言，阿里通义千问 ▍通用大模型案例

■ 科大讯飞星火京东 ▍产业大模型案例

■ 商汤日日新、腾讯，昆仑万维 ▍ 金融大模型案例

■ 盘古大模型，中国电信，医联 ▍医疗大模型案例

■阅文大模型，腾讯音乐大模型 ▍ 文娱大模型案例

■知乎，360大模型，火山引擎 ▍ 教育大模型案例

■ 网易，金山办公大模型 ▍ 更多行业大模型案例

上次介绍李彦宏内部讲话曝光，谈大模型三大认知误区：智能体还是非共识

本文由大模型领域垂直媒体「AI大模型工场」

原创出品，未经许可，请勿转载。

欢迎提供新的大模型商业化落地思路

跳转微信打开

一张图实现主体可控

重塑视频创作流程，探索多场景商业化落地

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签