OpenAI的Sora发布后,虽经历多次更新,但用户对其期望逐渐降低,市场上涌现出众多“中上位替代”模型。谷歌Veo2被认为已实现赶超,而快手可灵1.6版本在盲测中表现突出,并超越了以往的水平,进一步填补了图生视频的“瑕疵”。可灵1.6在语义理解、物体生成、人物表情等方面更接近现实,并能实现更真实的物理效果,如镜头摇晃、光影变化等。在人物表情和动作的呈现上也得到了显著提升,有效减少了“恐怖谷效应”,其自然语言理解能力也得到了显著提升,可灵AI在短时间内快速迭代,已积累大量用户和生成内容,并不断开放技术组件,为创意表达和内容创作提供支持。
🚀可灵1.6版本在视频生成领域表现突出,超越了以往的同类模型,特别是在物理规律的细节呈现上更进一步,例如水位的变化、物体碰撞的效果等,都更接近真实世界。
🎭 在人物表情和动作的呈现上,可灵1.6显著提升,有效减少了“恐怖谷效应”,使得生成的人物视频更加自然和真实,告别了以往AI生成视频中常见的“欢乐豆效应”。
💡可灵1.6在自然语言理解能力上也有了显著提升,能更好地理解用户的指令,实现“指哪打哪”,这对于模型的商业化落地至关重要。同时,在光照的真实性上也有了显著提升,使得画面更加逼真。
🌟 可灵AI在短时间内快速迭代,已积累了大量用户和生成内容,并不断开放技术组件,为创意表达和内容创作提供支持,体现了国产AI在视频生成领域的快速发展和强大竞争力。
参商 2024-12-20 20:09 北京
趟出了一条自己的图生视频之路



作者|参商
编辑|星奈
媒体|AI大模型工场
从首次发布到最终开放,OpenAI的Sora让望眼欲穿的用户们等了足足10个月。相较2月16日的初版,12月10日的Sora Turbo版本固然速度更快,功能更全,但不少网友测试后纷纷表示失望,有的更是喊话Sam,“还我200刀!”
网友们之所以对Sora没了往日的滤镜,不仅是因为Sora自身的不完美,也是因为有了太多的“中上位替代”。
譬如紧随其后一周发布的谷歌Veo2 模型,就被很多网友认为实现了全面赶超。曾经遥遥领先的OpenAI,如今也开始“跌落神坛”。
值得一提的是,谷歌内部也对市面上的模型,以盲测形式进行了一波跑分赛马。测试数据显示,除了自家Veo2,快手的可灵1.5表现最高。

就在昨天,这个刚刚“谷歌认证”过的国产模型之光,又更新了最新的1.6版本,在此前测试的性能上又向前一步。
而在本轮更新之后,不少网友甚至表示,1.6的命名或太过保守,“2.0应该更为合适”。至此,我们也可以说,起码在AI视频生成这个细分赛道,国内AI厂商的头部地位再一次得到巩固。

我们需要更“真实”的“图生视频”
到目前为止,市面上图生视频的效果,仍然是不够稳定的。
用小红书、B站等流媒体软件搜索“AI超越人类”关键词,就能发现一系列真人模仿AI生成效果的视频。它们出现在流媒体上的唯一原因,就是因为AI生成视频的效果跟真实世界差别过大,导致产生了过于搞笑的节目效果。
即便是公认干过Sora的veo2,在一些物理规律的细节上仍然逃不过AI博主的法眼。在谷歌 Deepmind Veo 的联合负责人,X 博主 @shlomifruchter 发布的视频中,并不缺乏这样的案例。他将几颗饱满的蓝莓丢进水中,蓝莓的上下浮动,水泡的生成、水花的溅起,看似都没问题,唯一不合理的地方,是十几颗蓝莓下去,水杯里的水位丝毫不见涨。
再比如一颗大铁球砸进装满硬币的纸盒子,铁球自由落体的效果很真实,硬币炸出来的效果很真实,唯一的瑕疵点,在硬币被铁球砸得越来越多。
最新更新的可灵1.6,则是超越了过往同行的水平,更进一步去填补这类“瑕疵”——从最基础的语义理解,到生成物品的效果,再到人物表情,更接近现实世界的运转规律。
以这个物理世界向的现实风格视频为例,这个场景从17世纪海盗船上的水手视角展示了摇晃的镜头画面。当海浪猛烈撞击木质船体时,地平线剧烈摇晃,难以分辨细节。突然,一只巨大的海妖戏剧性地从汹涌的大海中浮现出来。它巨大而滑溜的触手威胁性地伸出来,黏糊糊的附属物以可怕的力量缠绕着船。视角剧烈变化,水手们慌乱地四处奔逃以面对这只可怕的海洋生物。气氛紧张,在混乱中可以听到船的呻吟声和海洋的咆哮声。从生成效果来看 它首先实现了镜头的摇晃,同时以船边水手的越肩视角展开,随着海怪的出现和接近,地平线随着镜头不断摇晃。可以看到,随着海怪的触角在海上拍打,浪花的变化是根据触手动作而不断变化的,而且跟船体的位置也有相应的对应关系变化,也和远处地平线的变化相互对应。再比如这个茶壶倒水视频,从茶壶快速悬浮开始,快速旋转倾斜,茶水流入茶杯;相机快速拉近,聚焦茶杯内部,展现细腻水纹与倒茶瞬间。可以看到,从画面的开始,就严格按照提示词的时序分布开始生成,中间还涉及到近景变焦和远景的虚化,烟雾和水纹二者的结合并没有产生冲突。这几样,能在视频里有机统一而不违和,就是我们所追求的文生视频的“真实感”。再来看一组动物和自然的结合。我们输入“马在向前跑,溅起雪”的prompt,这里决定“真实感”的要素,则是马身上肌肉的运动、光照在运动中的变化。可以看到,在画面中的几匹马,运动中的肌肉运动,和鬃毛随着马匹前进上下波动;马蹄扬起的雪花,则在阳光的照射下,呈现了接近丁达尔效应的演出效果,可以说非常真实了。当然,能增进场景真实度的另一个指标,则是光照的真实性。这是一个很多号称“照片级画面”的游戏,都未能完全解决的问题。但在可灵1.6,这个问题目前的处理已经相当不错。在这个视频里,女人的手在阳光下拿起戒指,阴影随着手指的运动,不断在手心和桌子上同步变化,阴影面积也随之改变。唯一美中不足的,则是主体手部之外,其他部位的阴影处理略显粗糙,但整体效果已经足够出众。

与“欢乐豆效应”说拜拜
无论是社交媒体的“征服AI”系列视频。还是此前图生视频模型对人物的生成,都在不同程度上反映了一个问题,即此前的模型,在人物表现力、尤其是对人物表情的呈现,其实是存在一定程度困难的。
而这些明显不符合物理规律的运动轨迹,放在生成的视频中,就会造成与真人相异的“不真实感”,所谓的“恐怖谷效应”,即社交网络中的“欢乐豆效应”,由此产生。在刚刚更新的可灵1.6版本中,这是被重点解决的问题之一。譬如在这个视频里,以猫咪作为前景,放大镜里的女孩面部作为主体,随着放大画面的变动,女孩的面部也会随之产生细微的变化,比如放大镜里的头发丝、眼睛、以及拿开之后手指和床单的变化、前景中猫的动作变化等等。把难度增加一些,将主要提示词更换成人物面部表情,在这个“女孩抬头冲镜子微笑”的视频里,前景的书和后景的墙,虚化恰到好处;女孩的面部表情也有阴影上的变化,且面部肌肉的运动,已经与真人一般无二。而当生成对象进入动漫世界,所谓的“真实感”,则变成了色彩变化和光照变化的对应关系,以及形象的“还原度”。从这个《疯狂动物城》的视频可以看到,在视频生成的全程,两个主体并没有产生明显的畸变,维持了形象的统一性;其次,从兔子的角度,我们可以看到它面部光照,随着狐狸手部和身体移动的变化。值得一提的是,当两个风格完全不同的IP互相融合,在提示词处理得当的前提下,也能获得非常好的效果。譬如博主@温维斯生成的皮卡丘&复仇者联盟系列视频,抛开皮卡丘毛皮材质、金属服装的质感等“基础操作”,可以看到的提升是其动作幅度和特效精细程度明显增加,最终二者融合的效果也非常不错。动漫同样只是风格化视频的其中一个分野。如果完全架空进行创作,效果会如何?在这个机械狼的生成视频里,一开始狼是躺着的。但是要实现站起来并不规律眨眼的效果,就需要模型自主进行补充和生成。可以看到,在最终生成的视频里,不仅画面仍然保持了精细程度,而且也很好模拟了狼作为动物的动感和机械的质感。能取得这些效果升级的前提,则是在最最基础的自然语言理解能力上,可灵已经基本消灭了幻觉带来的影响,能在用户的指挥下“指哪打哪”,这或许是这类模型在商业化落地层面,最重要也是最基础的前提。

重新定义0.1
值得注意的是,前文提到的所有进步,其实相比“谷歌认证”的可灵1.5,只有0.1个版本号的区别。
距离今年6月可灵AI问世,也仅仅过去了半年而已。在这180多天里,可灵累计迭代升级十几次,已积累了超过600万用户,累计生成视频超过6500万个,图片1.75亿张。在此期间,快手大模型团队也在不断拓展技术边界。譬如给视频生成模型(Video DiT)量身定制的 Scaling Law 建模方法,以及精准视频风格化项目 StyleMaster等等。这些核心数据和技术组件,可灵AI也正在不断开放,为其实现更好的创意表达,及更自由的内容创作添砖加瓦。智源研究院在12月19日发布并解读国内外100余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。 评测结果显示,可灵1.5模型的文生视频能力也力压群雄排于榜首。
视频生成大模型堪称目前最卷赛道,从OpenAI的Sora到可灵AI横空出世再到最近的谷歌Veo2,众多玩家的持续发力,一直不断推高技术的天花板,也让市场竞争更加激烈。视频生成效果的不断突破,周期甚至从每月缩减到每周。可灵只把版本号往前推进了0.1,却带来了文本响应度、物理世界的真实感以及生成画面质量的越级提升,无法想象可灵 2.0 到来后,更强大的模型能力将带来什么变化?或许将再次定义这一赛道的新高度。
现在可灵AI官网 klingai.kuaishou.com已经全量上线1.6版本,有兴趣的小伙伴可以上手实验。
AIGC大模型工场已经组织了非常精准的「AI大模型垂直社群」,覆盖超1000位AIGC圈,百度大模型业务负责人,京东大模型业务负责人,腾讯大模型业务人,阿里云大模型技术负责人,科大讯飞大模型公关,商汤大模型业务,阅文大模型公关,360大模型公关负责人都在群里啦,欢迎大模型业务负责人加入。请加微信fqq2000nian,注明真实身份。

数据支持天眼查,大模型独家合作账号
— END —
监制 / 刘老师
编辑 / AIGCCCCC
视觉 / 大模型
微博 / @AI大模型工场
TG/AI Marketing Field
大模型应用创业者,你怎么看?
■ 百度文心一言,阿里通义千问 ▍通用大模型案例
■ 科大讯飞星火 京东 ▍产业大模型案例
■ 商汤日日新、腾讯,昆仑万维 ▍ 金融大模型案例
■ 盘古大模型,中国电信,医联 ▍医疗大模型案例
■阅文大模型,腾讯音乐大模型 ▍ 文娱大模型案例
■知乎,360大模型,火山引擎 ▍ 教育大模型案例
■ 网易,金山办公大模型 ▍ 更多行业大模型案例
上次介绍对比Sora与国产视频模型生成效果后,我对Sora祛魅了


本文由大模型领域垂直媒体「AI大模型工场」
原创出品,未经许可,请勿转载。
/
欢迎提供新的大模型商业化落地思路
跳转微信打开