AI大模型工场 2024年12月18日
对比Sora与国产视频模型生成效果后,我对Sora祛魅了
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Sora全量上线后服务器崩溃,用户体验不佳。文章从编辑功能、视频生成效果等方面对比Sora与国产模型,指出Sora虽有功能亮点,但模型能力、语义理解等存在不足,国内AI视频产品竞争激烈。

🎬Sora的编辑功能:Remix、Re-cut、Storyboard、Loop、Blend、Style presets等。

💃Sora与国产模型对比:在多个场景生成的视频中,Sora表现欠佳,国产模型各有优势。

🤔Sora的问题:模型能力跟不上,语义理解不精准,操作有壁垒,性价比不高。

原创 西梅汁 2024-12-18 19:03 北京

对Sora去魅


作者西梅汁

编辑|星奈

媒体|AI大模型工场



Sora已经全量上线一周。

即使Sora鸽了大家将近一年的时间,但是大家对这款产品仍是报有很高期待,一上线服务器就崩了,不过大家使用体验似乎并不是很好,实际效果似乎有点差强人意。

不少人抱怨,20美金白花了,生成的视频效果不如国产可灵、即梦。

难道Sora真的是起了个的大早,赶了个晚集?

AI大模型工场最终也是斥巨资冲了会员,看看Sora和国产模型的表现到底哪个更胜一筹。

行动胜于空谈,不如咱们动手来得实在!直接开整。


编辑板块新亮点


Sora 此次最大的亮点在于,在文、图生视频的基础功能之上引入了多种高级编辑功能,首先咱们看看Sora这几个更新的编辑功能视频表现:

1、Remix(重混)


用户可以使用 Remix 替换、删除以及重新构想视频中的元素,我们可以看到视频中的门和场景都可以被替换或删除:




2、Re-cut(重新剪辑) 


找到并分离出最佳帧,向前或向后延伸它们以完成(新)场景,通过挑选合适的视频帧,我们可以重新拓展视频场景

3、Storyboard(故事板) 


在时间线上组织和编辑视频的独特序列,精确控制视频的分镜头发展,从而讲述新故事:

4、Loop(循环) 


使用Loop剪辑并创建无缝循环的视频:

5、Blend(混合) 


将两个视频合并为一个无缝剪辑:

6、Style presets(风格预设)


使用预设创建和分享激发你想象力的风格,视频目前支持五种风格,Balloon World(气球世界)、Stop Motion(定格动画)、Archival(档案材料)、Film Noir(黑白电影)、Cardboard & Paper(纸工艺品)。


Sora VS 可灵AI、腾讯元宝、即梦AI


这部分内容主要从文生视频的角度进行测评,AI大模型工场用同一个Prompt在不同视频模型中生成视频看看他们的表现如何。

1、圣诞探戈场景

Prompt:美丽圣诞场景,一对探戈舞者正在跳探戈。

Sora


sora生成的动作是认真的吗?咱们可以优雅点嘛,不要看我没学过探戈就可以拿这种动作来糊弄人哎。

下面再看看可灵在同样的关键词下生成的关键词吧。


可灵

可灵生成的圣诞场景和人物跳舞场景都具有协调性。同时人物在大幅度动作上,肢体不仅没有扭曲变形,就连跳舞动作也具有连贯性,相比之下AI大模型工场更喜欢可灵生成的场景。

即梦

可以看到即梦在动作上已经极力在保持优雅了,但是人物手部细节部分没有处理好,女士的手有种无处安放感。

腾讯元宝

元宝生成的场景有一种迪士尼的梦幻感,虽然生成的人物动作幅度较小,但是可以看到手指这些细节方面都没有歪曲变形。总体来说生成的效果氛围感十足,但人物AI感比较明显,缺乏真实感。

2、浪漫樱花场景

Prompt:美丽的春日东京城市熙熙攘攘。相机穿过繁华的城市街道,跟随几个人享受美丽的樱花天气并在附近的摊位购物。绚丽的樱花花瓣在风中飞舞。

Sora

Sora这部分的语义理解明显不到位,没有get到漫天樱花,并且在人物运动过程中出现了很大的变形情况,视频主体的两个女生头部变形很严重,前面一个女生的头向后转了180度,恐怖片既视感,另外这两个女生的衣服也很奇怪,有一种“小孩偷穿大人衣服”的感觉。

可灵

可灵生成的这个漫天樱花场景更加梦幻,有一种日漫街头风,但就是花瓣有点大的像玫瑰了。。。

即梦

即梦的语义理解方面也明显不足,同样没有表现出漫天樱花感,甚至在多场景人物的面部识别上都还不够精准,人物面部模糊。

腾讯元宝

语义理解方面,腾讯元宝生成的樱花场景和人物都表现的不错,包括镜头的转场也没有丝毫违和感,细节上元宝可以说是唯一一个体现出几个人在摊位上购物的场景,包括镜头切换的也很自然。

3、猫咪捕猎场景

prompt:猫正在住宅区里奔跑。令人不可思议的是,以猫的视角来看,脚下有草坪,其他的猫正躺着。看样子它似乎在瞄准鸟儿呢。

Sora

sora生成的猫咪开始的镜头前有些糊感,奔跑姿势处理的比较一般,依然可以看到语义理解方面掌握的还不是很全面,住宅区、鸟儿这些元素都没有体现出来。

可灵

可灵这部分同样明显理解不够到位,猫咪的呈现状态忽隐忽现的,镜头角度也很粗糙,画质粗糙。

即梦

相比之下,即梦这部分的语义理解就很不错,场景中小鸟、其他猫咪躺卧都有精准的表现。甚至可以看到猫咪的镜头语言都很强烈。

腾讯元宝

腾讯元宝在场景上以及镜头表现的都很全面,文本内容中的元素也都包含了,包括猫咪在运动中的表情和四肢都没有出现变形。

有一说一,对比后发现,虽然Sora在专业的角度上,确实有很多功能上的亮点,包括编辑上的故事板概念都很不错,但可以明显感受到模型能力跟不上。当下国内的AI视频产品追的很紧,各大厂商都在互相卷,我们已经看过太多好的效果了,随手可应付的时代已经回不去了。除了模型能力,用户也很在乎交互、门槛、性价比等等,Sora目前不管从哪个角度来对比,都没有什么足够的优势。

Sora在算法上面是不太一样的,但是到现在还没感觉到Sora的天花板在哪里。官方生成的成品图也确实让人惊艳,但是当用户在实际操作中还是存在很多壁垒的,至少在门槛上就阻碍了众多AI新用户。关键词和功能面板需要更加复杂精准的操作,语义理解程度也不够精准。

最后,麻烦Sam哥还我20刀!!!!


AIGC大模型工场已经组织了非常精准的「AI大模型垂直社群」,覆盖超1000位AIGC圈,百度大模型业务负责人,京东大模型业务负责人,腾讯大模型业务人,阿里云大模型技术负责人,科大讯飞大模型公关,商汤大模型业务,阅文大模型公关,360大模型公关负责人都在群里啦,欢迎大模型业务负责人加入。请加微信fqq2000nian,注明真实身份。



数据支持天眼查,大模型独家合作账号


— END —


监制 / 刘老师

编辑 / AIGCCCCC

视觉 / 大模型

微博 / @AI大模型工场

TG/AI  Marketing Field


  


大模型应用创业者,你怎么看


■ 百度文心一言,阿里通义千问   ▍通用大模型案例

 ■ 科大讯飞星火 京东  ▍产业大模型案例

■ 商汤日日新、腾讯,昆仑万维   ▍ 金融大模型案例

■ 盘古大模型,中国电信,医联 ▍医疗大模型案例

■阅文大模型,腾讯音乐大模型 ▍ 文娱大模型案例

■知乎,360大模型,火山引擎 ▍ 教育大模型案例

■  网易,金山办公大模型   ▍    更多行业大模型案例



上次介绍营销AGI从故事到应用:灵感岛如何成 AI 营销“救命神器”?





本文由大模型领域垂直媒体「AI大模型工场」

原创出品,未经许可,请勿转载。 

/

欢迎提供新的大模型商业化落地思路

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Sora AI视频模型 语义理解 编辑功能 模型能力
相关文章