原创 orangesai 2024-12-04 08:00 北京
Sora 憋了一年没憋出来,开源已经追了上来。
昨天,腾讯放出了自家的视频生成大模型。
至此字节、阿里、腾讯三家的视频生成模型都已经全部放出。
官方用这个模型和市面上最好的四家Sora类模型进行了对比,经过千题盲测,结果如下:
可以看出,这个模型在文本对齐方面,和国内最好的两家打平,而在运动质量方面显著胜出。
作为开源模型,整体表现并不输闭源模型,可以说相当惊喜。
模型实际体验
我用这个视频的实际感受是,在现实风格方面的稳定性很强,美学也不错。
下面是我用这个视频模型,做的一些火星相关的片段,所有的片段都是单次抽卡。
群友对这个视频模型的一些印象是这样的:
模型调性,在写实风格方面很强,但在动画方面很弱
模型对语义遵循方面不错,和一线模型对齐
模型具备原生转场和切镜能力,可以在五秒的视频中自动化进行镜头切换,可以通过 prompt 主动触发,模型也会在提示词较长时自动切换镜头
特写镜头拍摄的是一位 60 多岁、留着胡须的灰发男子,他坐在巴黎的一家咖啡馆里,沉思着宇宙的历史,他的眼睛聚焦在画外走动的人们身上,而他自己则基本一动不动地坐着,他身穿羊毛大衣西装外套,内衬系扣衬衫,戴着棕色贝雷帽和眼镜,看上去很有教授风范,片尾他露出一丝微妙的闭嘴微笑,仿佛找到了生命之谜的答案,灯光非常具有电影感,金色的灯光,背景是巴黎的街道和城市,景深,35 毫米电影胶片。
模型的特点和发展规划
发布会上,负责人聊了聊模型目前的几个特点:
(1)超写实质感:模型生成的视频内容具备高清质感、真实感,可用于工业级商业场景例如广告宣传、创意视频生成等商业应用。
(2)高语义遵循:用户可以进行细致的刻画,例如生成主体的细节,人物概念的组合等。模型可以准确地表达出文本的内容。
(3)运动画面流畅:可生成大幅度的合理运动,运动镜头流畅、符合物理规律,不易变形。
(4)原生镜头转换:模型原生具备自动生成多视角同主体的镜头切换画面,增强画面叙事感。
在发布会之后,模型负责人又跟大家闲聊了一会儿,讲到为什么图片生成模型的发展这么好?这跟开源社区如 ComfyUI 的努力是分不开的。
而在文生视频领域,行业还是一个非常早期的阶段,所以在混元的后续规划方面,因此并不急于做商业化,而是选择全面开源,希望吸引更多的创作者,一起推动视频模型行业的发展。
另外在视频生成之外,团队还在探索视频配音模型、配乐模型、语音驱动的2D照片数字人等,最终要为创作者打造一个一站式的短视频内容制作工具。
模型使用和开源地址
模型目前已上线腾讯元宝APP,可在AI应用中的“AI视频”板块申请试用,完全免费。
企业客户通过腾讯云提供服务接入,目前API同步开放内测申请。
同时,模型也已经全面开源,这是一些重要链接:
官网:https://aivideo.hunyuan.tencent.com
代码:https://github.com/Tencent/HunyuanVideo
模型:https://huggingface.co/tencent/HunyuanVideo
技术报告:https://github.com/Tencent/HunyuanVideo/blob/main/assets/hunyuanvideo.pdf
最后,感谢腾讯放出了目前开源的最强视频生成模型。
相信加上社区的力量之后,整个视频生成行业会有更好的发展。