腾讯发布最强开源视频生成模型，千题盲测第一，实际体验如何？

原创 orangesai 2024-12-04 08:00 北京

Sora 憋了一年没憋出来，开源已经追了上来。

昨天，腾讯放出了自家的视频生成大模型。

至此字节、阿里、腾讯三家的视频生成模型都已经全部放出。

官方用这个模型和市面上最好的四家Sora类模型进行了对比，经过千题盲测，结果如下：

可以看出，这个模型在文本对齐方面，和国内最好的两家打平，而在运动质量方面显著胜出。

作为开源模型，整体表现并不输闭源模型，可以说相当惊喜。

模型实际体验

我用这个视频的实际感受是，在现实风格方面的稳定性很强，美学也不错。

下面是我用这个视频模型，做的一些火星相关的片段，所有的片段都是单次抽卡。

群友对这个视频模型的一些印象是这样的：

模型调性，在写实风格方面很强，但在动画方面很弱

模型对语义遵循方面不错，和一线模型对齐

模型具备原生转场和切镜能力，可以在五秒的视频中自动化进行镜头切换，可以通过 prompt 主动触发，模型也会在提示词较长时自动切换镜头‍

特写镜头拍摄的是一位 60 多岁、留着胡须的灰发男子，他坐在巴黎的一家咖啡馆里，沉思着宇宙的历史，他的眼睛聚焦在画外走动的人们身上，而他自己则基本一动不动地坐着，他身穿羊毛大衣西装外套，内衬系扣衬衫，戴着棕色贝雷帽和眼镜，看上去很有教授风范，片尾他露出一丝微妙的闭嘴微笑，仿佛找到了生命之谜的答案，灯光非常具有电影感，金色的灯光，背景是巴黎的街道和城市，景深，35 毫米电影胶片。

模型的特点和发展规划

发布会上，负责人聊了聊‍模型目前的几个特点：

（1）超写实质感：模型生成的视频内容具备高清质感、真实感，可用于工业级商业场景例如广告宣传、创意视频生成等商业应用。

（2）高语义遵循：用户可以进行细致的刻画，例如生成主体的细节，人物概念的组合等。模型可以准确地表达出文本的内容。

（3）运动画面流畅：可生成大幅度的合理运动，运动镜头流畅、符合物理规律，不易变形。

（4）原生镜头转换：模型原生具备自动生成多视角同主体的镜头切换画面，增强画面叙事感。

在发布会之后，模型负责人又跟大家闲聊了一会儿，讲到为什么图片生成模型的发展这么好？这跟开源社区如 ComfyUI 的努力是分不开的。

而在文生视频领域，行业还是一个非常早期的阶段，所以在混元的后续规划方面，因此并不急于做商业化，而是选择全面开源，希望吸引更多的创作者，一起推动视频模型行业的发展。

另外在视频生成之外，团队还在探索视频配音模型、配乐模型、语音驱动的2D照片数字人等，最终要为创作者打造一个一站式的短视频内容制作工具。

模型使用和开源地址

模型目前已上线腾讯元宝APP，可在AI应用中的“AI视频”板块申请试用，完全免费。

企业客户通过腾讯云提供服务接入，目前API同步开放内测申请。