量子位 03月07日
腾讯图生视频全面开源,更懂物理规律,一手实测来了
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

腾讯混元AI视频推出了全新的“图生视频”功能,并开源。这项功能允许用户上传图片并生成短视频,在画质和物体一致性方面有显著提升。文章通过一系列难题测试,如物理规律符合度、无中生有能力、指令遵循度以及连贯一致性,来评估该功能的表现。测试结果表明,腾讯混元在这些方面取得了进步,但在细节上仍有提升空间,例如手部比例、文字生成和整体一致性。用户可以通过官方网站或GitHub免费体验该功能,并参与社区讨论。

🖼️腾讯混元AI视频推出图生视频功能,用户上传图片即可生成短视频,无需额外费用,降低了AI视频创作的门槛。

🐎通过测试“无中生有”的能力,混元AI能够根据文字提示在画面中添加新元素,例如在草原上生成奔跑的骏马,但目前尚不能直接生成文字,需要借助其他工具。

💃通过镜子题材的测试,展示了模型对光影和物体运动一致性的理解,生成的幽灵在镜子前跳舞的视频,镜内外动作一致,光影变换自然,效果惊艳。

原创 关注前沿科技 2025-03-06 16:33 北京

网友疯狂试玩ing

一水 发自 凹非寺
量子位 | 公众号 QbitAI

就在刚刚,腾讯版Sora补齐了又一重要拼图——图生视频

而且还是熟悉的配方,和去年12月发布的文生视频模型HunyuanVideo一样,发布即开源

那么,此次上新的「图生视频」到底有多强呢?

有网友直接用它制作了一部电影:

可以看到,新功能在画质、物体一致性等方面有了很大提升。

目前该功能已上线腾讯混元AI视频,人人都可免费体验(有次数限制)

话不多说,量子位一手实测走起~

实测腾讯混元「图生视频」

有一说一,图生视频这项功能本身在视频AI领域已不新奇,但难的是生成效果好。

而在各位玩家狂卷生成效果的途中,一些老大难问题逐渐“露面”,并成为检验和驱动视频AI进化的法宝。

所以,为了直观展示腾讯版Sora的「图生视频」能力,我们直接从这些难题入手。

难题1:是否符合现实物理规律

众所周知,从视频AI诞生至今,生成符合现实物理规律的视频堪称行业难题。

一不小心就各种手脚满天飞,让人直呼恐怖:

所以这第一关,我们直接来个大招——让腾讯混元视频AI还原运动员跳水

而且为了整活儿,选取的原图就有“炸鱼”的倾向了(doge):

(右侧为AI生成的原图和提示词,选取2K视频)

最终效果be like:

首先,为了保证画质,我们一开始就特意选了「2K视频」(默认为高品质),并选择更通用的混元图生1.0(另一个针对人像优化)

从结果可以看到,整体画面还是比较高清的,随手一截都有点像体育频道报道。

质量上,相比早期的“手脚乱飞”也明显有很大进步,一眼看去没有明显错误。

然鹅,如果要拿放大镜来看,一些细节还是经不起推敲。

比如运动员左手的大小比例在下面这个瞬间有点问题,手掌明显过宽;另外手势在变换的过程中,抠图感明显,能从这里看出视频由AI生成。

所以,要想实现100%还原真实物理规律,大噶还得加油啊~

BTW,虽然生成的视频目前只有5秒,但不难想见这位小哥落水时即将炸鱼了。

难题2:能否“无中生有”

Okk,难题继续。

为了考验视频生成AI的可控性,我们来看这样一张原图:(草原上没有一只动物)

输入prompt,“图中出现了一匹马”,最终结果如下:

可以看到,视频中确实出现了一匹白色骏马在草原上慢慢行走。

除此之外,我们继续搬出大家心心念念的一个功能来挑战——在画面中生成文字(中文或英文)。

个人多次实测后发现,目前暂时无法在视频中凭空生成文字(大家有成功案例可以在评论区补充)

不过也有一种间接方法能够实现:先在图片中生成文字(可以用腾讯豆包AI的画图功能),再将图片转换成动态视频。

嗯,也是给量子位打上了赛博广告(doge)~

所以,在让视频“无中生有”这方面,除了添加文字不可控,其他元素已经可以轻松拿捏了。

难题3:能否准确遵循指令

接下来,图片搭配文字提示词,也能用来考察视频生成AI是否理解用户意图了。

腾讯混元视频AI,在上传图片后,可以通过正面(想要哪些画面)和反面(不想要哪些)提示词来设计整个画面。

这里我们又拿腾讯混元视频的“独家艺能”来测试。早在文字生成视频的功能发布后,他们就主推了在画面主角保持不变的情况下自动切镜头的这项功能,当时号称这是业界大部分模型所不具备的能力。

所以,我们这次的prompt如下:

一位外国美女穿着汉服,头发飘扬,背景是长城,然后镜头切换到正面特写。

最终生成结果如下:

乍看之下,镜头从侧脸切换到正脸衔接挺自然,连发丝都始终在空中飘扬。

但是一抠细节,后来的黄色发夹有点突兀了,所以在整体一致性上仍有完善空间。

难题4:能否保证连贯一致性

当然,光是准确还原指令还不够,更重要的是要让所有元素自然铺开。

换句话说,还要考察图片转化成视频后的动作、场景过渡是否自然流畅,有无明显的卡顿、跳跃或不连贯的情况。

嗯,依旧上难度——镜子题材下的运动一致性考验

穿着白床单的幽灵面对着镜子。镜子中可以看到幽灵的倒影。幽灵位于布满灰尘的阁楼中,阁楼里有老旧的横梁和被布料遮盖的家具。阁楼的场景映照在镜子中。幽灵在镜子前跳舞。电影氛围,电影打光。

最终效果如下:

一般来说,镜子题材可以用来考验模型对光影的理解,以及镜子内外主体运动是否能保持一致。

而上面这个生成效果着实惊艳,当身披白床单的幽灵“手舞足蹈”时,镜子里的动作非常一致,而且连地上的光影变换也非常符合物理规律。

整体看起来相当丝滑~

Okk,几个堪称最难的测试到此告一段落。实测下来,腾讯混元的「图生视频」新功能在这些最难挑战上有了很大进步,但离100%符合物理规律和完全一致性仍有一段距离。

最后附上来自官方的写prompt小tips:

用法1:提示词 = 主体+动作 (相对简短的表述效果更优)

主体:视频的主要表现对象要与与输入图片一致,可以为人、动物、植物、物品等,简单描述即可,比如一个女孩、一个熊猫等。

动作:对主体动作或状态的描述,用词建议简单且清晰具体,最好有动态感,比如戴眼镜->用手戴上眼镜,喝水->用手举起杯子喝水。

用法2:提示词 = 主体+动作 +运镜方式

运镜方式:镜头的运动方式,比如静止镜头、镜头平移向右,镜头缩放等。

网友疯狂试玩ing

与此同时,网友们的第一波鲜测也出炉了:

感兴趣的童鞋可以玩起来了~

在线免费体验:
https://video.hunyuan.tencent.com/
Github:
https://github.com/Tencent/HunyuanVideo-I2V
Huggingface:
https://huggingface.co/tencent/HunyuanVideo-I2V

参考链接:
[1]https://x.com/TXhunyuan/status/1897558826519556325
[2]https://x.com/iamhk/status/1897557803755253850

评选报名2025年值得关注的AIGC企业&产品

下一个AI“国产之光”将会是谁?

本次评选结果将于4月中国AIGC产业峰会上公布,欢迎参与!


一键关注 ? 点亮星标

科技前沿进展每日见



一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

腾讯混元AI 图生视频 人工智能 AI视频生成
相关文章