掘金 人工智能 前天 19:13
真碾压Sora了!谷歌Veo 3首次实现音画同步,视频模型直接「开口说话」
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

谷歌推出的Veo 3实现了AI视频的重大突破,它不仅能生成高质量视频,还能理解视频内容并自动生成与之同步的对话和音效。这项技术的核心在于DeepMind的V2A技术,该技术能从视频像素和文本提示中生成完整的音轨,包括对白、动作音效和背景音乐。Veo 3的发布标志着生成式AI从“语言+图像”时代迈向“视听一体”的新阶段,尽管目前仅面向美国Ultra订阅用户开放,且视频时长有限,但其音画同步生成的能力已遥遥领先,预示着未来视频模型竞赛的新方向。

🗣️Veo 3的核心优势在于其音画同步生成能力。用户只需一个提示词,就能得到画面、对白、唇动对齐和拟音音效一气呵成的视频,极大地简化了视频创作流程。

👂V2A技术是Veo 3实现音画同步的关键。DeepMind开发的V2A技术能将视频视觉信息编码为语义信号,并结合文本提示,生成匹配的音频波形,实现了视频的“听”和“说”。

⏳Veo 3目前仍存在一些限制。例如,生成的视频时长只有8秒,并且仅面向美国Ultra订阅用户开放,定价较高。这些限制可能会影响其在更广泛用户群体中的应用和普及。

🚀Veo 3的发布预示着AI视频发展的新趋势。它标志着生成式AI从“语言+图像”时代进入“视听一体”的新阶段,音画一体化将成为未来视频模型的核心竞争力。

还记得 2023 年 AI 视频最出圈的片段吗?威尔 · 史密斯吃面,动作鬼畜,画面寂静——

当时的视频大模型,只会动,不会说话。

Sora 的发布让视频质量飞跃、物理规则建模进步巨大,也直接引爆了整条赛道。

Runway、Pika、Luma、Kling、Genmo、Higgsfield、Lightricks 等初创公司,以及 OpenAI、谷歌、阿里、字节等科技巨头,纷纷入局。

但无论画质如何进步,视频还是「哑巴」——

你可以让人物奔跑、翻转,甚至做出慢动作,但如果想让角色说话、听到风声、脚步声,甚至感受到炒菜时锅里的滋滋声?

对不起,还得自己导音频。

更麻烦的是,配完音还可能对不上节奏——口型和对白不同步,脚步踩不到点上,情绪氛围总差一口气。

直到今天,谷歌正式发布 Veo 3。AI 视频,终于能「开口说话」了——

Veo 3 不仅能生成高质量视频,还能理解视频中的原始像素,自动生成与画面同步的对话、多种音效。

翻译成中文——

只用一个提示词,你就能得到画面 + 对白 + 唇动对齐 + 拟音音效一气呵成的视频。

提示语:90 年代酒吧里的情景喜剧场景,背景墙上的霓虹灯写着 「fofr」。一对夫妇说了些什么,观众大笑起来。

音画同步生成,直接把视频模型拉到了新时代 。而其中关键能力,离不开 DeepMind 过去就悄悄铺下的一项底层技术:V2A( Video-to-Audio )

2023 年 6 月,DeepMind 就首次披露:

他们正开发一套 AI 系统,能从视频像素 + 文本提示中,自动生成完整音轨。包括对白、动作音效、环境音、背景音乐……

它的原理是:将视频视觉信息编码为语义信号,与文本提示一同输入扩散模型,生成匹配的音频波形。

可以说,**V2A 就是 Veo 3 的「耳朵」和「声带」。**再配合谷歌的音视频数据资源—— YouTube 很可能是训练数据之一—— Veo 3 的音画合成功能,已经遥遥领先。

一个小遗憾:视频仍只有 8 秒。

另外,目前 Veo 3 仅面向美国 Ultra 订阅用户开放,定价为 249.99 美元 / 月。这是谷歌专为专业创作者、开发者推出的高阶会员服务。

虽然门槛不低、时长有限,但 Veo 3 的初次亮相,已足够震撼。

过去生成式 AI 是「语言 + 图像」的时代,现在,正在进入「视听一体」的新阶段。

生成视频从会动 → 能说 → 有氛围,一步步突破不同模态的边界。

如果说 Sora 是让 AI 看懂物理世界,那 Veo 3,就是让 AI 能「听懂」,「会说」。

看来,音画一体,将是下一轮视频模型竞赛的标配。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Veo 3 AI视频 V2A 音画同步
相关文章