真碾压Sora了！谷歌Veo 3首次实现音画同步，视频模型直接「开口说话」

还记得 2023 年 AI 视频最出圈的片段吗？威尔 · 史密斯吃面，动作鬼畜，画面寂静——

当时的视频大模型，只会动，不会说话。

Sora 的发布让视频质量飞跃、物理规则建模进步巨大，也直接引爆了整条赛道。

Runway、Pika、Luma、Kling、Genmo、Higgsfield、Lightricks 等初创公司，以及 OpenAI、谷歌、阿里、字节等科技巨头，纷纷入局。

但无论画质如何进步，视频还是「哑巴」——

你可以让人物奔跑、翻转，甚至做出慢动作，但如果想让角色说话、听到风声、脚步声，甚至感受到炒菜时锅里的滋滋声？

对不起，还得自己导音频。

更麻烦的是，配完音还可能对不上节奏——口型和对白不同步，脚步踩不到点上，情绪氛围总差一口气。

直到今天，谷歌正式发布 Veo 3。AI 视频，终于能「开口说话」了——

Veo 3 不仅能生成高质量视频，还能理解视频中的原始像素，自动生成与画面同步的对话、多种音效。

翻译成中文——

只用一个提示词，你就能得到画面 + 对白 + 唇动对齐 + 拟音音效一气呵成的视频。

提示语：90 年代酒吧里的情景喜剧场景，背景墙上的霓虹灯写着「fofr」。一对夫妇说了些什么，观众大笑起来。

音画同步生成，直接把视频模型拉到了新时代。而其中关键能力，离不开 DeepMind 过去就悄悄铺下的一项底层技术：V2A（ Video-to-Audio ） 。

2023 年 6 月，DeepMind 就首次披露：

他们正开发一套 AI 系统，能从视频像素 + 文本提示中，自动生成完整音轨。包括对白、动作音效、环境音、背景音乐……

它的原理是：将视频视觉信息编码为语义信号，与文本提示一同输入扩散模型，生成匹配的音频波形。

可以说，**V2A 就是 Veo 3 的「耳朵」和「声带」。**再配合谷歌的音视频数据资源—— YouTube 很可能是训练数据之一—— Veo 3 的音画合成功能，已经遥遥领先。

一个小遗憾：视频仍只有 8 秒。

另外，目前 Veo 3 仅面向美国 Ultra 订阅用户开放，定价为 249.99 美元 / 月。这是谷歌专为专业创作者、开发者推出的高阶会员服务。

虽然门槛不低、时长有限，但 Veo 3 的初次亮相，已足够震撼。

过去生成式 AI 是「语言 + 图像」的时代，现在，正在进入「视听一体」的新阶段。

生成视频从会动 → 能说 → 有氛围，一步步突破不同模态的边界。

如果说 Sora 是让 AI 看懂物理世界，那 Veo 3，就是让 AI 能「听懂」,「会说」。

看来，音画一体，将是下一轮视频模型竞赛的标配。

Fish AI Reader