无需 3D 模型 / 物理引擎：谷歌 DeepMind 联合开发力提示技术，AI 生成视频可模拟真实运动

IT之家 06月04日 08:48

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

谷歌DeepMind团队与布朗大学合作，开发了名为“力提示”的新技术，使AI视频生成模型能够在无需3D模型或物理引擎的情况下，生成逼真的运动效果。用户可以通过指定力的方向和强度来控制AI生成的视频内容，该技术支持全局力和局部力两种力量。研究团队基于CogVideoX-5B-I2V视频模型，通过ControlNet模块处理物理控制数据，利用Transformer架构生成视频。实验表明，该技术在运动匹配度和真实感上优于现有模型，但复杂场景中仍有改进空间。DeepMind首席执行官Demis Hassabis认为，这类技术是通向更通用AI的关键一步。

💨 **力提示技术的核心：** 该技术允许用户通过指定力的方向和强度来控制AI生成的视频内容，无需依赖3D模型或物理引擎。它使用全局力（如风）和局部力（如敲击）两种类型的力，以矢量场形式输入系统，从而生成自然流畅的运动。

⚙️ **技术实现细节：** 研究团队基于CogVideoX-5B-I2V视频模型，并结合ControlNet模块处理物理控制数据。视频生成过程涉及Transformer架构，每段视频包含49帧。训练数据主要为合成数据，包括不同风力下旗帜飘动的视频、滚动球体和花朵受冲击反应的视频。

💡 **模型优势与局限：** “力提示”技术在运动匹配度和真实感上优于纯文本或运动路径控制的基准模型。尽管模型在简单物理规则方面表现出色，例如相同力下轻物移动距离更远，但在复杂场景中仍存在缺陷，例如烟雾有时不遵循风力，人体运动偶尔出现不自然。

IT之家 6 月 4 日消息，科技媒体 The Decoder 昨日（6 月 3 日）发布博文，报道称谷歌 DeepMind 团队携手布朗大学，为视频生成模型开发“力提示”（force prompting）技术，可以在无需 3D 模型或物理引擎的情况下，生成逼真的运动效果。

用户只需指定力的方向和强度，就能操控 AI 生成的视频内容，该技术支持全局力（如风吹过整个画面）和局部力（如特定点的敲击）两种力量。这些力以矢量场形式输入系统，随后被转化为自然流畅的运动。

研究团队基于 CogVideoX-5B-I2V 视频模型，加入 ControlNet 模块处理物理控制数据，信号通过 Transformer 架构生成视频，每段视频包含 49 帧，仅用 4 台 Nvidia A100 GPU 训练一天完成。

训练数据完全为合成：全局力数据包括 1.5 万段不同风力下旗帜飘动的视频；局部力数据则有 1.2 万段滚动球体和 1.1 万段花朵受冲击反应的视频。

在生成过程中，文本描述中在加入“风”或“气泡”等物理术语后，模型会自动建立正确的力与运动关系。训练样本结合文本提示、起始图像和物理力（全局力为完整矢量场，局部力为方向、位置和强度的动态信号），并通过随机化背景、光线和视角增加多样性。

尽管训练数据有限，模型展现出强大的泛化能力，能适应新物体、材质和场景，甚至掌握简单物理规则，如相同力下，轻物移动距离比重物远。

用户测试中，“力提示”技术在运动匹配度和真实感上优于纯文本或运动路径控制的基准模型，甚至超越依赖真实物理模拟的 PhysDreamer（仅在图像质量上稍逊）。然而，复杂场景中仍存缺陷，例如烟雾有时无视风力，人体手臂偶尔像布料般移动。

DeepMind 首席执行官 Demis Hassabis 近期表示，新一代 AI 视频模型（如 Veo 3）正逐步理解物理规则，不再局限于文本或图像处理，而是开始表征世界的物理结构。他认为这是通向更通用 AI 的关键一步，未来 AI 可能不再仅仅依赖数据，而是能在模拟环境中通过经验学习。

IT之家附上参考地址

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签