我爱计算机视觉 4小时前

西安交大、OPPO等提出 D3，用二阶物理特征“揪出”Sora类AI视频，无需训练！

随着AI视频生成技术的进步，检测虚假视频变得愈发重要。西安交通大学、OPPO和香港城市大学的研究者提出了一种名为D3的新型检测方法，该方法基于牛顿力学中的二阶动力学分析，通过分析视频的“加速度”特征，无需训练即可高效且精准地识别AI生成视频的细微破绽。实验结果表明，D3在多个数据集上取得了SOTA性能，展现出强大的检测能力和泛化性。

😟D3方法的核心在于分析视频的二阶时序特征，即“加速度”，真实视频与AI生成视频在这一特征上存在显著差异，AI难以完美模仿物体移动的“节奏变化”。

🔄D3通过计算“二阶中心差分”来捕捉视频的“加速度”特征，从而区分真假视频，整个过程无需训练，具有极强的泛化能力和计算效率。

⚡实验证明，D3在多个数据集上全面超越了现有的基于训练的SOTA方法，例如在GenVideo数据集上，其平均精度（mAP）比之前的最佳方法绝对提升了10.39%。

CV君 2025-08-04 20:06 江苏

随着Sora等视频生成技术的飞速发展，人类正进入一个真假难辨的时代。高保真AI视频的泛滥引发了公众对虚假信息传播的深切担忧。然而，现有的检测方法往往难以捕捉到AI视频在时间维度上的微小破绽。为了应对这一挑战，来自西安交通大学、OPPO和香港城市大学的研究者们，从牛顿力学中汲取灵感，提出了一种全新的、无需训练的AI生成视频检测方法——D3 (Detection by Difference of Differences)。该方法通过分析视频的“加速度”特征，高效且精准地识别AI的“蛛丝马迹”，在多个数据集上取得了SOTA性能。

作者: Chende Zheng, Ruiqi suo, Chenhao Lin, Zhengyu Zhao, Le Yang, Shuai Liu, Minghui Yang, Cong Wang, Chao Shen

机构: 西安交通大学; OPPO; 香港城市大学

论文标题：D3: Training-Free AI-Generated Video Detection Using Second-Order Features

论文地址: https://arxiv.org/pdf/2508.00701v1

项目地址: https://github.com/Zig-HS/D3

研究背景

当前的AI视频检测器，大多关注单帧画面的空间伪影，或是相邻帧之间的简单变化，这在面对越来越逼真的生成模型时显得力不从心。它们忽略了一个关键信息：时序伪影 (temporal artifacts) 。真实世界的物体运动遵循物理规律，而AI生成的视频在模拟这种动态连续性时，往往会暴露出不自然的“痕迹”。现有方法对这种深层时序特征的探索还远远不够。

D3：基于二阶动力学的检测新思路

研究者创造性地将牛顿力学引入该问题，建立了一个二阶动力学分析的理论框架。简单来说：

零阶特征：视频的原始像素帧。

一阶时序特征：像素点的位移，即光流（Optical Flow），可以理解为物体的“速度”。

二阶时序特征：光流的变化，可以理解为物体的“加速度”。

D3方法的核心洞察是：真实视频和AI生成视频在一阶特征（速度）上可能相似，但在二阶特征（加速度）的分布上存在根本性差异。AI模型可以模仿物体如何移动，但很难完美模仿物体移动的“节奏变化”。

基于此，D3方法（差异之差异检测）应运而生。它通过计算“二阶中心差分”（Second-order Central Difference）来捕捉这种“加速度”特征，并以此作为区分真假视频的关键依据。整个过程完全无需训练，这使其具有极强的泛化能力和计算效率。

D3的检测框架如下图所示，它依次提取视频的零阶、一阶和二阶特征，最终通过分析二阶特征的分布来进行判别。

实验与结果分析

研究者在Gen-Video、VideoPhy、EvalCrafter、VidProM四大开源数据集（共40个子集）上对D3进行了全面验证。

1. 卓越的检测性能

实验结果表明，D3的性能全面超越了现有的基于训练的SOTA方法。例如，在GenVideo数据集上，D3的平均精度（mAP）比之前的最佳方法绝对提升了10.39%。在EvalCrafter等更具挑战性的数据集上，D3同样表现出色。

2. 高效的计算速度

作为一种无需训练的方法，D3在效率上具有巨大优势。实验显示，其处理速度远超其他需要复杂预处理或训练的视频检测方法。

3. 强大的鲁棒性

在面对视频压缩、噪声添加等常见的后处理操作时，D3依然能保持稳健的检测性能，显示出其在真实世界应用中的强大潜力。

基线和D3对Genvideo后处理操作的检测结果（mAP）

消融实验也清晰地证明，二阶特征是D3成功的关键，其判别能力远强于一阶或零阶特征。

论文贡献与价值

D3研究的核心贡献在于：

理论创新：首次将牛顿力学下的二阶动力学分析引入AI生成视频检测，为该领域提供了全新的理论视角。

方法创新：提出了一种无需训练、高效、鲁棒的检测方法D3，有效弥补了现有方法在时序伪影分析上的短板。

深刻洞察：揭示了真实视频与AI生成视频在二阶时序特征分布上的根本性差异。

开源贡献：代码将开源，为社区提供一个强大、易用的新工具，助力遏制虚假视频的传播。

总而言之，D3不仅是一个性能优异的检测器，更重要的是，它为我们理解和对抗AI生成内容提供了一个源于物理世界的、具有深刻洞察力的理论框架。

了解最新 AI 进展，欢迎关注公众号
投稿寻求报道请发邮件：amos@52cv.net

跳转微信打开

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI视频检测 D3 二阶动力学无需训练

相关文章

AI画连环画角色更一致了！人物之间的复杂互动也能处理｜中山大学&联想团队出品

单卡4090也能高质量视频编辑！西湖AGI Lab无训练框架FlowDirector来了

单卡4090也能高质量视频编辑！西湖AGI Lab无训练框架FlowDirector来了

EasyCache：无需训练的视频扩散模型推理加速——极简高效的视频生成提速方案