我爱计算机视觉 4小时前
西安交大、OPPO等提出 D3,用二阶物理特征“揪出”Sora类AI视频,无需训练!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

随着AI视频生成技术的进步,检测虚假视频变得愈发重要。西安交通大学、OPPO和香港城市大学的研究者提出了一种名为D3的新型检测方法,该方法基于牛顿力学中的二阶动力学分析,通过分析视频的“加速度”特征,无需训练即可高效且精准地识别AI生成视频的细微破绽。实验结果表明,D3在多个数据集上取得了SOTA性能,展现出强大的检测能力和泛化性。

😟D3方法的核心在于分析视频的二阶时序特征,即“加速度”,真实视频与AI生成视频在这一特征上存在显著差异,AI难以完美模仿物体移动的“节奏变化”。

🔄D3通过计算“二阶中心差分”来捕捉视频的“加速度”特征,从而区分真假视频,整个过程无需训练,具有极强的泛化能力和计算效率。

⚡实验证明,D3在多个数据集上全面超越了现有的基于训练的SOTA方法,例如在GenVideo数据集上,其平均精度(mAP)比之前的最佳方法绝对提升了10.39%。

CV君 2025-08-04 20:06 江苏

随着Sora等视频生成技术的飞速发展,人类正进入一个真假难辨的时代。高保真AI视频的泛滥引发了公众对虚假信息传播的深切担忧。然而,现有的检测方法往往难以捕捉到AI视频在时间维度上的微小破绽。为了应对这一挑战,来自西安交通大学、OPPO和香港城市大学的研究者们,从牛顿力学中汲取灵感,提出了一种全新的、无需训练的AI生成视频检测方法——D3 (Detection by Difference of Differences)。该方法通过分析视频的“加速度”特征,高效且精准地识别AI的“蛛丝马迹”,在多个数据集上取得了SOTA性能。

    作者: Chende Zheng, Ruiqi suo, Chenhao Lin, Zhengyu Zhao, Le Yang, Shuai Liu, Minghui Yang, Cong Wang, Chao Shen

    机构: 西安交通大学; OPPO; 香港城市大学

    论文标题:D3: Training-Free AI-Generated Video Detection Using Second-Order Features

    论文地址: https://arxiv.org/pdf/2508.00701v1

    项目地址: https://github.com/Zig-HS/D3

研究背景

当前的AI视频检测器,大多关注单帧画面的空间伪影,或是相邻帧之间的简单变化,这在面对越来越逼真的生成模型时显得力不从心。它们忽略了一个关键信息:时序伪影 (temporal artifacts) 。真实世界的物体运动遵循物理规律,而AI生成的视频在模拟这种动态连续性时,往往会暴露出不自然的“痕迹”。现有方法对这种深层时序特征的探索还远远不够。

D3:基于二阶动力学的检测新思路

研究者创造性地将牛顿力学引入该问题,建立了一个二阶动力学分析的理论框架。简单来说:

    零阶特征:视频的原始像素帧。

    一阶时序特征:像素点的位移,即光流(Optical Flow),可以理解为物体的“速度”。

    二阶时序特征:光流的变化,可以理解为物体的“加速度”。

D3方法的核心洞察是:真实视频和AI生成视频在一阶特征(速度)上可能相似,但在二阶特征(加速度)的分布上存在根本性差异。AI模型可以模仿物体如何移动,但很难完美模仿物体移动的“节奏变化”。

基于此,D3方法(差异之差异检测)应运而生。它通过计算“二阶中心差分”(Second-order Central Difference)来捕捉这种“加速度”特征,并以此作为区分真假视频的关键依据。整个过程完全无需训练,这使其具有极强的泛化能力和计算效率。

D3的检测框架如下图所示,它依次提取视频的零阶、一阶和二阶特征,最终通过分析二阶特征的分布来进行判别。

实验与结果分析

研究者在Gen-Video、VideoPhy、EvalCrafter、VidProM四大开源数据集(共40个子集)上对D3进行了全面验证。

1. 卓越的检测性能

实验结果表明,D3的性能全面超越了现有的基于训练的SOTA方法。例如,在GenVideo数据集上,D3的平均精度(mAP)比之前的最佳方法绝对提升了10.39%。在EvalCrafter等更具挑战性的数据集上,D3同样表现出色。

2. 高效的计算速度

作为一种无需训练的方法,D3在效率上具有巨大优势。实验显示,其处理速度远超其他需要复杂预处理或训练的视频检测方法。

3. 强大的鲁棒性

在面对视频压缩、噪声添加等常见的后处理操作时,D3依然能保持稳健的检测性能,显示出其在真实世界应用中的强大潜力。

基线和D3对Genvideo后处理操作的检测结果(mAP)

消融实验也清晰地证明,二阶特征是D3成功的关键,其判别能力远强于一阶或零阶特征。

论文贡献与价值

D3研究的核心贡献在于:

    理论创新:首次将牛顿力学下的二阶动力学分析引入AI生成视频检测,为该领域提供了全新的理论视角。

    方法创新:提出了一种无需训练、高效、鲁棒的检测方法D3,有效弥补了现有方法在时序伪影分析上的短板。

    深刻洞察:揭示了真实视频与AI生成视频在二阶时序特征分布上的根本性差异。

    开源贡献:代码将开源,为社区提供一个强大、易用的新工具,助力遏制虚假视频的传播。

总而言之,D3不仅是一个性能优异的检测器,更重要的是,它为我们理解和对抗AI生成内容提供了一个源于物理世界的、具有深刻洞察力的理论框架。

了解最新 AI 进展,欢迎关注公众号
投稿寻求报道请发邮件:amos@52cv.net

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI视频检测 D3 二阶动力学 无需训练
相关文章