原创 让你更懂AI的 2025-07-15 23:55 北京
安防摄像头遍布大街小巷,但当有人突然摔倒、遭遇袭击,或在公共场所做出危险举动时,现有系统却常常“视而不见”?
问题核心在于:当前基于文本的行人检索技术,像个只会认“走路”和“站立”的“脸盲”——它擅长找特定的人,却对异常行为本身束手无策。
想象一下:老人不慎跌倒、孩童走失惊慌奔跑、突发冲突有人被推搡··· 这些关键瞬间的识别与报警,正是城市安防的“最后一公里”痛点。现有技术对此力不从心,急需能理解行为语义的智能安防。
西安交通大学、合肥工业大学、澳门大学的研究团队,在 ICCV 2025 上提出从数据收集到跨模态建模全流程方案。论文、代码、数据集已开源!立即探索未来安防新范式:
论文标题:
Beyond Walking: A Large-Scale Image-Text Benchmark for Text-based Person Anomaly Search
论文链接:
https://arxiv.org/abs/2411.17776
数据集 & 代码:
https://github.com/Shuyu-XJTU/CMP
不止找人,更要识“事”!输入“一名穿红衣的男子突然摔倒”或“穿校服的学生被自行车撞倒”,系统能精准定位安防画面中符合该异常描述的行人及行为。
彻底突破传统检索仅关注“谁在走”的局限,直击“发生了什么异常”的核心需求。
百万级图文基准:「行人异常行为数据集(PAB)」发布!
规模空前:包含超 101 万张高质量合成训练图像 + 1978 张真实世界测试图像,构建百万级图文对!
覆盖广泛:囊括跑步、表演、踢足球等常规动作,更重点覆盖躺卧、被撞击、摔倒等关键异常行为。
真实可靠:测试集源于真实世界视频,经过关键点检测、图像相似度过滤、专家人工核验三重严格把关。
低成本高效:创新结合 AI 生成图像(扩散模型)+ 大模型自动描述(Qwen2-VL)+ 专家修正,解决异常数据稀缺与标注成本高昂难题。
「火眼金睛」框架:跨模态姿态感知(CMP)
看懂“姿势”辨异常:创新融合人体姿态信息,让 AI 理解动作语义。
“找茬”训练法:采用基于身份的困难负样本挖掘(IHNM)策略,专治“长得像但行为不同”的混淆情况。
效果惊人:在真实测试集上达到 84.93% 的 Recall@1 准确率,大幅领先现有方案!
实验结果
定量结果。表 2 展示了 CMP 与一系列可能的解决方案的实验结果比较。
OOD 场景。表 3 展示了用于评估 CMP 模型的可扩展性,进行的 Out-of-Distribution(OOD)测试结果。
行为检索 v.s. 身份检索。如表 4 所示,传统身份检索方法将具有相同 ID 的所有图像视为正确匹配,异常检索任务需要精确定位特定行为。
定性结果。
为什么这很重要?
城市安全升级:为智慧城市、公共安防系统装上“行为理解引擎”,实现跌倒检测、突发冲突预警、走失人员异常行为识别等。
效率倍增:告别人工盯屏,通过自然语言描述快速检索关键事件录像片段。
技术拐点:解决了异常行为数据稀缺的核心瓶颈,为 AI 理解复杂场景行为铺平道路。
当城市安防系统真正学会“察言观色”,看懂行人的“一举一动”,百万图文对构建的“异常图鉴”正在让这一未来加速到来。关注 ICCV 2025,关注 AI 如何为城市安全筑牢“智能防线”!
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·