组委会 2025-06-14 13:36 江苏
关注公众号,发现CV技术之美
ICCV 2025 MARS2 Workshop Multimodal Reasoning Competition
迈向系统2思维:探索视觉与语言的深度推理能力
🏆 比赛背景
在大模型时代,多模态推理与“慢思考”(Slow Thinking)能力成为人工智能突破传统任务范式的关键。ICCV 2025 MARS2研讨会联合全球顶尖机构,推出三大核心赛道,聚焦真实场景下的复杂推理任务,推动AI系统在动态环境中的鲁棒性与泛化性提升。
主办单位:武汉理工大学、清华大学、中国科学院自动化研究所
会议官网:https://lens4mllms.github.io/mars2-workshop-iccv2025
🎯 赛道设置
赛道一:VG-RS(Visual Grounding in Real-world Scenarios)
任务概述
评估模型在复杂多模态场景中的场景感知、目标定位与空间推理能力。
核心挑战
在真实世界场景中精准定位物体并理解其空间关系
应对动态环境中的遮挡、光照变化等干扰因素
数据集
定制数据集包含 22K+ 目标-标注框对
评估指标
接地准确率(ACC@0.5):预测框与真实框IoU > 0.5视为正确
跨场景泛化能力(多环境配置下的性能稳定性)
赛道二:VQA-SA(Visual Question Answering with Spatial Awareness)
任务概述
基于物理内容的指令驱动问答,测试模型的空间推理、常识推理与反事实推断能力。
核心挑战
多步推理:结合视觉信息与指令完成多阶段逻辑推导
抽象理解:从具体场景中提取隐含的物理规则
数据集
提供 6K+ 图片-问答对,覆盖空间关系、物体属性与动态交互
评估指标
答案准确性:基于大语言模型的文本相似度匹配
逻辑一致性:反事实场景下的推理鲁棒性
赛道三:VR-Ads(Visual Reasoning in Creative Advertisement Videos)
任务概述
针对创意广告视频的隐式非物理概念理解,挑战模型的认知推理与抽象表征能力。
核心挑战
解析广告中的隐喻、情感与品牌意图
跨模态关联(视觉-文本-音频)的协同推理
数据集与工具
数据集包含 1.5K+ 广告视频 及标注
基准测试参考
https://xiaotiank.github.io/AdsQA https://github.com/XiaoTiank/AdsQA
评估指标
抽象概念识别准确率
多维度推理链完整性
📢 如何参赛
报名链接:
EvalAI竞赛平台
https://eval.ai/web/challenges/challenge-page/2552/overview
获取数据集
请在创建队伍的时候将邮箱和报名的任务填入Team URL,后续我们会将数据集链接通过邮箱的方式发送。
例子:邮箱地址 +(VG-RS,VQA-SA,VR-Ads)
如果你想要参加第三个赛题,报名成功后我们会通过邮箱的方式给你发送数据的使用协议,请打印签字后将扫描件回复对应邮箱,随后我们尽快将第三个赛题的数据链接发给你。
如果参赛者以非教育邮箱地址注册参赛,请向mars2workshop@googlegroups.com发送邮件提供身份信息。严禁一个队伍注册多个账号,后台会进行检测,查实违规后,会取消相关队伍的比赛成绩。
📅 重要日期
里程碑 | 时间节点 |
---|---|
比赛启动 | 2025年06月01日 |
提交截止 | 2025年08月05日 |
颁奖 | 2025年10月20日 |
💰 奖项设置
各赛道冠军:1000美元
亚军与季军:也设置相应奖金
🌐 联系我们
邮箱:mars2workshop@googlegroups.com
更多详情请访问:https://lens4mllms.github.io/mars2-workshop-iccv2025/
迈向系统2思维,定义下一代AI推理范式!