机器之心 4小时前
千支队伍争锋!首届「启智杯」算法大赛圆满落幕,助推AI应用落地
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

“启智杯”算法创新应用挑战赛近日落下帷幕,吸引了1022支队伍参赛。赛事聚焦卫星遥感图像分割、无人机目标检测及多模态大模型对抗三大前沿领域,旨在推动AI技术从理论走向规模化应用。比赛过程中,各参赛队伍围绕模型优化、工程实现和实际落地能力进行了激烈角逐,Transformer架构在多项任务中展现了关键作用。最终,华南理工大学、陕西师范大学/西北农林科技大学联合团队以及中山大学的队伍分别斩获各项赛道冠军,为AI技术的产业化应用提供了宝贵启示。

🚀 赛事概况与目标:启元实验室主办的“启智杯”算法创新应用挑战赛,旨在推动人工智能算法从理论创新走向规模化应用,吸引了1022支队伍参与,涵盖高校、科研院所及科技企业,最终华南理工大学、陕西师范大学/西北农林科技大学联合团队、中山大学的队伍分别获得三大赛道冠军。

🛰️ 卫星遥感图像分割赛道:华南理工大学团队基于Co-DETR模型,通过引入辅助检测与分割头进行多任务联合优化,并结合SAM大模型进行伪监督学习,有效提升了模型对复杂遥感图像中目标的分割精度和泛化能力,尤其在应对未知类别和细节捕捉方面表现突出。

🚁 无人机对地目标检测赛道:陕西师范大学与西北农林科技大学联合团队,从YOLOv11转向Co-DETR模型,利用Transformer架构捕捉全局信息,并结合RFLA标签分配和ATSS采样方法优化小目标检测。同时,运用梯度检查点技术降低显存占用,成功在嵌入式平台实现了高精度和高效率的目标检测。

📊 多模态大模型对抗赛道:中山大学团队以Qwen2.5-VL-7B-Instruct为基础,通过构建遥感专业数据集、采用课程学习式多任务微调策略以及引入自适应图像增强预处理,有效提升了模型在遥感场景下的准确性、鲁棒性和计算效率,应对了模糊、噪声等干扰。

💡 赛事意义与影响:本次“启智杯”不仅是算法能力的竞技,更是AI技术与实际应用融合的尝试,强调了模型在复杂环境下的适应性和工程可行性。赛事促进了产学研联动,为AI新生代人才提供了宝贵的实战训练,推动了AI生态发展,并为未来AI落地探索了新路径。

原创 关注AI的 2025-08-14 12:55 北京

千支队伍硬核挑战「落地」。

机器之心报道

编辑:Sia

作为新一轮科技革命和产业变革的重要驱动力量,人工智能正从技术探索迈向规模化应用,成为中国经济社会高质量发展的新引擎。为推动智能算法从理论创新迈向实际落地,启元实验室于 2025 年 月 20 日正式启动「启智杯」算法创新应用挑战赛。经过两个多月的激烈角逐,大赛于 7 月 25 日圆满落幕。


赛事共吸引来自高校、科研院所及科技企业的 1022 支队伍参赛。最终,来自华南理工大学、陕西师范大学、西北农林科技大学及中山大学的三支代表队凭借扎实的建模与创新能力分别斩获三大赛道的冠军。

本届赛事中,各参赛队伍在建模思路、算法选型与工程实现等方面展开积极探索,部分具有代表性的技术路线在实战中获得有效验证,为相关行业应用提供了有价值的启示与参考。

 


千支队伍硬核挑战落地, 

Transformer 架构展现关键作用

本届「启智杯」设立了卫星遥感图像鲁棒实例分割面向嵌入式平台的无人机对地目标检测」、面向多模态大模型的对抗三大赛道,选手们需围绕鲁棒感知、轻量部署与对抗防御等核心能力展开比拼。


本届大赛的三大赛题方向

在实际应用中,遥感图像往往存在图像分辨率与尺寸差异大、目标易被遮挡或呈现模糊特征等问题,不同成像条件(如传感器类型、拍摄环境)造成的域差异,也进一步加大了解析难度,尤其是对小目标的精准识别。「卫星遥感图像鲁棒实例分割」赛题聚焦高分辨率遥感图像中复杂目标的精准分割任务,要求参赛团队在实现像素级高精度分割的同时,有效应对视角畸变、遮挡干扰和分布外样本(OOD)等因素给模型带来的多重挑战。

为系统评估模型的实际适用能力,赛题采用分阶段设计:初赛主要考察分割精度,复赛则引入「已知 + 未知类别」的混合测试集,在更加贴近真实环境的设定中,验证模型的泛化能力与零样本分割能力。

比赛过程中,选手们在模型设计、训练与调优方面进行了大量尝试。在复赛测试集更具挑战性的背景下,参赛队伍仍然积极迭代优化方案。最终,华南理工大学的团队「AlexZou14凭借改进的一套目标实例分割方案夺冠。


「卫星遥感图像鲁棒实例分割」赛道前三名获奖队伍

 

该方案在 Co-DETR 模型基础上进行了针对性优化。Co-DETR  DETR 系列模型的一种改进版本,具备更高效的结构与训练机制。其核心特点在于在训练阶段引入多个并行的辅助检测头,与主检测头进行协同训练。这些辅助头采用不同的标签分配策略,对共享的 Transformer 编码器提供多样化的监督信号,从而提升了编码器的特征学习能力。


比赛过程中,冠军团队引入了多种辅助检测与分割头,包括 ATSS HeadRPN HeadSimpleRefineMask  MaskIoU Head 。这些模块通过多任务并行训练,为编码器引入更多监督信号,有效提升模型对细节的捕捉能力和对小目标的检测表现。


复赛时,面对未知类别,团队通过扩展训练数据的类别覆盖范围,提升了模型的类别泛化能力。同时,引入大模型 SAM( Segment Anything Model ),自动为图像中潜在目标生成分割掩码,并将其作为伪标签,用于伪监督训练。这一策略在无需人工标注的条件下,有效增强了模型对新类别目标的识别能力。

整体来看,该方案之所以能够在激烈竞争中脱颖而出,关键在于巧妙融合了 Transformer 架构、多任务联合优化、大模型的分割先验与伪监督学习机制,在精度提升与鲁棒性增强之间取得了良好平衡。

「面向嵌入式平台的无人机对地目标检测」被认为是本届大赛最具人气的赛题,初赛阶段提交量位居三大赛道之首,也体现出任务本身的广泛适用性与技术吸引力。

该任务不仅要求算法具备高识别精度,还须在昇腾 310B 等算力受限、功耗受控的端侧平台上高效运行。参赛队伍需在「看得准」与「跑得快」之间取得极致平衡。


赛事设置层层递进的评估体系:初赛阶段聚焦检测精度,复赛则同时引入推理效率和部署稳定性考核,通过实地测评模拟无人机任务场景,全面检验方案的落地能力与工程鲁棒性。


最终,陕西师范大学与西北农林科技大学联合组成的团队「断雁无凭」凭借模型在硬件受限情况下的高精度表现,获得冠军。


「面向嵌入式平台的无人机对地目标检测」前三名获奖队伍

 

在初赛阶段,团队基于 YOLOv11 搭建了目标检测模型,并通过多尺度训练与测试时增强( Test-Time Augmentation, TTA )策略提升模型鲁棒性,取得了良好效果。


进入复赛后,面对更加复杂的背景环境与密集的小目标场景,YOLOv11 在全局建模能力与细粒度目标识别方面暴露出一定局限。为此,团队果断转向基于Transformer 架构的 Co-DETR 模型。相比传统 CNN 检测器,Co-DETR 能更有效地捕捉图像中的全局上下文信息,更适应复杂场景下的小目标检测需求。

在此基础上,团队进一步引入了 RFLA( Region-based Focal Loss Assignment )标签分配策略,以优化小目标的正负样本匹配精度,缓解了传统匹配机制在处理密集小目标时的不足。同时,采用专为小目标设计的 ATSS( Adaptive Training Sample Selection )采样方法,引导模型在训练阶段更关注小尺寸目标区域,从而显著提升检测性能。


考虑到 Transformer 模型对显存资源的高度依赖,团队还应用了梯度检查点( Gradient Checkpointing )技术,显著降低训练过程中的显存占用,使得在有限硬件条件下依然能够稳定训练大规模模型。


多项优化策略协同作用下,模型在复赛的复杂场景中表现出优异的检测精度与稳定性,最终助力团队在激烈竞争中脱颖而出。


多模态大模型的迅猛发展,正在为复杂决策场景打开新可能。然而,随着其应用边界不断拓展,模型的鲁棒性与可靠性问题正成为制约 AI 安全性与可持续应用的瓶颈。「面向多模态大模型的对抗挑战赛」围绕视觉问答、图像描述和变化检测三大典型任务,从准确性、抗干扰性与抗攻击性三大维度,全面考察模型在可见光遥感图像场景下的鲁棒性与可靠性。

为了贴近真实部署,赛事设置了 20GB 模型体积上限与单卡推理时间限制,进一步提升对算法效率与系统优化的挑战。如何在有限资源下权衡精度与速度,成为每支队伍必须面对的关键命题。

复赛阶段,该赛道的转化率约 68%,显著高于其他赛道,充分反映出参赛团队在多模态理解与模型调优方面的高度成熟。最终,中山大学的团队「爱吃猪脚饭」凭借高鲁棒性、高可靠性模型方案,成功登顶。


「多模态对抗鲁棒性」赛题前三名获奖队伍

 

为了在多重限制条件下兼顾性能和效率,突破从通用视觉到遥感认知这道巨大鸿沟,并在准确性与鲁棒性之间找到最佳平衡,该团队以 Qwen2.5-VL-7B-Instruct 作为基础模型,围绕三大核心策略展开系统性优化。


在数据构建方面,团队自建了面向遥感任务的专业数据集,为模型训练提供了扎实的数据支持。


在训练方法上,设计采用了课程学习式多任务微调策略。该策略借鉴人类循序渐进的学习过程,将任务按难度与语义层级进行阶段性训练——模型先掌握基础识别能力,再逐步过渡到更复杂的理解与推理任务。这种渐进式学习方式显著降低了训练负担,同时有效提升了模型在遥感场景下的适应性与表现。


此外,针对遥感图像中常见的模糊、噪声、光照变化和遮挡问题,团队引入了自适应图像增强预处理机制。该机制可根据图像质量特征动态调整处理策略,如增强对比度、去噪、锐化等,精准匹配图像劣化类型,从源头提升图像可判读性,增强模型的鲁棒性。


在三项策略的协同作用下,该方案在准确率、鲁棒性与计算效率之间实现了有效统筹,展现出在专业视觉理解任务中的强大潜力。

以赛为媒,探索 AI 落地新路径

 

本届「启智杯」不仅是一场算法能力的高水平竞技,更是一次将前沿算法与理论创新融合实际应用、推动智能算法产业落地的重要尝试。

大赛聚焦视觉智能领域的核心技术挑战,设置三大赛道,赛题设计紧贴真实应用场景,力求全面还原现实挑战的复杂多变。相比纯粹的算法挑战,本届赛事除了注重算法精度,还强调模型在动态复杂环境中的适应能力和工程可行性,为参赛团队提供了一个将算法技术进行实战转化的真实语境。

例如,高分辨率遥感图像中复杂目标的精准分割任务,广泛应用于地理信息提取、环境监测、城市规划等关键场景。比赛过程中,选手需应对遮挡、模糊与跨域变化等多重干扰,不仅考验模型的精度,更考验其在非理想条件下的适应能力。冠军团队尝试多检测头协同训练、引入大模型伪监督与类别扩展策略等方法,不断探索可部署的工程化路径。最终,获胜方案展现出面向核心视觉应用的强大落地潜力

在最具人气的「面向嵌入式平台的无人机对地目标检测」比赛中,选手不仅要实现高精度识别,还需在算力受限的端侧平台上保障推理效率与部署稳定性。这一设定引导参赛者深入探索模型压缩、显存调度等工程策略。「断雁无凭」团队的技术方案在性能与资源约束之间取得了良好平衡,为边缘部署提供了可参考的路径。

不仅如此,参赛团队还在多模态大模型的鲁棒性与可控性等前沿方向展开积极探索。面对遥感图像中复杂且不可预测的干扰环境,冠军团队引入「课程式多任务微调」策略,结合自适应预处理机制,使模型在不确定性场景中依然保持稳健的感知与理解能力,验证了新一代 AI 系统的落地潜力。

 

以赛促学,助力 AI 新生代成长

作为一场聚焦产业落地的赛事,「启智杯」也探索出了一条 AI 人才培养的新路径。在高强度的赛事环境中完成复杂任务,选手们不仅要掌握前沿算法,还需理解业务和数据,构建兼具精度与可落地的技术方案。通过端到端的实战训练,他们不仅实现了从理论到工程的闭环能力提升,显著拓展了认知边界,对科研成果转化与工程落地的整体理解与掌控能力也得到大幅增强。

这种复合型能力的锤炼,对于即将步入科研或产业前沿的青年人才而言,具有宝贵价值。赛后,不少参赛者会投身高校、企业及科研机构,继续深耕在 AI 前沿,为行业注入源源不断的新动力。

本届「启智杯」也有力推动了 AI 生态的发展。比赛过程中,企业得以前瞻性把握前沿研究动向,科研团队则在真实任务中获得应用反馈,有效促进了产学研之间联动。赛事的广泛传播,也提升了公众对人工智能及其应用价值的认知。

展望未来,「启智杯」将继续面向真实世界挑战,拓展更具技术深度与产业价值的命题方向,进一步打通产学研用联动链条,构建一个聚焦实战能力、推动生态协同、加速技术落地的人工智能创新平台。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

启智杯 人工智能 算法挑战赛 Transformer AI落地
相关文章