掘金 人工智能 13小时前
避开算力坑!无人机桥梁检测场景下YOLO模型选型指南
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文系统性地在COCO-Bridge-2021+桥梁细节数据集上对YOLO系列(v5, v6, v7, v8)的23个模型进行了基准测试,旨在为无人机桥梁检测场景寻找计算能力受限与高精度需求间的最佳平衡点。研究发现,在边缘计算环境下,YOLOv8n、YOLOv7tiny、YOLOv6m和YOLOv6m6在准确率和推理速度之间取得了最佳权衡,其中YOLOv7tiny和YOLOv8n能够达到实时处理速率。这项研究为桥梁细节检测这一新兴领域奠定了基础,并指出了未来模型优化和数据增强的潜力。

🎯 **模型选型框架与基准测试**:本文提出了一种针对无人机桥梁检测场景的深度学习模型选型框架,通过在COCO-Bridge-2021+数据集上对YOLOv5、v6、v7、v8共23个模型进行系统性基准测试,旨在识别在严格受限的无人机边缘算力与高精度检测需求之间的最佳平衡点,为实际应用提供依据。

💡 **边缘AI在桥梁检测中的关键性**:鉴于桥梁作为关键基础设施的敏感性,对其进行常规检查至关重要。将边缘AI与视觉检查相结合的自动桥梁检查方法,能快速准确地评估桥梁状况,减少人力投入,确保交通安全。然而,将高精度但计算密集型的CV模型集成到算力有限的无人机中是一项挑战。

⚖️ **YOLO变体性能权衡分析**:研究重点对比了YOLOv5、v6、v7、v8在准确率(mAP@50和mAP@50:95)和推理时间上的表现。实验结果显示,YOLOv6m6在准确率上表现最佳,而YOLOv8n的推理速度最快。在进一步的边缘设备(Jetson Nano)部署测试中,YOLOv7tiny和YOLOv8n实现了实时处理速率。

🚀 **最佳模型推荐与未来展望**:经过综合评估,YOLOv8n、YOLOv7tiny、YOLOv6m和YOLOv6m6被认为是准确率和推理速度的最佳组合模型。研究为桥梁细节检测这一新领域开辟了道路,并提出未来可进一步探索新架构、模型优化、领域知识应用以及增加数据量以提升模型性能和泛化能力。

导读

本文提出了一种面向无人机(UAV)桥梁检测场景的深度学习模型选型框架,核心在于对YOLO系列最新变体(v5, v6, v7, v8)共23个模型在专用桥梁细节数据集(COCO-Bridge-2021+)上进行了系统性的基准测试,实现了在严格受限的边缘算力(如无人机)与高精度检测需求之间的最佳平衡点识别。

尽管计算机视觉模型与搭载摄像头的无人机相结合是自动化视觉检测的未来趋势,但仍需探讨具体问题。尽管近年来无人机技术发展迅速,但其计算能力和存储空间仍存在局限性。同时,在视觉检测中,需要处理的图像数量可能急剧增加,且数据采集常需重复进行,因为外部因素(如风引起的画面抖动或光线不足导致图像过暗)会显著影响数据质量。图像大小也是一个重大问题,因为处理、存储或传输如此大量数据既耗时又占用大量存储空间。在传统的集中式计算机视觉-无人机方法中,这些问题并未得到妥善解决,因为计算机视觉模型被部署在本地计算机或云端,而无人机还需承担额外任务。

我们发现,在视觉检测领域,特别是桥梁检测领域,发掘边缘人工智能(Edge AI)的潜力是一项至关重要的任务。主要原因是桥梁是敏感的基础设施交通组件,因此必须进行常规检查。有必要开发一种结合边缘人工智能和视觉检查的自动桥梁检查方法,以快速准确地评估桥梁状况,同时减少人力投入。这种方法将有助于桥梁维护过程的顺利进行,从而确保交通参与者的安全以及社会连接性。然而,将计算机视觉(CV)模型集成到无人机中是一项挑战。这是因为一些现代CV模型虽然能实现高精度,但需要巨大的计算和存储能力,而无人机缺乏这些能力。另一方面,一些较旧的CV模型适合无人机的计算和存储能力,但其精度不足。通过这项工作,我们旨在为无人机桥梁检测找到合适的CV模型,并为未来研究提供基准。因此,本文聚焦于视觉识别模型实验,通过准确率和推理时间在桥梁检测数据集COCO-Bridge 2021+上对比其性能。具体而言,我们对四种YOLO变体进行基准测试,包括YOLOv5、YOLOv6、YOLOv7和YOLOv8。实验结果表明,在这些YOLO变体总共23个模型中,YOLOv8n、YOLOv7tiny、YOLOv6m和YOLOv6m6在准确率与推理时间之间实现了最佳平衡。

论文标题:

Deep Learning Models for UAV-Assisted Bridge Inspection: A YOLO Benchmark Analysis

论文链接:

arxiv.org/pdf/2411.04…

相关研究

在桥梁检测中,视觉检测是一个关键要素。值得注意的是,美国机械工程师协会(American Mechanical Engineers)于2018年进行的一项研究提出了一种基于深度学习的方法,用于桥梁的全面维护和检测。该方法基于一个包含3,832张图像的数据集,这些图像来自互联网,涵盖了拱桥、悬索桥和斜拉桥等类型。该方法采用经过微调的AlexNet模型对桥梁类型进行分类,验证集和测试集的准确率分别达到96%和96.6%。此外,基于ZF-net的Faster R-CNN模型被用于识别和定位桥梁塔架及桥面,在验证集上获得90.45%的平均交集精度(mAP)。通过微调后的GoogLeNet模型实现了桥梁混凝土裂缝的检测,验证集和测试集的准确率分别达到99.39%和99.36%。2017年,另一项值得注意的研究提出了一种基于区域的深度学习策略,用于自主结构视觉检测。研究人员使用Faster R-CNN模型对包含2,366张标注图像的数据集进行实时检测,识别包括螺栓腐蚀、混凝土裂缝、钢材腐蚀及钢材剥离等不同类型损伤。结果显示各类别均达到令人印象深刻的平均精度(AP)评分,整体平均AP达87.8%。提出了一种用于混凝土桥梁表面损伤检测的单阶段检测器。该方法使用的图像数据集包含了香港高速公路混凝土桥梁的2,206张检测照片。通过一种新型迁移学习技术对原始YOLOv3模型进行了增强,显著提升了检测准确率,在IoU阈值为0.5和0.75时,准确率分别达到80%和47%。利用深度学习和纹理分析,ASR(抽象碱-硅反应)裂缝诊断是桥梁检测领域的一项新进展。本研究为该调查生成了一个包含35张来自不同昆士兰桥梁的ASR缺陷照片的数据集。通过整合纹理形态学与InceptionV3模型,实现了94.07%的验证准确率。这些结果证明了机器学习在桥梁检测中的可行性,尤其是损伤检测领域。

综上所述,本研究的全面回顾强调了机器学习和深度学习方法在推动各行业视觉检测流程中的重要作用。这些前沿技术不仅在早期识别潜在问题方面表现出色,还显著提升了安全、生产力和整体基础设施质量。

模型与评估方法

本节是本研究的核心部分,概述了所采用的模型及评估方法。

目前,物体检测器可分为两类:单阶段检测器和双阶段检测器。与单阶段检测器相比,双阶段检测器通常能实现更高的准确率(包括识别准确率和定位准确率),但推理速度较慢。我们的研究完全聚焦于单阶段检测器,因其适用于实时物体检测。本研究测试的模型包括四种最新模型:YOLOv5、YOLOv6、YOLOv7和YOLOv8。 除了它们是物体检测领域的最先进模型外,所有这些模型在不同场景下的表现都存在争议,结果截然相反。因此,这些模型在桥梁视觉检测中  的效率值得怀疑,需要进行深入研究。

评估数据集本文使用的评估数据集为Eric Bianchi和Matt Hebdon编写的COCO-Bridge 2021+数据集。弗吉尼亚州交通部(VDOT)提供了真实的桥梁结构检测记录,这些记录构成了用于边界框检测的数据集来源。具体而言,该数据集包含1470张标注的桥梁结构照片,其中约10%来自测试集(136张图像),90%来自训练集(1321张图像)。数据集包含四类桥梁结构细节信息:平面外加强筋、盖板端部、加劲板连接及支座。各类别的样本照片如图1所示。

实现工具所有实验均在配备x86 64位元CPU架構、CUDNN版本9.2.1及两个CUDA裝置的相同电脑上运行。所使用的GPU为NVIDIA GeForce RTX 3060 Ti,记忆体容量约为8.36 GB。使用的软件版本包括Torch版本2.0.1+cu117、Torchvision版本0.15.2+cu117以及Python版本3.9.18。评估指标本节介绍评估模型在检测桥梁细节方面性能的目的。需要特别指出的是,准确的评估对于确保模型在实际应用中有效运行至关重要。

IoU = 重叠面积 / 并集面积

实验结果

在本节中,我们描述了在COCO-bridge-2021+数据集上的实验结果。表1展示了YOLO变体模型的输入尺寸、参数数量及GFLOPs值,表明这些模型在输入尺寸和复杂度方面具有广泛的适用范围。具体而言,模型支持640x640像素或1280x1280像素的输入尺寸,参数数量大致在176万至1.529亿之间,GFLOPs值则在4.1至672.5之间。640x640像素的输入尺寸足以让模型检测图像中的大多数物体,但更大的1280x1280像素输入尺寸可能在处理模糊图像或远距离物体时更有效,但会增加模型复杂度。

如表2所示,mAP@50:95和mAP@50分别在0.401至0.475和0.790至0.872之间波动,而推理时间则在5.3毫秒至57.46毫秒之间。基于mAP@50和****mAP@50:95 YOLOv6m6获得了最高的准确率,分别为0.8720.475 ,而YOLOv8n观察到最快的推理时间,为0.803。

如图2所示,该图展示了mAP@50与推理时间之间的权衡曲线,从中选出了四个最佳模型,包括:YOLOv8n、YOLOv7tiny、YOLOv6m和YOLOv6m6。

随后,我们将这四个最佳模型部署在边缘设备上,具体为Jet-son Nano,该设备可安装于无人机进行自动视觉检测。图3显示,YOLOv7tinyYOLOv8n能实现实时处理速率,分别为36.308和58.272帧/秒。同时, YOLOv6m6YOLOv6m****虽具有更高的mAP,但处理速率仅为1.246和5.512帧/秒。

如果你对AI项目有长期规划,或正处于多项目并行的开发周期中,Coovally全新推出的「RaaS服务年卡」 以交付结果为导向的企业级AI技术服务解决方案。 将为你撬动百万级项目交付能力。

或许你正面临这些挑战:

结论

本研究在COCO-Bridge-2021+数据集上对YOLO家族的最新模型进行了基准测试,部分帮助检查员选择最适合细节检测问题的模型。结果表明,YOLOv5n、YOLOv7tiny、YOLOv6m和YOLOv6m6是准确率和推理速度最高的最佳模型。我们的工作为一个新领域“桥梁细节检测”铺平了道路。我们的工作仍有很大的改进和发展的潜力。目前基准测试的模型数量仍然有限,且模型的架构尚未针对该问题进行优化。未来研究可探索各种新架构的潜力以及对已知架构的修改。通过利用领域知识进行更好的预处理和特征工程,也可实现性能提升。更多数据可提升实际应用性能,因其有助于改善模型泛化能力并减少过拟合。更精准的桥梁细节检测有助于对环境和缺陷进行上下文分析,从而提升桥梁的视觉检测效果。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

无人机桥梁检测 YOLOv8 深度学习 边缘AI 目标检测
相关文章