在2024年DCASE(Detection and Classification of Acoustic Scenes and Events)全球挑战赛中,华控智加与清华大学、上海交通大学及华北电力大学组成的联队在低复杂度声学场景分类、工业设备异常声音检测两个赛道均斩获全球冠军的佳绩。
赛事概述
DCASE是声音事件领域最权威的竞赛,自2013年发起以来已举办十届。2024年DCASE挑战赛设置了10个任务,吸引了全球108支队伍参赛,共提交了328个作品,涵盖了许多知名院校及企业,包括卡内基梅隆大学、麻省理工学院、Tampere University、索尼研究院、Google AI、IBM Research等。
任务介绍
Task 1 数据高效低复杂度声学场景分类:在算力受限的条件下解决有限标注数据和设备失配下的声学场景分类问题。
Task 2 设备声音异常检测:仅使用正常声音训练模型,检测设备异常声音。
成绩斐然
Task 2:设备声音异常检测
First-Shot Unsupervised Anomalous Sound Detection for Machine Condition Monitoring
该任务共计28支队伍,提交96个系统。华控智加联队在该任务中荣获了全球冠军,提交的4套系统包揽了全球前4名的成绩。
任务目标
在不知道异常声音的条件下,仅根据正常声音辅助识别设备状态,判断是否存在异常,提高工业设备异常声音的检测准确率。
任务要求
仅用正常声音训练模型:由于设备的异常声音难以收集,因此模型仅能使用正常声音数据训练系统。
应对多变的工况条件:能够应对设备状态或环境噪音变化。
适应不同设备类型:无需对模型算法进行额外调整即可适配新设备。
有限设备数量:在只有少量设备数据时有效训练模型,并能够迁移到同类型其他设备。
设备属性不确定性:确保即使没有额外设备属性信息,模型也能正常工作。
解决方法
面对这五个高难度的任务要求,华控智加联队提出基于预训练的异常检测系统,主要方法如下:
微调基于BEATs和EAT的三种预训练模型,将通用音频知识注入异常检测系统。
使用层次聚类获得缺失的工况,采用部分缺失的工况和预测补全后的工况,从粗细两种粒度对模型进行训练。
引入低秩微调 (LoRA) 技术,提升迁移学习时的鲁棒性。
使用SMOTE算法对目标域样本进行过采样,再对源域和目标域分域检测,提升跨域的鲁棒性。
使用权重平均、模型融合两种方法,组合多个模型,进一步提升异常检测性能。
该项赛事贴近工业生产实际需求,被学术界、产业界高度重视,华控智加联队提交的系统在该赛道取得了冠军。华控智加一直致力于研发无需异常标注、多设备通用、低成本易部署的异常检测系统,持续深耕工业声纹异常检测领域,一路攻坚克难,在这个全球瞩目的声音事件领域赛事中展现了实力,并将这项人工智能技术赋能工业生产,已应用于国家电网、白鹤滩水电站、溪洛渡水电站、雅砻江流域发电公司等龙头企业的核心装备,促进了工业生产的智能化升级,提升设备运行安全性。
Task 1:数据高效低复杂度声学场景分类
Data-Efficient Low-Complexity Acoustic Scene Classification
该任务共计17支队伍,提交41个系统。华控智加联队在该任务中荣获全球冠军。
任务目标
在小规模标记数据和模型低复杂度约束下,识别并区分不同设备录制的真实场景数据。
任务要求
数据高效利用:仅使用有限的标记数据进行训练。
低复杂度系统:需开发低复杂度的分类系统,适用于计算和存储资源受限的设备。
不确定性设备:模型需有效应对不同录音设备之间的差异。
解决方法
当模型部署在端侧时,对模型的参数量及计算量本身就有严格限制,再叠加有限数据样本的考验,如何设计出更轻量的基础模型,使模型利用少量训练数据即可更准确地判断声音场景,是本次团队的技术攻坚和创新点。
团队提出的“迭代蒸馏剪枝”模型压缩方案-流程图
首先,团队基于MobileNet及此前夺冠的CP-Mobile的模型,引入了空间可分离卷积操作,有效提升了低复杂度模型的识别性能。此外,团队选取并融合了多个Transformer架构作为教师模型,用于模型蒸馏。最后,团队提出了“迭代蒸馏剪枝”的模型压缩方案(如图),不同于常见方法直接一步将模型压缩到需要的复杂度,而是逐渐多步迭代压缩,有效降低了模型在压缩中的性能损失。
团队在不同训练数据量下的模型分类准确率斩获第一,夺得DCASE 2024 Task 1赛道冠军。
未来展望
华控智加联队不仅在DCASE挑战赛中取得了显著成果,也为未来的技术创新和发展奠定了坚实基础,期盼永立世界科技最前沿,快速迭代产品,赋能工业生产。
公司介绍
华控智加开发的“工业装备智慧大脑”,致力于解决工业领域重大装备传统运维模式下事故多发、资源浪费、生产效率低、人才培养难等痛点问题,提供更加高效的基于人工智能的解决方案,这也是Task 2 异常检测技术的实际应用场景。公司率先推出应用于大型、高端工业装备的基于机器声纹的工业装备智慧大脑,通过自主研发的多传感器信号同步采集智能边缘计算终端,赋予装备听觉、视觉、触觉等多维感知能力,同时在线获取装备实时运行工况数据,利用人工智能、知识图谱等技术对装备运行状态进行建模、推理和决策分析,从而实现装备故障的超早期诊断、健康预测性维护和智能化运行,助力工业企业安全高效生产、提升经济效益。
工业装备智慧大脑突破了装备运维早期故障诊断难、智能化运维水平低等技术瓶颈,颠覆了基于信号、机理的传统故障分析技术和人工运维方式。应用场景覆盖水电、风电、火电、电网、管网、煤矿、石化、水泥、钢铁等众多工业领域,产品已在国家电网、国家能源集团、国家电投、华能集团、大唐集团、三峡集团、国投电力、中国海油、中煤集团、国家管网、东方电气、京能集团、运达股份等头部企业的高端装备上投入应用,开辟了一个全新的产业赛道。
部分能源领域的产品
水轮机状态多维感知系统:
针对水轮机的水车室、顶盖腹板、水导轴承、下机架、蜗壳门、尾水门等,以及发电机风洞、滑环室、定子机座等位置进行实时动态监测。此外,系统还能灵敏检测蜗壳门和尾水门上重要螺栓的松动情况,实时监测来自流道方向的冲击性和持续性异响。
GCB状态多维感知系统:
针对断路器、隔离刀闸、接地刀闸的机械机构,实时监测分合闸时间、平均速度、充分到位情况、液压机构打压时长以及分合闸过程中的迟滞、卡涩、脱落等故障。
变压器状态多维感知系统:
针对变压器螺栓松动、异物、传动卡涩、直流偏磁、局部放电等故障进行实时动态监测。
泵机状态多维感知系统:
针对水泵、油泵、气泵等各类泵机设备的机械故障、电气故障、泵轴封等部位的漏水漏油、泵启动异常、电机异响等进行实时动态监测。
THE
END
北京华控智加科技有限公司是清华大学和京津冀国家技术创新中心重点打造的人工智能和工业互联网企业,首创基于机器声纹的设备健康预测性维护解决方案,具备智能传感硬件终端、低资源非协作人工智能算法及工业互联网平台等垂直贯通的自主研发能力,提升设备安全性的同时增效减排,有效提高生产力。产品和服务广泛应用于水电、风电、火电、电网、管网、煤矿、石化、水泥、钢铁等众多领域,典型客户包括国家电网、国家能源集团、国家电投、中国华能、中国华电、中国大唐、三峡集团、国投电力、东方电气、中国海油、中国中煤、京能集团等头部企业。
华控智加获得的部分奖项:
DCASE 2024工业设备异常声音检测全球冠军;
DCASE 2024低复杂度声学场景分类全球冠军;
第三届中国工业互联网大赛第一名;
工信部21年工业App标杆案例赛金奖;
创客北京2022新一代信息技术产业特等奖;
第六届中国(国际)传感器创新创业大赛一等奖;
2024“蓉漂杯”高层次人才创新创业大赛总决赛一等奖;
获得国家重点研发计划“颠覆性技术创新”重点专项:“基于低资源非协作的重大装备工况自主感知优化技术”。
本文来自微信公众号“华控智加”(ID:aithu101010),作者:华控智加,36氪经授权发布。