科大讯飞研究院 2024年10月28日
DCASE 2024三项第一!不惧新挑战
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

科大讯飞研究院联合多方在DCASE 2024中获多项冠军,展示智能音频技术实力。其在音频赛道和音视频赛道提出创新方法夺冠,在小样本动物声音检测任务中也表现出色,且相关技术已应用于多领域,助力工业AI检测。

🥇科大讯飞研究院联合中科大等获音频赛道和音视频赛道双项第一。在音频赛道,提出独立训练和联合推理方法解决多任务问题,在检测F-score等三项指标中全部第一。

🎯在音视频赛道,提出多项创新技术,如音视频数据处理与增强、特征融合与知识迁移等,以超越第二名绝对值16.6%的优势获得冠军。

🐾在小样本动物声音事件检测任务中,联合团队提出两大关键技术改进系统性能,打造的检测系统在测试集上F-score得分为65.2%,再次夺冠。

💪科大讯飞将声音定位与检测技术应用于电力、矿山、制造业等领域,研发多种AI声学检测产品,提高检测效率,助力工业生产提质增效。

iFLYTEK RESEARCH 2024-07-09 15:50 北京

声音事件定位与检测国际权威赛事DCASE 2024放榜!

继2020年、2022年及2023年在国际声学场景和事件检测及分类挑战赛(Challenge on Detection and Classification of Acoustic Scenes and Events,简称DCASE)中获得声音事件定位与检测冠军以及小样本动物声音检测冠军之后,今年,科大讯飞研究院联合中科大语音及语言信息处理国家工程研究中心(简称NERCSLIP)、国家智能语音创新中心,获得音频赛道和音视频赛道双项第一;科大讯飞研究院与国防科技大学(简称NUDT)复杂智能软件系统项目组联合团队也获得了小样本动物声音检测任务冠军,再次证明智能音频技术领域的不俗实力。

DCASE是目前声音事件领域最权威的竞赛之一,自2013年组织发起以来已举办了10届。DCASE 2024挑战赛设置了10个任务,吸引了全球108支队伍进行角逐,共接收到321个提交系统。

本次赛事在声音事件定位与检测任务上,除了需要预测声源的到达方向,还引入了声源距离估计,任务的难度系数显著提升;而在小样本动物事件检测任务上,今年则增加了水下动物类别,对算法泛化性提出新的挑战。


音频赛道:独立训练与联合推理方法解决多任务问题

本次声音事件定位与检测(简称SELD)任务的测试数据在真实场景下录制,不同类别声音事件在时域重叠率较高,并且要求同时预测声音事件的类别、估计到达方向和新增的声源距离,多任务问题给建模带来了极大的挑战。

基于此前在DCASE 2023 Task3中夺冠的音频通道交换数据增强方法与预训练模型,联合团队进一步提出了独立训练和联合推理的方法以解决多任务问题。

具体来说,联合团队提出训练两个子模型分别专注于解决声音事件类别-到达方向估计和声音事件类别-声源距离估计子任务,并在推理阶段联合两个子模型得到最终多任务的预测结果。

Task3音频赛道联合团队提出独立训练和联合推理的方法

联合团队所提出的独立训练和联合推理的方法有效地解决了任务问题,同时在新增的声源距离估计子任务上也表现优异。

联合团队在检测F-score、定位错误率和相对距离误差三项指标中全部获得第一,其中F-score超越第二名绝对值24.6%,最终以显著优势夺得单音频赛道冠军

联合团队在Task3音频赛道中夺冠


音视频赛道:多项创新技术有效提升声音定位与检测效果

此次音视频赛道中,官方发布的音视频数据仅有3.8小时,不足以训练一个鲁棒的音视频SELD模型。针对此次比赛,联合团队提出了多项创新技术,以应对真实场景下的音视频声音事件定位与检测任务:

Task3音视频赛道联合团队提出的AVPS方法

通过上述方案,联合团队最终在音视频赛道的F-score上取得55.8%的好成绩, 以超越第二名绝对值16.6%的大幅优势获得冠军,实现了全新突破。

联合团队在Task3音视频赛道中夺冠


解析动物交响乐技术叒升级:引入新技术解决小样本检测难题

DCASE 2024挑战赛小样本动物声音事件检测任务中,需要在仅给定5条目标声音片段的条件下,从一段长音频中查找出所有目标发声的起始及结束时间。目标声音都是动物发出的声音,例如美洲麻雀、北美红雀等。该任务要求参赛队伍在指定数据集下完成系统构建,且不能使用多系统融合策略。

Task5小样本动物声音事件检测任务说明

此次比赛有这些难点测试集与训练集关联度低,采集场地、设备、动物类别等均无重合,训练数据的动物叫声类别很少,动物叫声差异较大,很难完全依赖训练集进行目标声音检测;测试音频混淆大,存在其他类别的动物叫声、摩托引擎声等噪声,同时存在目标音频很短且与其他声音重叠的现象。

凭借多年技术积累与不断探索创新,联合团队再次升级比赛方案,提出两大关键技术改进系统性能,进一步提升小样本动物声音事件检测效果。

Task5动物声音检测任务联合团队提出基于AAPM的动物声音检测方法

最终,基于上述方案打造的小样本动物声音事件检测系统在开发集上取得领先效果,在测试集上F-score得分为65.2%,再次拿下该任务冠军。

联合团队在Task5中夺冠


机器辨声应用落地,助力工业AI检测

目前,科大讯飞已经将声音定位与检测技术应用于电力、矿山、制造业等领域,研发了工业听诊器和声学成像仪等AI声学检测产品

工业听诊器在浙江、安徽、宁夏等全国50余个变电站、风电站、水电站等地部署运行,对直流偏磁、局部放电、短路冲击等类故障识别率达99%,建立设备故障、环境异音、负荷样本、开关样本4大类型、24个细分类样本库,积累18万余小时数据样本。

声学成像仪广泛应用于燃气站、化工厂、加气站等多个关键场景,以燃气站场景为例,可以检测出法兰、阀门、管道弯头等多处泄漏点,将近5小时人工检测缩短至30分钟,大幅提高气体泄漏检测效率。

此外,科大讯飞工业智能研发听觉、视觉、触觉、嗅觉、味觉及工业大脑融合的工业六感技术,推出声学成像仪、工业内窥镜、工业六感机器人等“讯飞潮汐力”系列产品,引领工业AI检测产品创新,助力工业生产提质增效

万物互联时代,全新人机交互的方式正在发生变革,赋能各行各业激发全新的应用落地可能。作为智能语音技术的重要部分之一,科大讯飞也将持续发力智能音频技术方向,不断探索相关技术与实际产品应用结合的可行之路。



相关阅读

三人“吵架”,AI听清?我们如何应对语音识别的“极限挑战”

DCASE 2023 获三项冠军,机器怎样拥有更“灵敏”的耳朵?



跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

科大讯飞 智能音频 DCASE 2024 工业AI检测
相关文章