小米技术 02月06日
报名 | ICME 2025 音频编码器能力挑战赛正式开启
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

小米、萨里大学、海天瑞声联合主办的IEEE ICME 2025音频编码器能力挑战赛正式启动。该挑战赛旨在评估音频编码器在多样性任务中的表征能力,聚焦人工智能驱动的多媒体技术。比赛提供两个赛道:赛道A通过线性微调评估模型在特定任务上的适配性;赛道B则通过K近邻分类评估音频表征的内在能力,无需微调。参赛者需提交音频编码器,并在语音、环境声音和音乐等任务上进行评估。比赛不限制模型尺寸和训练数据规模,但需确保模型能在Google Colab上运行。

🎤挑战赛依托IEEE ICME 2025会议平台,聚焦AI驱动的多媒体技术,评估音频编码器在语音、环境声音和音乐等多样性任务中的表征能力。

🛠️比赛设置了两个赛道:赛道A通过线性微调评估模型在特定任务上的适配性,赛道B通过K近邻分类评估音频表征的内在能力,无需微调。

🗓️重要时间节点:2025年2月7日挑战赛启动,4月1日报名截止,4月30日提交截止,5月27日结果公布,7月初workshop展示。

💻参赛者需提交输入为波形、输出为连续嵌入向量的音频编码器,并且最终模型能够在 Google Colab T4 环境中成功运行推理。

2025-02-06 17:04 北京

音频编码器是多模态大模型的重要组件,优秀的音频编码器在构建多模态系统中至关重要。此背下,小米集团、萨里大学、海天瑞声共同主办了 IEEE International Conference on Multimedia & Expo (ICME) 2025 Audio Encoder Capability Challenge。

IEEE ICME 2025 会议将于今年 7 月在法国南特举办,聚焦人工智能驱动的多媒体技术,涵盖图像与视频处理、多媒体分析与生成、社交媒体分析等 AI 相关主题。本挑战赛依托于会议平台,旨在评估音频编码器在丰富的多样性任务中的表征能力。届时,我们将在会议现场举办线下 workshop,邀请优秀参赛队伍做技术报告。

挑战赛受 HEAR benchmark 启发,引入了多项增强,包括多样化的任务集、面向真实世界的应用、微调和 zero-shot 评估相结合,以及一个新的高效的开源评估系统

参赛者需提交输入为波形、输出为连续嵌入向量的音频编码器,我们将采用带参数和无参数两种评估方法,在语音、环境声音和音乐等多个任务上衡量编码器的性能。

比赛不限制模型尺寸和训练数据规模,并且允许基于任何公开的预训练模型,只需最终模型能够在 Google Colab 上推理、训练数据中不包含指定测试集。


一、比赛介绍

1.1 数据集

和大多数比赛不同,本挑战赛不仅重视模型设计和训练,也同样重视数据的收集和利用。主办方不规定具体的训练数据集。参赛者可以使用任何数据训练,包括在网络上抓取的数据,但要满足以下条件:

基于预训练模型训练,比如微调或蒸馏,是允许的,但要确保所基于的模型的训练数据不包含表 1 数据。

☆ ☆ 表 1:测试数据集

表中的“Hidden”列表示该数据集对参赛者隐藏。主办方可能只选择表 1 中的一部分作为评估数据集。

1.2 赛道设置

我们设置了两个赛道,从不同视角评估预训练音频编码器的性能。赛道 A 关注预训练模型在特定任务上的适配性与有效性,而赛道 B 则评估音频表征的内在能力,不做任何微调,评价嵌入表征的内在能力。参赛者无需选择赛道。所有提交作品将同时接受两个赛道的评估。

赛道 A:基于任务数据的线性微调

使用参赛者提供的编码器,通过预定义的超参数外接一个任务相关的线性层。该方法评估模型通过一个额外的线性层适配到特定任务的能力,同时不改变原始模型的参数。

赛道 B:无参数评估

直接进行 K 近邻分类(K-NN),不做训练。虽然这种方法在实际应用中可能无法达到最佳性能,但它提供了对声音表征内在能力测试。 

1.3 基线

我们提供了四个公开的音频编码器的测试结果作为基线,供参赛者参考。参赛者允许利用任何已有的预训练模型辅助开发自己的模型,包括这些基线模型,只要该模型的训练数据不在表 1 内。

☆ ☆ 表 2:赛道 A 基线

Weighted Average 是按照测试集尺寸对分数做的加权平均。

☆ ☆ 表 3:赛道 B 基线


二、报名参赛

2.1 时间节点


2.2 如何报名

2025 年 4 月 1 日前,登陆 https://forms.gle/VGgRQdPLs9f72UM8A 报名(网络环境需能访问 Google)。注意:并不需要等到 4 月 1 日才开始参赛,现在就可以开始训练你的声音编码器。


2.3 提交方式

    从 GitHub 仓库克隆音频编码器模板代码;

按照仓库中 README.md 的说明实现自己的音频编码器。并按照说明,通过仓库中提供的 audio_encoder_checker.py 检查;

2025 年 4 月 30 日提交截止日期之前,将以下文件通过邮件发送至 2025icme-aecc@dataoceanai.com;

预训练模型的权重既可以包含在 ZIP 文件中,也可以在运行时从外部来源(例如 Hugging Face)自动下载。如果选择后者,请在编码器实现中加入自动下载的机制。尽管对模型大小没有限制,但提交的模型必须能够在 Google Colab T4 环境中成功运行推理,该运行环境配备了 16 GB NVIDIA Tesla T4 GPU。


| 更多详情

有关挑战赛的详细说明,请参阅比赛网站和 ICME 2025 Audio Encoder Capability Challenge 论文。


比赛相关问题,请发送邮件至 2025icme-aecc@dataoceanai.com 进行咨询,也可直接联系比赛组织者。





阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

音频编码器 多模态大模型 ICME 2025 人工智能 挑战赛
相关文章