2025-02-06 17:04 北京
音频编码器是多模态大模型的重要组件,优秀的音频编码器在构建多模态系统中至关重要。在此背景下,小米集团、萨里大学、海天瑞声共同主办了 IEEE International Conference on Multimedia & Expo (ICME) 2025 Audio Encoder Capability Challenge。
IEEE ICME 2025 会议将于今年 7 月在法国南特举办,聚焦人工智能驱动的多媒体技术,涵盖图像与视频处理、多媒体分析与生成、社交媒体分析等 AI 相关主题。本挑战赛依托于会议平台,旨在评估音频编码器在丰富的多样性任务中的表征能力。届时,我们将在会议现场举办线下 workshop,邀请优秀参赛队伍做技术报告。
挑战赛受 HEAR benchmark 启发,引入了多项增强,包括多样化的任务集、面向真实世界的应用、微调和 zero-shot 评估相结合,以及一个新的高效的开源评估系统。
参赛者需提交输入为波形、输出为连续嵌入向量的音频编码器,我们将采用带参数和无参数两种评估方法,在语音、环境声音和音乐等多个任务上衡量编码器的性能。
比赛不限制模型尺寸和训练数据规模,并且允许基于任何公开的预训练模型,只需最终模型能够在 Google Colab 上推理、训练数据中不包含指定测试集。
一、比赛介绍
1.1 数据集
所有训练数据必须是可公开访问的
不得包含表 1 中的数据和基于表 1 数据的派生数据
基于预训练模型训练,比如微调或蒸馏,是允许的,但要确保所基于的模型的训练数据不包含表 1 数据。
☆ ☆ 表 1:测试数据集
表中的“Hidden”列表示该数据集对参赛者隐藏。主办方可能只选择表 1 中的一部分作为评估数据集。
1.2 赛道设置
赛道 A:基于任务数据的线性微调
赛道 B:无参数评估
直接进行 K 近邻分类(K-NN),不做训练。虽然这种方法在实际应用中可能无法达到最佳性能,但它提供了对声音表征内在能力测试。
1.3 基线
☆ ☆ 表 2:赛道 A 基线
Weighted Average 是按照测试集尺寸对分数做的加权平均。
☆ ☆ 表 3:赛道 B 基线
二、报名参赛
2.1 时间节点
2025 年 5 月 27 日:结果公布
2025 年 7 月初:workshop 展示
2.2 如何报名
2025 年 4 月 1 日前,登陆 https://forms.gle/VGgRQdPLs9f72UM8A 报名(网络环境需能访问 Google)。注意:并不需要等到 4 月 1 日才开始参赛,现在就可以开始训练你的声音编码器。
2.3 提交方式
预训练模型的权重既可以包含在 ZIP 文件中,也可以在运行时从外部来源(例如 Hugging Face)自动下载。如果选择后者,请在编码器实现中加入自动下载的机制。尽管对模型大小没有限制,但提交的模型必须能够在 Google Colab T4 环境中成功运行推理,该运行环境配备了 16 GB NVIDIA Tesla T4 GPU。