Interspeech 2025 | 小米大模型团队 5 项音频技术成果入选国际顶会

小米大模型团队 2025-05-21 17:03 北京

国际音频领域顶级会议 Interspeech 2025 近日公布论文录用结果，小米大模型团队共有 5 篇研究成果入选。

本次会议以"公平包容的语音科学与技术"（Fair and Inclusive Speech Science and Technology）为主题，聚焦音频领域的前沿理论与技术创新。小米大模型团队入选的 5 篇论文围绕跨模态预训练、自回归建模、生成式模型优化等核心方向展开，研究成果覆盖对比学习框架、音频编码器评测、联合语音生成等关键技术，尤其是在模型预训练的理论和方法上做了重点研究。

这些成果体现了团队在音频基础模型、语音生成/增强算法、多模态系统设计等领域的持续深耕，为构建泛化性更强的音频技术体系提供了新思路。团队相关研究已逐步应用于小米智能生态产品，推动音频算法体验升级。

Interspeech 作为音频领域历史最悠久、最有影响的国际会议之一，始终引领音频技术的发展。 2025 年会议将于 8 月 17-21 日在荷兰鹿特丹举行。

▍《Efficient Speech Enhancement via Embeddings from Pre-trained Generative Audioencoders》

论文作者：孙兴伟，Heinrich Dinkel，牛亚东，王林章，张俊博，栾剑

在语音增强任务中，不同于传统神经网络时频掩蔽估计的方法，结合预训练音频编码器与神经网络声码器的方法在极端场景中可以获得更好的语音质量提升。

在本文中，我们提出了一种结合预训练音频编码器与神经网络声码器的简单且可扩展的语音增强模型。我们首先使用预训练的音频编码器从带噪语音中提取音频嵌入向量，然后通过一个简单的降噪编码器网络模型对这些嵌入进行降噪处理，最后利用声码器由降噪后的嵌入向量合成干净的语音，从而实现语音降噪过程。

在这个模型中，我们采用了预训练的音频编码器和神经网络声码器，而不是专门为语音降噪任务而训练的。因此，只需根据其他任务（如语音去混响和语音分离）的需要，将降噪编码器替换为其他编码器，就可以扩展到新的任务中。

实验结果表明，与判别式音频编码器相比，使用生成式音频编码器在语音降噪以及说话人音色保持方面具有更稳健的表现。主观测听实验也表明我们提出的系统在在语音感知质量方面也优于现有主流语音增强模型。我们发布了代码与预训练模型，希望能够促进进一步的研究。

▍《GLCLAP: A Novel Contrastive Learning Pre-trained Model for Contextual Biasing in ASR》

论文作者：孔玉祥，崔凡，郭理勇，Heinrich Dinkel，范利春，张俊博，栾剑

近年来，支持提示词的自动语音识别系统展现出强大的自适应能力，通过引入上下文信息（如特定领域词汇、用户自定义术语、历史对话内容等）使解码结果更倾向于生成符合特定语境的文本。

本文利用语言音频对比预训练技术，从用户词表中检索匹配热词来提升用户个性化识别结果。有别于传统方法仅将对比学习限定于句子层级，我们提出全局局部对比预训练模型（GLCLAP）。在全局层面，模型从音频与文本中提取语义信息，实现对输入内容的整体语义理解；在局部层面，则聚焦于单个语音片段的细粒度词汇级信息建模。这种多尺度特征融合机制显著提升了热词检索的准确率。

此外，将 GLCLAP热词检索系统作为提示词生成组件集成至 ASR 模型中，无需对 ASR 模型进行微调即可显著提升最终解码结果的准确性。

▍《StarVC: A Unified Auto-regressive Framework for Joint Text and Speech Generation in Voice Conversion》

论文作者：李奉津，王洁，牛亚东，王永庆，孟猛，栾剑，吴志勇

语音转换（Voice Conversion, VC）旨在转换一段语音的音色，使其听起来像是另一个人说出来的一样，同时要保持原始语音的文本内容不变。

语音转换的核心就在于将说话人信息与语言内容解耦开，而传统的语音转换方法通常是直接从语音中提取说话人信息，并未充分利用文本内容的显式表征；而目前已有的利用语义特征来提高语音转换的工作，在保证语义完整度和提高说话人音色相似度上收效甚微。

因此在这篇论文中，我们提出StarVC—— 一种基于自回归架构的语音转换框架，我们创新性地采用先预测文本语义信息、再合成声学特征的两阶段建模策略，通过引入结构化的语义特征，以此来提升语义与说话人间的解耦程度。主客观实验表明，StarVC在说话人相似度上与CosyVoice等SOTA模型持平，并且在WER、CER及MOS上更优。

▍《Text-Enhanced Audio Encoder for Large Language Model based Speech Recognition via Cross-Modality Pre-training with Unpaired Audio-Text Data》

论文作者：苏航、孔玉祥、范利春、栾剑

近年来，大型语言模型（LLM）的快速发展为语音识别（ASR）任务带来了新的架构范式，其核心是通过音频编码器后接强大的LLM实现端到端建模。

通过优化音频编码器生成的音频嵌入向量，让其更好地与文本特征对齐，可以有效提升基于LLM的ASR系统性能。然而，当前基于LLM的ASR研究主要依赖配对音频-文本数据（即有标注的音频-文本对）进行跨模态特征对齐，针对海量易获取的非配对音频-文本数据的利用仍显不足。

本文提出一种跨模态预训练方法，利用大规模非配对音频-文本数据实现音频嵌入到文本模态的优化对齐。实验结果表明，相较于仅使用音频数据预训练的基线编码器，使用本文提出的基于非配对文本数据增强的音频编码器能显著提升LLM-ASR系统的识别性能。该方法在充分利用海量非配对音频-文本数据方面展现出巨大潜力，为未来性能提升提供了广阔空间。

▍《X-ARES: A Comprehensive Framework for Assessing Audio Encoder Performance》

论文作者：张俊博、Heinrich Dinkel、牛亚东、刘晨雨、程思、赵安蓓、栾剑

音频编码器是音频大模型的重要组件，如何系统评估音频编码器的通用性是学界与工业界共同关注的挑战。

本文提出首个覆盖语音、环境声与音乐三大领域的统一评测框架 X-ARES，通过22项任务，创新性地融合线性微调（MLP）与无参数近邻（k-NN）双评估范式，全面衡量编码器的跨场景泛化能力。通过系统化集成语音识别、情感分析、声学事件检测、音乐风格分类等关键任务，X-ARES 构建了业界最完整的音频理解评估体系，支持用户仅需提供单一编码器即可快速完成多维度性能评估。

实验结果表明，语音编码器如 Whisper 在 ASR 任务中表现优异但声音领域泛化能力不足，而小米自研通用音频编码器 Xiaomi Dasheng 则展现出更全面的性能。

小米始终坚持“技术为本”，在 AI 领域持续投入，构建了包括基座文本大模型、多模态大模型、AI Agent 智能体在内的全栈技术体系，其中声音领域覆盖大模型驱动的声音理解如语音识别、环境音感知，与语音合成、音乐创作等声音生成关键技术，相关成果现已赋能手机、汽车、音箱等几十个品类上千款智能设备。

未来，小米将持续投入音频与多模态大模型研发，加速创新技术规模化落地。深耕不辍，声动未来。

阅读原文

跳转微信打开

▍《Efficient Speech Enhancement via Embeddings from Pre-trained Generative Audioencoders》

▍《GLCLAP: A Novel Contrastive Learning Pre-trained Model for Contextual Biasing in ASR》

▍《StarVC: A Unified Auto-regressive Framework for Joint Text and Speech Generation in Voice Conversion》

▍《Text-Enhanced Audio Encoder for Large Language Model based Speech Recognition via Cross-Modality Pre-training with Unpaired Audio-Text Data》

▍《X-ARES: A Comprehensive Framework for Assessing Audio Encoder Performance》

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签