语音识别怕噪声？CoGenAV 音画同步来破局！

原创快来关注 ➡️ 2025-05-28 18:07 浙江

音画同步，才是真理解

CoGenAV 的核心理念是让 AI 模型也实现“音画同步”的深度理解。它不再只是“听见声音”，而是通过学习 audio-visual-text 之间的时序对齐关系，构建出一个更鲁棒、更通用的语音表征框架。

该框架能系统性地提升多个 Speech-Centric 任务的表现力，包括但不限于：语音识别任务（VSR/AVSR），语音重建任务（AVSS/AVSE），以及语音同步任务（ASD）。

CoGenAV 创新性的采用“对比生成同步”策略，能从 audio-visual-text 多模同步信息中高效地学习到高质量的音视频特征表示。

这种能力使它不仅适用于传统的语音识别任务，还能拓展至语音重建、说话人判断等多个领域。此外，CoGenAV 可直接接入主流语音识别模型（如 Whisper），无需修改或微调即可实现视觉语音识别功能，显著降低了部署门槛。

CoGenAV 还展现出出色的抗噪能力和数据效率。在嘈杂环境中，它能够通过视觉信息补全被噪声干扰的声音内容，从而稳定输出准确结果。而在训练数据方面，仅需 223 小时的数据量，就能达到甚至超越传统模型使用数千小时数据的效果。这大大节省了训练成本，也增强了模型的实用性与扩展潜力。

CoGenAV 的核心框架由两个关键部分组成：音视频特征表示和对比生成同步训练机制。

在特征提取阶段，模型采用 ResNet 3D CNN 来分析视频中说话人的唇部动作，捕捉声音与口型之间的动态关联；同时用 Transformer 编码器提取音频中的语音信息。这些音视频特征会被精确对齐，确保“听到的声音”和“看到的嘴型”在时间上完全匹配。

对比生成同步训练通过两种方式提升模型的理解能力：

对比同步，采用 Seq2Seq Contrastive Learning 方法，增强音频与视频特征之间的对应关系，帮助模型更准确地识别声音与口型的匹配。同时引入 ReLU 激活函数，过滤掉不相关的干扰帧，提升模型在复杂环境下的稳定性。

生成同步，借助一个预训练 ASR 模型（如 Whisper）作为“老师”，将 CoGenAV 提取的音视频特征与其声学-文本表示对齐。为了弥补不同模态之间的差异，模型设计了一个轻量级适配模块（Delta Upsampler + GatedFFN MHA），有效提升了跨模态融合效率。

这套“双轮驱动”的训练策略，使 CoGenAV 在多个语音任务中都表现出色，真正实现了“听清 + 看懂”的多模态理解。

CoGenAV在多个基准数据集上取得了突破性成果。

视觉语音识别（VSR）：在 LRS2 数据集上，仅用 223 小时唇动视频训练，就在视觉语音识别（VSR）任务中达到 20.5% 的词错误率（WER），效果媲美使用数千小时数据的传统模型。

音视频语音识别（AVSR）：结合 Whisper Medium 模型，在相同数据集实现 1.27% WER，刷新 SOTA 记录。在 0dB 噪声环境下，性能提升超过 80%，显著优于纯音频模型（如Whisper Medium的34.2% WER）。

语音增强与分离（AVSE/AVSS）：在 LRS2 语音分离与任务中，CoGenAV作为视觉特征提取器，SDRi指标达 16.0 dB ，超越AvHuBERT 1.6 dB，Av SepFormer 0.3 dB。语音增强任务中，SDRi指标为 9.0 dB ，优于Av HuBERT 1.6 dB。