通义 前天 00:21
语音识别怕噪声?CoGenAV 音画同步来破局!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

CoGenAV 是一种创新的 AI 模型,旨在通过学习声音、视觉和文本之间的时序对齐关系,实现“音画同步”的深度理解。该模型能够显著提升语音识别、语音重建和语音同步等多种 Speech-Centric 任务的表现。CoGenAV 采用“对比生成同步”策略,从多模态同步信息中高效学习高质量的音视频特征表示,并可直接接入主流语音识别模型,降低部署门槛。CoGenAV 还展现出优秀的抗噪能力和数据效率,仅需少量数据即可达到甚至超越传统模型的效果,为语音处理领域带来了新的突破。

🗣️ CoGenAV 的核心在于实现音画同步的深度理解。它通过学习音频、视觉和文本之间的时序对齐关系,构建一个更鲁棒、更通用的语音表征框架。

⚙️ CoGenAV 采用“对比生成同步”策略进行训练。这包括对比同步,利用 Seq2Seq 对比学习增强音视频特征对应关系;生成同步,借助预训练的 ASR 模型将音视频特征与其声学-文本表示对齐。

🚀 CoGenAV 在多个语音任务中表现出色。在视觉语音识别、音视频语音识别、语音增强与分离以及主动说话人检测等任务中,CoGenAV均取得了突破性成果,例如在 LRS2 数据集上,视觉语音识别(VSR)任务中达到 20.5% 的词错误率(WER)。

原创 快来关注 ➡️ 2025-05-28 18:07 浙江

音画同步,才是真理解

CoGenAV 的核心理念是 AI 模型也实现“音画同步”的深度理解。它不再只是“听见声音”,而是通过学习 audio-visual-text 之间的时序对齐关系,构建出一个更鲁棒更通用的语音表征框架

该框架能系统性地提升多个 Speech-Centric 任务的表现力,包括但不限于:语音识别任务(VSR/AVSR),语音重建任务(AVSS/AVSE),以及语音同步任务(ASD)。

CoGenAV 创新性的采用“对比生成同步”策略,能从 audio-visual-text 多模同步信息中高效地学习到高质量的音视频特征表示。

这种能力使它不仅适用于传统的语音识别任务,还能拓展至语音重建、说话人判断等多个领域。此外,CoGenAV 可直接接入主流语音识别模型(如 Whisper),无需修改或微调即可实现视觉语音识别功能,显著降低了部署门槛。

CoGenAV 还展现出出色的抗噪能力和数据效率。在嘈杂环境中,它能够通过视觉信息补全被噪声干扰的声音内容,从而稳定输出准确结果。而在训练数据方面,仅需 223 小时的数据量,就能达到甚至超越传统模型使用数千小时数据的效果。这大大节省了训练成本,也增强了模型的实用性与扩展潜力。

CoGenAV 的核心框架由两个关键部分组成:音视频特征表示对比生成同步训练机制。

在特征提取阶段,模型采用 ResNet 3D CNN 来分析视频中说话人的唇部动作,捕捉声音与口型之间的动态关联;同时用 Transformer 编码器提取音频中的语音信息。这些音视频特征会被精确对齐,确保“听到的声音”和“看到的嘴型”在时间上完全匹配。

对比生成同步训练通过两种方式提升模型的理解能力:

    对比同步采用 Seq2Seq Contrastive Learning 方法,增强音频与视频特征之间的对应关系,帮助模型更准确地识别声音与口型的匹配。同时引入 ReLU 激活函数,过滤掉不相关的干扰帧,提升模型在复杂环境下的稳定性。

    生成同步,借助一个预训练 ASR 模型(如 Whisper)作为“老师”,将 CoGenAV 提取的音视频特征与其声学-文本表示对齐。为了弥补不同模态之间的差异,模型设计了一个轻量级适配模块(Delta Upsampler + GatedFFN MHA),有效提升了跨模态融合效率。

这套“双轮驱动”的训练策略,使 CoGenAV 在多个语音任务中都表现出色,真正实现了“听清 + 看懂”的多模态理解。

CoGenAV在多个基准数据集上取得了突破性成果。

视觉语音识别(VSR):在 LRS2 数据集上,仅用 223 小时唇动视频训练,就在视觉语音识别(VSR)任务中达到 20.5% 的词错误率(WER),效果媲美使用数千小时数据的传统模型。

音视频语音识别(AVSR):结合 Whisper Medium 模型,在相同数据集实现 1.27% WER,刷新 SOTA 记录。在 0dB 噪声环境下,性能提升超过 80%,显著优于纯音频模型(如Whisper Medium的34.2% WER)。

语音增强与分离(AVSE/AVSS):在 LRS2 语音分离与任务中,CoGenAV作为视觉特征提取器,SDRi指标达 16.0 dB ,超越AvHuBERT 1.6 dB,Av SepFormer 0.3 dB。 语音增强任务中,SDRi指标为 9.0 dB ,优于Av HuBERT 1.6 dB。 

主动说话人检测(ASD):在Talkies数据集上,CoGenAV的平均精度(mAP)达到 96.3% ,领先现有方法(如LocoNet的96.1%)。 

GitHub:https://github.com/HumanMLLM/CoGenAV

arivx:https://arxiv.org/pdf/2505.03186

HuggingFace:https://huggingface.co/detao/CoGenAV

ModelScope:https://modelscope.cn/models/iic/cogenav

🎉 极限听力挑战,猜猜TA说了什么?🎉

欢迎文末留言

第一位答对的小伙伴,可获得定制T恤

开奖时间:2025年5月30日17:00

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

CoGenAV 音画同步 语音识别 AI
相关文章