智源联合南开大学开源Chinese-LiPS中文多模态语音识别数据集

2025-05-13 12:00 北京

2025年5月6日，智源研究院在法国巴黎举行的GOSIM全球开源创新论坛上发布Chinese-LiPS中文多模态语音识别数据集，该数据为智源研究院联合南开大学共同构建。

在语音识别技术飞速发展的背景下，多模态语音识别正逐步成为学术界和工业界的研究热点。相较于传统依赖音频的识别方法，多模态语音识别通过引入视觉信息（如唇动特征、语义图像、幻灯片等），显著提升了系统在嘈杂环境、多说话人场景以及术语密集内容下的鲁棒性与识别准确率。

数据集获取方式

Github地址：

https://github.com/flageval-baai/Chinese-LiPS

HuggingFace地址：

https://huggingface.co/datasets/BAAI/Chinese-LiPS

魔搭社区地址：

https://www.modelscope.cn/datasets/BAAI/Chinese-LiPS

Datahun地址：

https://data.baai.ac.cn/datadetail/Chinese-LiPS

当前，已有若干较为成熟的英语多模态语音识别数据集，如LRS系列、How2、SlideSpeech等，在推动视觉辅助语音识别技术发展方面发挥了重要作用。然而，这些数据集在视觉模态的构建上仍存在明显局限：

信息类型不全面：部分数据集仅包含唇读信息，缺乏有效的语义上下文支持；而另一些则仅提供语义线索，如幻灯片或语境图像，但无法保证唇部区域的清晰可见与音频同步性。能够同时提供高质量唇读特征与语义视觉信息的多模态数据集仍极为稀缺。

数据发展尚处初期：在中文领域，此类数据资源处于空白状态，尚无公开数据集能够全面覆盖真实教学、讲解、科普等复杂场景下的多模态表达需求。

智源研究院联合南开大学共同打造并开源了Chinese-LiPS数据集。作为首个“唇读信息+幻灯片语义信息”结合的中文多模态语音识别数据集，Chinese-LiPS数据集面向中文讲解、科普、教学、知识传播等复杂语境，致力于推动中文多模态语音识别技术的发展。

研究团队以 Chinese-LiPS 数据集为依托，针对语音识别性能提升，开展了一系列严谨的评测实验。

实验结果显示，在仅采用语音单模态输入的情况下，模型的字符错误率（CER）为 3.99%。当将语音、唇读信息、通过 OCR 技术从幻灯片提取的文本以及从图像和图形内容中获取的语义信息进行融合时，模型的字符错误率显著下降至 2.58%。

进一步对错误类型进行深入分析发现，唇读信息在减少删除错误方面发挥了重要作用。由于唇读能够捕捉到与发音相关的细节，在实际应用场景中，诸如填充词、因犹豫而未完整表达的语音片段等容易在语音识别中缺失的部分，借助唇读信息可有效补充；而幻灯片信息对于降低替换错误成效显著，幻灯片中所包含的丰富的语义和上下文信息，在面对专业词汇、地名等具有特定领域属性的词汇识别时，能够为模型提供关键的识别线索，从而大幅提高识别的准确性。

评测结果显示，多模态信息融合能够显著提升语音识别系统的性能，为语音识别技术的发展提供了新的思路与方向。