智源研究院 前天 00:21
智源联合南开大学开源Chinese-LiPS中文多模态语音识别数据集
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

智源研究院联合南开大学发布了Chinese-LiPS中文多模态语音识别数据集,旨在推动中文语音识别技术发展。该数据集是首个结合“唇读信息+幻灯片语义信息”的中文数据集,包含100小时的语音片段,覆盖多个领域。实验结果表明,融合语音、唇读和幻灯片信息能显著提升语音识别准确率,尤其在减少删除和替换错误方面效果显著。该数据集为学术界和工业界提供了宝贵资源,助力教育AI和虚拟讲解人等领域的研究。

📚Chinese-LiPS数据集是首个结合唇读信息和幻灯片语义信息的中文多模态语音识别数据集,填补了中文领域相关数据资源的空白,面向讲解、科普、教学等复杂语境。

🗣️该数据集包含约100小时的语音片段,由207位专业讲者录制,覆盖科技、健康、文化等9大热门领域,主题分布均衡,体现了真实教学语境下的表达特点。

🖼️高质量的幻灯片由领域专家设计和标注,包含丰富的图像与视觉语义信息,而非简单的文字堆砌,同时视频录制质量高,确保语音与唇动精准对齐。

🧪评测实验显示,融合语音、唇读信息和幻灯片信息后,模型字符错误率从3.99%显著下降至2.58%,证明多模态信息融合能有效提升语音识别系统的性能。

2025-05-13 12:00 北京

2025年5月6日,智源研究院在法国巴黎举行的GOSIM全球开源创新论坛上发布Chinese-LiPS中文多模态语音识别数据集,该数据为智源研究院联合南开大学共同构建。


在语音识别技术飞速发展的背景下,多模态语音识别正逐步成为学术界和工业界的研究热点。相较于传统依赖音频的识别方法,多模态语音识别通过引入视觉信息(如唇动特征、语义图像、幻灯片等),显著提升了系统在嘈杂环境、多说话人场景以及术语密集内容下的鲁棒性与识别准确率。



数据集获取方式


Github地址:

https://github.com/flageval-baai/Chinese-LiPS


HuggingFace地址:

https://huggingface.co/datasets/BAAI/Chinese-LiPS


魔搭社区地址:

https://www.modelscope.cn/datasets/BAAI/Chinese-LiPS


Datahun地址:

https://data.baai.ac.cn/datadetail/Chinese-LiPS


当前,已有若干较为成熟的英语多模态语音识别数据集,如LRS系列、How2、SlideSpeech等,在推动视觉辅助语音识别技术发展方面发挥了重要作用。然而,这些数据集在视觉模态的构建上仍存在明显局限:


信息类型不全面:部分数据集仅包含唇读信息,缺乏有效的语义上下文支持;而另一些则仅提供语义线索,如幻灯片或语境图像,但无法保证唇部区域的清晰可见与音频同步性。能够同时提供高质量唇读特征与语义视觉信息的多模态数据集仍极为稀缺。


数据发展尚处初期:在中文领域,此类数据资源处于空白状态,尚无公开数据集能够全面覆盖真实教学、讲解、科普等复杂场景下的多模态表达需求。


智源研究院联合南开大学共同打造并开源了Chinese-LiPS数据集。作为首个“唇读信息+幻灯片语义信息”结合的中文多模态语音识别数据集,Chinese-LiPS数据集面向中文讲解、科普、教学、知识传播等复杂语境,致力于推动中文多模态语音识别技术的发展。


研究团队以 Chinese-LiPS 数据集为依托,针对语音识别性能提升,开展了一系列严谨的评测实验。


实验结果显示,在仅采用语音单模态输入的情况下,模型的字符错误率(CER)为 3.99%。当将语音、唇读信息、通过 OCR 技术从幻灯片提取的文本以及从图像和图形内容中获取的语义信息进行融合时,模型的字符错误率显著下降至 2.58%。


进一步对错误类型进行深入分析发现,唇读信息在减少删除错误方面发挥了重要作用。由于唇读能够捕捉到与发音相关的细节,在实际应用场景中,诸如填充词、因犹豫而未完整表达的语音片段等容易在语音识别中缺失的部分,借助唇读信息可有效补充;而幻灯片信息对于降低替换错误成效显著,幻灯片中所包含的丰富的语义和上下文信息,在面对专业词汇、地名等具有特定领域属性的词汇识别时,能够为模型提供关键的识别线索,从而大幅提高识别的准确性。


评测结果显示,多模态信息融合能够显著提升语音识别系统的性能,为语音识别技术的发展提供了新的思路与方向。


Chinese-LiPS评测实验结果


该数据集具备以下四大核心特点:


数据规模大Chinese-LiPS总时长约为100小时,包含36,208条高质量语音片段,由207位专业讲者录制,具备良好的代表性与多样性。


覆盖主题丰富内容涵盖科学技术、健康养生、文化历史、旅游探索、汽车工业、体育赛事等9大热门领域,主题分布均衡,充分体现了真实教学与讲解类语境下的表达特点与术语密度。


高质量幻灯片制作由领域专家设计内容并参与标注,确保幻灯片图文信息的准确性与专业性。PPT内容结构清晰、设计精美,包含丰富的图像与视觉语义信息,而非单一文字堆砌。


高质量视频录制视频由专业讲者在安静环境中录制,画面高清,涵盖唇读视频(720P)与幻灯片视频(1080P)两类模态,保障语音与唇动精准对齐,确保数据质量一致可靠。


Chinese-LiPS数据集中每个主题的时长分布


Chinese-LiPS数据集数据的分布情况


希望Chinese-LiPS数据集能够为从事语音识别、多模态融合、教育AI、虚拟讲解人等方向的研究者提供关键资源,共同推动中文智能语音技术的进步。


阅 读 更 多


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Chinese-LiPS 多模态语音识别 智源研究院 南开大学 数据集
相关文章