机器之心 01月21日
给大模型制作图文并茂的教科书: 从2.5年的教学视频里挖掘多模态语料
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

浙大和阿里巴巴达摩院联合提出图文交织的多模态知识语料,收集教学视频并转化为教科书,实验证明其对VLMs预训练效果显著

创建四层知识分类体系收集教学视频

设计多层级处理流程将视频转为教科书

对数据集进行统计和分析

通过实验证明该语料的有效性

2025-01-20 16:07 北京

浙大和阿里巴巴达摩院联合提出一个图文交织的多模态知识语料。

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com


近期关于 scaling law 的讨论甚嚣尘上,很多观点认为 scale law is dead. 然而,我们认为,高质量的 “无监督” 数据才是 scaling law 的关键,尤其是教科书级别的高质量的知识语料。此外,尽管传统的语料快枯竭了,但是互联网上还有海量的视频并没有被利用起来,它们囊括了丰富的多种模态的知识,可以帮助 VLMs 更好好地理解世界。


浙大和阿里巴巴达摩院联合提出一个图文交织的多模态知识语料:他们收集互联网上超过 22000 课时 (两年半) 的教学视频,提取关键步骤的画面和音频(转录成文本),组织成连贯、图文交织的格式,制作成数学,物理,化学等多个学科的图文教科书 (textbook)。基于这些 textbook,VLMs 可以像人类上课一样学习这些图文交织,由易至难的学科知识。





该研究还登上了huggingface dataset trending榜单,不到两周下载量已经7000+。



1. 背景和动机


当前多模态大模型(VLMs)的预训练语料主要有两种形式:图像 - 文本对语料以及图文交织语料: 



然而当前的 interleaved corpus 大多爬取自网页或者文档,存在以下问题:


(1)文本与图像关系松散:网页中的图像和文本之间的关联通常很松散,甚至可能包括不相关的图像,例如徽标或广告。

(2)图像序列缺乏逻辑连贯性:大多数网页包含的图像相对较少,更重要的是,图像之间的逻辑关系往往很模糊,使得学习复杂的视觉推理变得困难。

(3)知识密度低:抓取的网页不可避免地包括新闻、娱乐和广告推荐等内容,很少涉及专业知识,即知识密度较低。


因此,探索如何构建高质量、教科书级别的 interleaved 数据集是非常必要的。此外我们还注意到互联网中存在的海量的教学视频 (例如 Youtube 上的在线课程),这些视频包含丰富的知识,人们经常使用这些视频来学习基础学科知识,但这些宝贵资源在 VLMs 训练中仍未得到充分利用。基于此,我们思考如何让 VLMs 像人类一样,利用这些教学视频进行高质量的预训练,从而提升其知识水平和推理能力。为实现这一目标,关键在于将这些教学视频转化为教科书级别的图文交织训练语料。




2. 方法:如何利用教学视频构建高质量的知识语料


2.1 LLM 辅助分门别类地收集教学视频







2.2 Video-to-Textbook Pipeline



为了将教学视频转化为多模态教科书,我们设计了一个多层级的处理流程,包括 video-level、clip-level 和 keyframe-level,确保数据的高质量和知识的密集性。


(1) Long Video-Level






最终我们保留了 75,000 个高质量教学视频和对应的 ASR。


(2)Video Clip-Level




(3)Keyframe-Level



最后,我们将处理后的关键帧、OCR 文本和 ASR 转录按时间顺序排布,交错组织成多模态教科书。


3. 数据集统计和分析



我们收集了 15.9 万个教学视频,经过元数据审查,去重和 ASR 过滤后保留了 7.5 万个长视频,视频总时长超过 22000 小时 (2.5 年)。这些教学视频囊括数学,物理,化学,地科,工程,计算机六大学科,3915 个知识点。




经过 video-to-textbook pipeline,我们生成了 6.5M 个关键帧、258M ASR tokens 和 500M OCR tokens。我们将其拼接成 610k 个样本,每个样本平均包含 10.7 张图片,1297 个 text tokens。我们观察到样本内图像之间的相似度显著高于先前的 interleaved dataset,例如 MMC4 和 OBELICS。这体现了我们的 textbook 语料中图片之间关系更紧密,知识密度更高。



4. 实验和分析


4.1 实验设置


我们使用主流的多模态模型 LLaVA-1.5-7B 和 Idefics2-8B 作为基座模型,对比 textbook 数据集与 webpage-centric interleaved datasets (MMC4 和 OBELICS) 的持续预训练的效果。


4.2 持续预训练的实验效果


模型性能提升显著:在 Textbook-6.5M 上预训练后,LLaVA-1.5 和 Idefics-8B 在多个基准上表现出显著改进。在 0-shot 到 4-shot 设置下,分别提升了 +3.2%、+8.3%、+4.0% 和 +4.6%。即使对于像 Idefics2 这样的原本支持图文交织输入的 VLM,该 textbook 仍带来了额外 +1.4% 的提升,突出了其丰富的知识内容和高数据质量。


在知识和推理基准上优势明显:在知识导向和推理相关基准上,该数据集相比其他数据集改进显著。例如在 ScienceQA 上,与 MMC4 相比,零样本和少样本设置下均有超过 20% 的提升。在 MathVista 等数学相关基准上,与 OBELICS 相比,平均改进 +5.3% 和 +6.4%。



4.3 “作弊测试” 检验上下文感知 (in-context awareness) 能力






4.4 其他实验


除了上述实验,作者还研究了数据集中图像顺序的影响,指令微调后下游任务性能,以及一系列的消融实验。通过这些实验表明了数据集的高质量。 


总结和展望


我们引入了一种多模态教科书来预训练视觉语言模型,使它们能够以自然且图文交织的方式学习专业知识。通过收集海量的在线教育视频并将其转换为关键帧 - 自动语音识别(ASR)交错数据集,这本教科书提供了一个更加连贯且相互关联的学习语境,补充了传统的图像 - 文本对齐方法。实验证明了其有效性,特别是在 VLMs 的上下文感知和数学推理等方面。此外,这些 textbook 语料不仅仅可以用来做多模态的理解,未来还可以探索利用它们实现任意模态的连续生成,实现更好的世界模型。


作者介绍


本文一作是张文祺 (浙江大学博士生),他的研究基础是基于大模型智能体,多模态模型等,开发了数据分析智能体 Data-Copilot,在 github 上获得超过 1400 stars。共同通讯包括鲁伟明 (浙江大学副教授),李昕(阿里巴巴达摩院算法工程师),其中李昕和张航(本文二作)主导开发了 VideoLlama 系列视频理解模型。其他作者包括浙江大学庄越挺教授,赵德丽(阿里巴巴达摩院基础智能中心主管), 邴立东(达摩院语言技术实验室主管),沈永亮(浙大百人计划研究员),孙嘉硕 (达摩院算法工程师)。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com



阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

多模态知识语料 教学视频 VLMs预训练 知识分类
相关文章