业界首个
视频生成实验模型“VideoWorld”由豆包大模型团队与北京交通大学、中国科学技术大学联合提出。
不同于 Sora 、DALL-E 、Midjourney 等主流多模态模型,VideoWorld 在业界首次实现无需依赖语言模型,即可认知世界。
正如李飞飞教授 9 年前 TED 演讲中提到 “幼儿可以不依靠语言理解真实世界”,VideoWorld 仅通过 “视觉信息”,即浏览视频数据,就能让机器掌握推理、规划和决策等复杂能力。
团队实验发现,仅 300M 参数量下,VideoWorld 已取得可观的模型表现。
现有模型大多依赖语言或标签数据学习知识,很少涉及纯视觉信号的学习。
然而,语言并不能捕捉真实世界中的所有知识。例如,折纸、打领结等复杂任务,难以通过语言清晰表达。
作为一种通用视频生成实验模型,VideoWorld 去掉语言模型,实现了统一执行理解和推理任务。
同时,它基于一种潜在动态模型,可高效压缩视频帧间的变化信息,显著提升知识学习效率和效果。
在不依赖任何强化学习搜索或奖励函数机制前提下,VideoWorld 达到了专业 5 段 9x9 围棋水平,并能够在多种环境中,执行机器人任务。
团队认为,尽管面向真实世界的视频生成和泛化仍存在很大挑战,视频生成依然可以成为一种通用的知识学习方法,并在现实世界充当思考和行动的“人工大脑”。
目前,该项目代码与模型已开源,欢迎体验交流。
VideoWorld: Exploring Knowledge Learning from Unlabeled Videos
论文链接:https://arxiv.org/abs/2501.09781